Site Reliability EngineerExperience AI Solutions • Montreal, Québec, Canada

Postuler Maintenant

Site Reliability Engineer

Experience AI Solutions

Montreal, Québec, Canada

Montreal, Québec, Canada

Postuler Maintenant

À propos

Start Date: July 2026

Type of employment: 12-14 month contract to cover a maternity leave.

Location: Based in Montreal, QC. Completely remote work environment with the option to have a desk in the Montreal office.

Number of Positions: 1

Language skills: Very good English communication skills.

Exciting opportunity for a Site Reliability Professional to join our client’s team! Be at the cutting edge of the latest and greatest Immersive Automotive AI technologies. Build and support our client’s evolutionary voice, gesture and gaze solutions in the public cloud. Leverage the latest in tooling and technologies to deliver the best at velocity!

This role requires your A-Game: Technical proficiency in next generation cloud native applications. Day to day, you’ll be working with Public Cloud, Orchestration, Pipelines, Metrics Visualizations, and Alerting. This SRE opportunity is ideal for someone who enjoys hands-on DevOps and production support work in a modern cloud environment.

We’re looking for someone who can step in quickly and make an impact—supporting day-to-day operations, maintaining reliability, and working within established runbooks and processes. This role is a great fit for a DevOps-focused engineer with strong Kubernetes and Linux experience who thrives in keeping systems running smoothly.

While the engineering team currently owns CI/CD pipeline development, this role plays an important part in supporting and optimizing the overall environment. You’ll use Python as a practical tool for troubleshooting and problem-solving, rather than building applications from scratch.

You’ll be working with a current, cloud-native stack that includes:

Azure
Kubernetes
Grafana & Prometheus (monitoring and observability)
Python
Linux

If you enjoy solving real-world production challenges, working with modern tooling, and being a key contributor to system stability and performance, this is a great opportunity to step in and add value right away.

Responsibilities

Support Production Environments to maintain our 99.95+ SLA
Troubleshoot issues.
Lead/Participate in root cause analysis.
Lead/Participate in blameless Post-mortem.
Target processes for improvement.

Develop Metrics Visualizations

SLI/SLO dashboards.
Escalation dashboards.
Alert dashboards.
Automation Dashboards.

Build, support and execute automation pipelines

SRE Automation.
Service deployments/rollbacks.
Interrogatory.

Engage with development teams

Lead/Participate Service Reliability consulting.
Lead/Participate Production Readiness Reviews.

Required Skills

Experience in at least two relevant scripting or programming languages (Go, Ruby, Perl, Python, Shell, etc.).
Experience with dynamic resource management frameworks; Kubernetes is a must-have.
2 year experience working with cloud platform services (such as Azure, AWS, Google).
Basic understanding of high availability service implementations for redundancy and failover.
Strong UNIX/LINUX server experience, including expertise in system configuration, troubleshooting, performance debugging.
Understanding of network layers (layer 4/layer7).
Understanding of technologies DNS, SSH, HTTP/S, and SSL.
Strong interpersonal skills and writing skills required for this opportunity.
Excellent Communication Skills
An understanding of information and application cybersecurity standards (secure coding, securing SDLC’s etc.)

Preferred Skills

Motivation, dedication and organization.
1 Year working in a distributed service production operations environment.
2 Year working with CI/CD deployment pipelines.
Experience with PromQL and Grafana metrics.
Understanding of CICD processes, pipelines and practices.
Knowledge of ITSM ticketing tools such as Jira.

Professionnel de la fiabilité des sites

Date de début : Juillet 2026

Type d’emploi : Contrat de 12 à 14 mois pour remplacer un congé de maternité.

Lieu : Basé à Montréal (QC). Environnement de travail 100 % à distance avec possibilité d’avoir un bureau au bureau de Montréal.

Nombre de postes : 1

Compétences linguistiques : Très bonne maîtrise de l’anglais à l’oral et à l’écrit.

Une opportunité passionnante pour un professionnel de la fiabilité des sites voulant rejoindre une équipe dynamique. Soyez à la pointe des dernières et des meilleures technologies d'intelligence artificielle pour l'automobile immersive. Construisez et soutenez nos solutions évolutives de voix, de gestes et de regards dans le cloud public. Exploitez les outils et les technologies les plus récents pour offrir le meilleur!

Ce rôle requiert votre meilleur: Une compétence technique dans les applications natives du cloud de nouvelle génération. Au quotidien, vous travaillerez avec le cloud public, l'orchestration, les pipelines, les visualisations de métriques et les alertes. Cette opportunité en SRE est idéale pour quelqu’un qui aime le DevOps concret et le support de production dans un environnement cloud moderne.

On cherche une personne capable de s’intégrer rapidement et d’avoir un impact dès le départ — en soutenant les opérations quotidiennes, en assurant la fiabilité des systèmes et en travaillant avec des runbooks et des processus déjà en place. Ce rôle convient très bien à un(e) ingénieur(e) orienté(e) DevOps, avec une solide expérience en Kubernetes et Linux, qui aime garder les systèmes stables et performants.

Même si l’équipe d’ingénierie s’occupe actuellement du développement des pipelines CI/CD, ce rôle joue un rôle clé dans le support et l’optimisation de l’environnement global. Python sera utilisé surtout comme outil pratique pour le troubleshooting et la résolution de problèmes, plutôt que pour développer des applications à partir de zéro.

Vous travaillerez avec une stack cloud moderne qui inclut :

Azure
Kubernetes
Grafana et Prometheus (monitoring et observabilité)
Python
Linux

Si vous aimez relever des défis concrets en production, travailler avec des outils modernes et contribuer directement à la stabilité et aux performances des systèmes, c’est une excellente occasion d’avoir un impact rapidement.

Responsabilités

Soutenir les environnements de production pour maintenir notre SLA de 99,95+.
Résoudre les problèmes.
Diriger/participer à l'analyse des causes profondes.
Diriger/participer à un post-mortem sans reproche.
Cibler les processus à améliorer.

Développer des visualisations de métriques

Tableaux de bord SLI/SLO.
Tableaux de bord d'escalade.
Tableaux de bord d'alerte.
Tableaux de bord d'automatisation.

Construire, soutenir et exécuter des pipelines d'automatisation

Automatisation SRE.
Déploiements/retours de services.
Interrogatoire.

S'engager avec les équipes de développement

Diriger/participer aux consultations sur la fiabilité des services.
Diriger/participer aux revues de préparation à la production.

Compétences requises

Expérience dans au moins deux langages de script ou de programmation pertinents (Go, Ruby, Perl, Python, Shell, etc.).
Expérience des cadres de gestion des ressources dynamiques (Kubernetes/Docker/Istio).
2 années d'expérience pertinente avec des services de plateforme en nuage (tels que Azure, AWS, Google).
Compréhension de base des implémentations de services de haute disponibilité pour la redondance et le basculement.
Expérience pertinente avec les serveurs UNIX/LINUX, y compris l'expertise dans la configuration du système, le dépannage, le débogage des performances.
Compréhension des couches réseau (couche 4/couche 7).
Compréhension des technologies DNS, SSH, HTTP/S et SSL.
Solides compétences interpersonnelles et compétences rédactionnelles requises pour cette opportunité.
Excellentes aptitudes en communication, français et anglais.

Compétences souhaitées

Motivation, dévouement et sens de l’organisation.
1 années d’expérience dans un environnement d'opérations de production de services distribués.
2 années d’expérience avec des pipelines de déploiement CI/CD.
Expérience avec les métriques PromQL et Grafana.
Compréhension des processus, pipelines et pratiques CICD.
Connaissance des outils de billetterie ITSM tels que Jira
Une compréhension des normes de cybersécurité liées à l’accès à l’information et les applications (codage sécurisé, sécurisation des SDLC, etc.)

Montreal, Québec, Canada

Compétences linguistiques

French

Avis aux utilisateurs

Cette offre provient d’une plateforme partenaire de TieTalent. Cliquez sur « Postuler maintenant » pour soumettre votre candidature directement sur leur site.

Postuler Maintenant