- +3
- France
À propos
Outscale est un opérateur souverain et durable de l’Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.
Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l’obtention de la qualification SecNumCloud.
Intégré(e) à l’équipe AIFactory d’OUTSCALE, vous assurez l’exploitation, l’optimisation et l’evolution de la chaîne de stockage qui alimente les usines à GPU (clustersNVIDIA) à l’échelle globale (Europe, Amérique du Nord, Asie).
Vous concevez, déployez et supervisez des solutions de stockage haute performance : stockage objet compatible S3 (exaoctetscale), systèmes de fichiers distribues (Ceph, Lustre, BeeGFS, DAOS) et technologiesRDMA, GPUDirectStorage, SPDK ainsi que les protocoles NVMeoF/InfiniBand.
Votre mission est de garantir la disponibilité, la latence ultrafaible et la sécurite des plateformes de stockage, tout en offrant une observabilité complète (métriques, tableaux de bord) et en assurant la continuité de service pour les charges de travail IA a tres forte intensité de données.
Vos missions
Conception & déploiement de fabrics haut débit :
Architecture InfiniBand HDR/NDR et Ethernet Spectrum (RoCEv2)
Dimensionnement pour un service IA à tres grande échelle
Développement & optimisation des communications RDMA
Implémentation de piles RDMA (libibverbs, NVPeerMemory)
Optimisation GPUDirect/GPUDirectRDMA pour un transfert de données ultra rapide sans surcharge CPU
Intégration RDMA / Kubernetes
Utilisation du device plugin NVIDIA pour l’exposition des interfaces RDMA aux pods
Garantir le bon fonctionnement des workloads conteneurises (MPI, NCCL)
Collaboration avec les équipes d’infrastructure
Accélération des pipelines de données et des communications collectives (NCCL, MPI, CUDAAware MPI)
Partage de bonnes pratiques et recettes d’optimisation
Détection et remontée des goulots de performance
Analyse de la latence et de la bande passante avec Prometheus, Grafana, NetQ, UFM
Propositions d’ajustements (MTU, affinage CPUGPU, tuning du firmware)
Gestion d’incident / Ticketing Niveau2 :
Prise en charge des tickets
Documentation
Rédaction de procédures, schémas d’infrastructure
Mise à jour du wiki Confluence et du CMDB (NetBox)
Veille technologique
Suivi des évolutions NVIDIA, Mellanox, standards RDMA, Kubernetes
Proof of concept sur les nouvelles générations de NIC (RoCEv2, InfiniBand EnhancedSpeed)
Stack technique
GPUNVIDIA & cartes réseau Mellanox (InfiniBand, RoCE)
Protocoles RDMA: GPUDirectRDMA, RoCEv2
Programmation basniveau C/C++ ou Rust
Maîtrise de la pile NVIDIA: pilotes Mellanox, libibverbs, NVPeerMemory
Compétences complémentaires (au moins 2 parmi les suivantes) :
Kubernetes (deviceplugin, SRIOV, CNI)
MPI & NCCL (CUDAAware)
Automatisation – Ansible, Terraform, Python/Bash, Git/GitLabCI
Administration Linux (kernel tuning, netfilter)
Outils de supervision – Prometheus, Grafana, UFM, NetQ, Zabbix, NetBox
Votre profil
Diplômé(e) en ingénierie informatique, vous possédez une expérience professionnelle minimum post-diplôme de 2 ans avec les technologies NVIDIA RDMA (GPUDirect, RoCE, InfiniBand) dans des environnements HPC ou IA.
Vous appréciez travailler en équipe et possédez un bon relationnel.
Rigoureux, autonome et réactif, vous êtes naturellement force de proposition.
Nous rejoindre c'est aussi
Intégrer une entreprise scientifique au cœur de l’innovation technologique, portée par une forte croissance depuis plus de 40 ans
Principaux avantages et bénéfices :
Environnement multiculturel
Cadre de travail convivial axé sur le bien-être et la santé
Engagement en faveur de la diversité et de l’inclusion
Politique dynamique de développement de carrière : plan de formation, mobilités internes, etc.
Inclusion statement
As a game-changer in sustainable technology and innovation, Dassault Systèmes is striving to build more inclusive and diverse teams across the globe. We believe that our people are our number one asset and we want all employees to feel empowered to bring their whole selves to work every day. It is our goal that our people feel a sense of pride and a passion for belonging. As a company leading change, it’s our responsibility to foster opportunities for all people to participate in a harmonized Workforce of the Future.
Expérience professionnelle
- DevOps
- System Engineer
- Network Engineer
Compétences linguistiques
- French