STAGE - Data augmentation multimodale pour les réseaux de neurones d'image captioning F/H
- +3
- +5
- Massy, Île-de-France, France
- +3
- +5
- Massy, Île-de-France, France
About
Avertissement : Ce site n'est pas recommandé pour les navigateurs Internet Explorer. Veuillez utiliser un autre navigateur Web pour profiter d'une meilleure expérience.
STAGE - Data augmentation multimodale pour les réseaux de neurones d'image captioning F/HPublié le 08.11.2024
Société : Safran Electronics & Defense
Domaine d'activité : Data
Emplacement : Massy, Ile de France, France
Type de contrat : Stage
Durée du contrat : Temps complet
Diplôme requis : BAC+5
Expérience requise : Jeune diplômé-e/Première expérience
Langue(s) parlée(s) : Anglais Intermédiaire
Contexte :
L'image captioning génère des descriptions textuelles pour des images, reliant vision et langage, avec des applications en accessibilité et recherche d'images. Pour améliorer les performances des modèles, la data augmentation multimodale crée des variations textuelles et visuelles, enrichissant les données et renforçant la robustesse des réseaux.
Objectif du stage :
L'objectif principal de ce stage est d'explorer et de développer des méthodes innovantes de data augmentation multimodale pour améliorer la robustesse des modèles de captioning d'images. Le stagiaire sera amené à :
- Étudier et identifier les approches existantes de data augmentation dans les domaines de la vision et du langage.
- Concevoir des méthodes de data augmentation multimodale : cela inclut, par exemple, la génération de variations de descriptions textuelles pour une même image, l'ajout de bruit ou de modifications visuelles dans les images, et l'adaptation des techniques de fusion multimodale pour exploiter ces nouvelles données.
- Implémenter et tester les méthodes proposées en utilisant des modèles d'image captioning de pointe.
- Évaluer l'impact des augmentations multimodales sur les performances des modèles, à travers des métriques standard en image captioning.
• Étudiant-e en dernière année d'ingénierie, informatique, ou discipline connexe avec une spécialisation en vision par ordinateur, machine learning ou NLP.
• Connaissance des réseaux de neurones et de la vision par ordinateur, idéalement avec une première expérience en traitement du langage naturel.
• Compétences en programmation (Python, PyTorch/TensorFlow) et en manipulation de données multimodales.
Nice-to-have skills
- Python
- PyTorch
- TensorFlow
- Neural Networks
- Computer Vision
Work experience
- Machine Learning
- Computer Vision
- NLP
Languages
- French