(Closed)Safran companies

STAGE - Data augmentation multimodale pour les réseaux de neurones d'image captioning F/H

+3
+5
Massy, Île-de-France, France

+3
+5
Massy, Île-de-France, France

About

Avertissement : Ce site n'est pas recommandé pour les navigateurs Internet Explorer. Veuillez utiliser un autre navigateur Web pour profiter d'une meilleure expérience.

STAGE - Data augmentation multimodale pour les réseaux de neurones d'image captioning F/H

Publié le 08.11.2024

Société : Safran Electronics & Defense
Domaine d'activité : Data
Emplacement : Massy, Ile de France, France
Type de contrat : Stage
Durée du contrat : Temps complet
Diplôme requis : BAC+5
Expérience requise : Jeune diplômé-e/Première expérience
Langue(s) parlée(s) : Anglais Intermédiaire

Contexte :
L'image captioning génère des descriptions textuelles pour des images, reliant vision et langage, avec des applications en accessibilité et recherche d'images. Pour améliorer les performances des modèles, la data augmentation multimodale crée des variations textuelles et visuelles, enrichissant les données et renforçant la robustesse des réseaux.

Objectif du stage :
L'objectif principal de ce stage est d'explorer et de développer des méthodes innovantes de data augmentation multimodale pour améliorer la robustesse des modèles de captioning d'images. Le stagiaire sera amené à :

Étudier et identifier les approches existantes de data augmentation dans les domaines de la vision et du langage.
Concevoir des méthodes de data augmentation multimodale : cela inclut, par exemple, la génération de variations de descriptions textuelles pour une même image, l'ajout de bruit ou de modifications visuelles dans les images, et l'adaptation des techniques de fusion multimodale pour exploiter ces nouvelles données.
Implémenter et tester les méthodes proposées en utilisant des modèles d'image captioning de pointe.
Évaluer l'impact des augmentations multimodales sur les performances des modèles, à travers des métriques standard en image captioning.

Parlons de vous

• Étudiant-e en dernière année d'ingénierie, informatique, ou discipline connexe avec une spécialisation en vision par ordinateur, machine learning ou NLP.
• Connaissance des réseaux de neurones et de la vision par ordinateur, idéalement avec une première expérience en traitement du langage naturel.
• Compétences en programmation (Python, PyTorch/TensorFlow) et en manipulation de données multimodales.

#J-18808-Ljbffr

Nice-to-have skills

Python
PyTorch
TensorFlow
Neural Networks
Computer Vision

Massy, Île-de-France, France

Work experience

Machine Learning
Computer Vision
NLP

Languages

French

Show interest