XX
ODHCOM - FREELANCEREPUBLIK

Lead Data Scientist NLP (IT) / Freelance

  • +3
  • +10
  • FR
    Paris, Île-de-France, France
Interesse zeigen
  • +3
  • +10
  • FR
    Paris, Île-de-France, France

Über

Notre client grand compte dans le secteur de l'énergie recherche un Lead Data Scientist spécialisé en données non structurées (données textuelles) pour renforcer le pôle sur la réalisation de projets de NLP.


Mission longue, projet à forts enjeux.


Reprise d'un poste existant sur un projet d'IA générative : pas d'expérience requise sur ce type de projet, en revanche une expérience solide en traitement de données textuelles est attendue.


La préparation de la donnée est aussi importante que la modélisation.


Responsabilités :
  1. Compréhension du besoin métier et accompagnement au cadrage du projet.
  2. Réalisation du projet dans un environnement de travail collaboratif (GIT) usant majoritairement des langages Python et R, de Dash et RShiny pour les dataviz, mais aussi de SQL afin de requêter des bases de données.
  3. Restitution des résultats et accompagnement à la compréhension.
  4. Aider le commanditaire à cadrer le projet en étant force de proposition.
  5. Accompagner techniquement des datascientists.
  6. Requêter les bases de données de l'entreprise.
  7. Recenser et agréger les données de différentes sources.
  8. Analyser et explorer les données.
  9. Modéliser en s'appuyant sur des techniques de Machine Learning, deep learning.
  10. Automatiser et optimiser les traitements.
  11. Analyser les résultats produits pour s'assurer de la qualité des livrables.
  12. Produire des data visualisations si nécessaire et en minimisant les actions de maintenance que cela impliquerait par la suite.
  13. Restituer les résultats des travaux à l'écrit mais également à l'oral devant des commanditaires et en équipe, en apportant une plus-value dans l'analyse.
  14. Accompagner les commanditaires dans la prise en main des livrables.
  15. Documenter les travaux réalisés sur les aspects techniques et fonctionnels.
  16. Capitaliser et travailler en équipe dans une démarche de boucle d'amélioration continue.
  17. Utiliser les données en veillant au respect du RGPD.

Livrables attendus :
  1. Développements réalisés, versionnés et historisés via Git.
  2. Livrables des projets sous forme de fichier Excel, Power Point, Word, Notebook, data visualisation.
  3. Documentation technique et fonctionnelle décrivant l'ensemble des travaux réalisés sur les projets.
  4. Supports de présentation et de restitution auprès des commanditaires.
  5. Communication et éventuelles alertes sur l'avancement des projets.

Profil candidat :

Les compétences suivantes sont attendues :


Compétences indispensables :
  1. Capacité à accompagner techniquement des datascientists.
  2. Maîtrise de Python.
  3. Maîtrise des tâches de pré-traitement des données textuelles (parsing, expressions régulières, enrichissement (POS Tagging, dependency parsing), normalisation via lemmatisation ou stemming, correction orthographique).
  4. Compétences en apprentissage automatique sur des données textuelles via au moins l'un des domaines ci-dessous :

Maîtrise des fondamentaux du Machine Learning :

Compréhension des concepts clés, des algorithmes et des méthodes d'évaluation.


Expertise en Deep Learning :

Connaissance approfondie des architectures de réseaux de neurones, notamment les RNN, LSTM, GRU, et Transformers.


Maîtrise des frameworks de deep learning :

Expérience avec TensorFlow, PyTorch, ou Keras.


Connaissance des techniques « transfer learning » :

Expérience avec des modèles LLMs pré-entraînés comme (CamemBERT, GPT, mistral etc) et leur fine-tuning pour des tâches spécifiques.


  1. Prompt engineering.
  2. Capacité à restituer et communiquer efficacement les résultats des travaux menés en datascience.
  3. Capacité à travailler en équipes avec d'autres professionnels de la donnée.
  4. Appétence à l'innovation et à la veille technologique : capacité à rester à jour avec les dernières avancées en NLP.
  5. Proactivité et dynamisme pour piloter un projet de NLP avec des acteurs de profils variés.
  6. Encadrement d'analystes (délai, accompagnement technique, qualité).

Compétences nécessaires :
  1. Expérience sur l'un ou plusieurs de ces cas d'usage :
  2. Classification multi-class / multi-label.
  3. Analyse de sentiment, opinion mining.
  4. Extraction d'entités nommées.
  5. Segmentation de texte.
  6. Similarité sur les données textuelles.

Génération de texte :

Expérience d'utilisation de LLMs notamment dans des tâches de résumé automatique, synthèse, chatbot etc.


  1. Gitlab : Connaissances de versionning et de partage de code (add, commit, push, pull, ...).
  2. Capacité à travailler en équipe dans des approches agiles.
  3. Gestion de la donnée dans un contexte réglementaire RGPD/AI Act.

MLOps :

Expérience avec des outils et des pratiques pour automatiser le cycle de vie du ML, y compris l'intégration continue, le déploiement continu et la surveillance des modèles.


Intégration et déploiement :

Capacité à intégrer ou packager des modèles entraînés pour les déployer à grande échelle.


  1. Aisance et rigueur rédactionnelle.

Compétences appréciées :
  1. Expérience avec les librairies comme NLKT, spacy etc.
  2. Connaissance des interactions homme/machine.
  3. Envie de faire partager aux autres ses compétences et bonnes pratiques.
  4. Supervision des modèles.
  5. Expérience sur le traitement d'images, de vidéos ou d'audios.
  6. Intérêt fort pour les problématiques métier.
#J-18808-Ljbffr

Wünschenswerte Fähigkeiten

  • Python
  • R
  • SQL
  • Machine Learning
  • Deep Learning
  • LSTM
  • TensorFlow
  • PyTorch
  • Keras
  • Gitlab
  • Paris, Île-de-France, France

Berufserfahrung

  • Machine Learning
  • NLP
  • QA Test Automation

Sprachkenntnisse

  • French