
Groupe Alliance

Groupe Alliance
Data Scientist (H/F)
Avancé

Contexte
Au sein de l’équipe R&D, le/la Data Scientist interviendra sur des projets autour de l’analyse automatique de contenus audio (en axe majeur) et textuels (en axe secondaire), en lien étroit avec les équipes produit, éditoriales et techniques
Missions principales
- Concevoir et développer des modèles de Machine Learning / Deep Learning pour l’analyse de contenus audio et textuels.
- Travailler sur des projets tels que :
- Extraction automatique de métadonnées musicales pour les besoins de la Discothèque
- Détection de fakes audio et contenus synthétiques pour aider les journalistes, et au delà contribuer à la fiabilité de l'information d'un média public
- Extraction de métadonnées à partir des podcasts ou contenus vidéo, comme les émotions, les jingles, le repérage des parties musicales, etc.
- Réaliser l’exploration, l’annotation et la structuration de jeux de données audio et texte.
- Prototyper, entraîner et évaluer des modèles (POC, benchmarks, analyses comparatives).
- Assurer une veille scientifique et technologique (audio ML, speech, NLP).
- Documenter et présenter nos travaux en interne et à l’extérieur
Compétences techniques clés
- Traitement du signal audio : features acoustiques, spectrogrammes, embeddings audio
- Machine Learning / Deep Learning : CNN, RNN, Transformers, auto-encodeurs
- Speech & Audio ML : classification audio, speech emotion recognition, audio tagging
- MLOps : automatisation d’un pipeline de production de données
- Python et écosystème data (NumPy, PyTorch / TensorFlow, scikit-learn)
- Expérience avec des datasets audio de grande taille et des problématiques bruit / qualité
Atouts appréciés
- NLP : modèles de langage, classification de texte, embeddings, Transformers (BERT, Whisper, etc.)
- MLOps : GitLab CI, Kubernetes, versioning des modèles
- Expérience en recherche appliquée ou projets R&D
- Connaissance des problématiques médias, musique ou radio
- Sensibilité aux enjeux éthiques (IA générative, deepfakes, biais)
- Capacité à vulgariser et présenter des résultats à des publics non techniques
- Intérêt pour la qualité du code (code review, bonnes pratiques de développement)
Qualités attendues
- Curiosité scientifique et esprit d’innovation
- Autonomie et rigueur méthodologique
- Goût pour le travail collaboratif et pluridisciplinaire
- Intérêt marqué pour les contenus audio et culturels
Constitution de l'équipe R&D
- 1 PO et expert des données,
- 3 data scientists
- 1 alternante data scientist (Elle ne prend pas en charge l’industrialisation des algorithmes qu’elle conçoit)
Métiers affiliés
Compétences appréciées
Python
GitlabCI
Kubernetes
Pytorch
Numpy
Tensorflow
Scikit-Learn
Qualités appréciées
- Curiosité
- Autonomie
- Esprit d'équipe