Recherchez une offre d'emploi

Stage en Apprentissage Automatique et Web Sémantique pour la Découverte de Jeux de Données H/F - 06

Description du poste

INRIA
Nice - 06
Stage
Publié le 17 Octobre 2025

A propos d'Inria

Inria est l'institut national de recherche dédié aux sciences et technologies du numérique. Il emploie 2600 personnes. Ses 215 équipes-projets agiles, en général communes avec des partenaires académiques, impliquent plus de 3900 scientifiques pour relever les défis du numérique, souvent à l'interface d'autres disciplines. L'institut fait appel à de nombreux talents dans plus d'une quarantaine de métiers différents. 900 personnels d'appui à la recherche et à l'innovation contribuent à faire émerger et grandir des projets scientifiques ou entrepreneuriaux qui impactent le monde. Inria travaille avec de nombreuses entreprises et a accompagné la création de plus de 200 start-up. L'institut s'eorce ainsi de répondre aux enjeux de la transformation numérique de la science, de la société et de l'économie.Stage en apprentissage automatique et web sémantique pour la découverte de jeux de données

Type de contrat : Stage

Niveau de diplôme exigé : Bac +4 ou équivalent

Fonction : Stagiaire de la recherche

A propos du centre ou de la direction fonctionnelle

L'Inria est l'Institut national de recherche en sciences du numérique, dont le centre Inria d'Université Côte d'Azur fait partie. Avec une forte expertise en informatique et mathématiques appliquées, les projets de recherche du centre Inria d'Université Côte d'Azur touchent toutes les dimensions des sciences et technologies du numérique, et génèrent de l'innovation. Implanté principalement à Sophia Antipolis, mais également à Nice ou Montpellier, il regroupe 47 équipes de recherche et neuf services d'appui. Il est présent dans les domaines de l'intelligence artificielle, la science des données, la sécurité des systèmes informatiques, la robotique, l'ingénierie de réseaux, la prévention des risques naturels, la transition écologique, la biologie numérique, les neurosciences computationnelles, les données de santé... Le Centre Inria d'Université Côte d'Azur est un acteur majeur en termes d'excellence scientifique par les résultats obtenus et les collaborations tant au niveau européen qu'international.

Contexte et atouts du poste

Une multitude de jeux de données en libre accès - qu'ils soient textuels, audio, vidéo ou tabulaires - est aujourd'hui disponible pour un large éventail de tâches en apprentissage automatique, et leur nombre ne cesse de croître à un rythme soutenu. Si cette abondance représente une véritable opportunité, elle soulève également des difficultés croissantes pour les praticiens - qu'ils soient issus du monde académique ou industriel - qui peinent à identifier les ressources les plus adaptées à leurs besoins, faute d'outils de navigation suffisamment performants.

Cette complexité résulte à la fois de la diversité des formats et contenus disponibles, et du manque de dispositifs capables d'orienter efficacement les utilisateurs dans un écosystème en constante expansion. La situation est d'autant plus critique que les systèmes d'intelligence artificielle (IA), en plein essor, s'appuient largement sur ces jeux de données pour leur entraînement et leur évaluation.

Actuellement, deux principaux obstacles freinent l'accès à l'information pertinente :

- D'une part, les jeux de données sont souvent décrits par des métadonnées incomplètes, hétérogènes ou mal normalisées, rendant leur contenu difficile à évaluer.
- D'autre part, les moteurs de recherche disponibles reposent principalement sur des requêtes par mots-clés, ce qui suppose une connaissance préalable du domaine et produit des résultats souvent peu contextualisés.

Dans le cadre du projet DataLens, des résultats préliminaires ont été obtenus, notamment en matière de normalisation, de structuration et d'exploration des jeux de données. Un premier aboutissement concerne le développement d'un prototype dédié à la découverte de jeux de données, combinant une approche de recherche à facettes avec des techniques de visualisation interactive. Un second résultat porte sur l'harmonisation et la structuration des données issues du dépôt HuggingFace, à travers l'alignement des métadonnées avec des vocabulaires standards. Cela a conduit à la conception et à la mise en place d'un graphe de connaissances (CG), visant à faciliter l'intégration interopérable des métadonnées provenant de sources hétérogènes.

Mission confiée

Le stage a pour objectif d'enrichir et d'étendre un graphe de connaissances (CG) existant, en y intégrant des informations relatives aux jeux de données et aux modèles d'apprentissage automatique associés (issus notamment de HuggingFace, Kaggle, ou PapersWithCode).
L'enjeu est de renforcer l'interopérabilité, la structuration et la découvrabilité des ressources, en combinant des approches de web sémantique, de normalisation de métadonnées, et d'apprentissage automatique.

Principales activités

- Étudier la structure actuelle du graphe de connaissances développé dans le cadre du projet DataLens.
- Intégrer les informations relatives aux modèles d'IA associés aux jeux de données du catalogue HuggingFace.
- Définir et implémenter les relations pertinentes entre modèles et jeux de données (ex. isTrainedOn, hasEvaluationDataset, usesArchitecture).
- Concevoir une taxonomie des tâches d'apprentissage automatique (classification, génération, traduction, etc.) selon un schéma SKOS.
- Intégrer cette taxonomie au graphe de connaissances pour améliorer la recherche par type de tâche.
- Mettre en oeuvre des techniques de normalisation des étiquettes via des méthodes d'entity linking (Wikidata, DBpedia).
- Développer un pipeline automatique de correspondance entre champs et sources de données hétérogènes.
- Expérimenter des modèles d'apprentissage automatique (réseaux neuronaux, transformers) pour compléter les métadonnées manquantes.
- Concevoir des tests d'évaluation de la complétion (précision, rappel, F1-score).
- Mettre en place un pipeline reproductible d'enrichissement et de structuration des métadonnées.
- Évaluer la généricité du graphe en intégrant des données issues d'autres plateformes (Kaggle, PapersWithCode).

Compétences

Compétences techniques et niveau requis :Les technologies du Web sémantique (RDF, SPARQL, SKOS) et les méthodes d'apprentissage supervisé ou non supervisé constitueront un atout majeur. Des compétences en programmation (Python) et en analyse de données seront également nécessaires.

Langues : français / anglais

Avantages

- Restauration subventionnée
- Transports publics remboursés partiellement
- Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
- Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
- Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
- Prestations sociales, culturelles et sportives (Association de gestion des oeuvres sociales d'Inria)
- Accès à la formation professionnelle
- Participation mutuelle (sous conditions)

Rémunération

Gratification selon temps de présence.