Le triage d'un document entrant (ex : mail) nécessite le développement d'un plan de classement spécifique à l'entreprise. Pour qu'un modèle de langage puisse apprendre à réaliser ce triage, des humains doivent produire des exemples d'affectation de documents. Cette tâche s'appelle l'annotation. L'annotation est sujette à l'erreur humaine, on parle de problème de consensus. En général, l'annotateur réalise 30 à 100 annotations par heure selon la complexité de la tâche et la longueur du document à annoter. L'annotation de 10 000 documents prend donc 100-300 heures soit 14-42 jours de travail à temps plein Un travail fastidieux, répétitif et ingrat. L'IA générative (LLama, Bloom, GPT, Bard, Flan-T5…) pourrait permettre d'automatiser tout ou partie de ce travail, mais à quel coût ? avec quel niveau de précision ? quel biais par rapport à une annotation humaine ? Mots clés : IA, IA générative, LLM, données synthétiques, zero-shot learning, few-shot learning, Prompt Engineering, Machine Learning, NLP, Transfer learning, IA frugale. Votre mission ? Dans cette perspective, la Direction Data, Digital et IA en cotutelle de la Direction Scientifique de l'Intelligence Artificielle de Covéa propose un stage de 6 mois. Vos objectifs seront de : · Formaliser une grille d'évaluation d'une annotation automatique par comparaison avec un corpus annoté humainement : fréquence, précision, rappel, consensus, biais, · Implémenter plusieurs stratégies d'annotation automatique basées sur des LLMs : prompt-engineering, finetuning, zero/one/few-shot(s) learning et comparaison de modèles (LLama, GPT3.5, Bloom…) en mettant l'accent sur la reproductibilité et la comparabilité des méthodes. Et concrètement ? · Vous serez impliqué dans la réalisation d'un projet de data science. Vous accéderez aux données, à un environnement Azure-Databricks avec des capacités de calcul GPU (A100), · Vous détaillerez avec les experts data-scientists les critères d'évaluation des méthodes d'annotation automatique que vous proposerez, · Vous dresserez un état de l'art des méthodes d'annotation automatique, avec ou sans LLM/GenAI, · Vous testerez plusieurs stratégies de prompt engineering sur au moins 3 LLMs, · Si c'est pertinent, vous pourrez spécialiser un LLM pour la tâche d'annotation automatique (finetuning & instruction), · Vous évaluerez et comparerez les différentes stratégies d'annotation automatique entre elles et avec les annotations humaines, · Vous entraînerez des modèles de classification avec de petits modèles de langage (ex : CamemBERT) et vérifierez le gain de performance selon la taille du corpus d'entraînement généré. Envie de choisir votre avenir par passion ou par raison ? Et pourquoi pas les deux ? Covéa , c'est un groupe d'assurances puissant réunissant trois marques complémentaires (MAAF, MMA, GMF). C'est également 21 000 collaborateurs qui mettent en commun leur talent et leur enthousiasme pour accompagner nos clients sociétaires et construire le futur de l'assurance. Alors, envie de construire le futur ? Rejoignez-nous