Malheureusement, cette offre d'emploi a expiré.
Compagnie

OrangeVoir plus

addressAdresseLannion, Côtes-d'Armor
salary Un salaireCDI
CatégorieEnseignement

Description de l'emploi

votre rôle

Votre rôle est d'effectuer un travail de thèse sur les « architectures connexionnistes pour données tabulaires et hétérogènes. »

Contexte global et problématique du sujet

Que ce soit sous forme de tables marketing ou d'historiques de réseau ou de capteurs, les données tabulaires et multi-tabulaires sont omniprésentes dans l'industrie et à Orange en particulier. Contrairement aux données d'image ou de texte, ces données sont hétérogènes car elles combinent plusieurs types de valeurs : des valeurs catégorielles qui sont souvent déséquilibrées et « creuses », et des valeurs numériques qui peuvent être continues, entières ou tronquées.

Malgré les efforts récents pour déployer des architectures et des prétraitements adaptées [1,2,3,5,6], les réseaux de neurones restent moins performants sur les données tabulaires que des modèles classiques comme XGBoost ou Random-Forest [4,5].

Les modèles connexionnistes présentent pourtant de nombreux avantage par rapport aux modèles classiques : ils permettent d'intégrer de manière souple des problèmes de natures différentes comme le préentrainement non supervisé, l'adaptation de domaine ou le plongement sémantique des données.

Objectif scientifique - résultats et verrous à lever

La gestion efficace des données tabulaires avec des réseaux de neurones profond est encore un problème ouvert. Selon [5], les données tabulaires sont le dernier « bastion à conquérir » pour les réseaux de neurones profonds.

Une des faiblesses identifiées des réseaux de neurones sur ces données est leur incapacité à traiter efficacement -- par descente de gradient -- des mixtures de variables discrètes et continues [6,7]. L'objectif de cette thèse sera donc d'étudier l'encodage et le décodage de ce type de variables et de proposer des méthodes automatiques pour optimiser ces pré/post-traitements.

On considérera plusieurs pistes pour aborder le problème :
  • Les projections aléatoires et les réseaux de neurones à prototypes
  • Les fonctions d'activation périodiques [7]
  • L'hybridation de méthodes connexionnistes et formelles
  • L'apprentissage par renforcement et les gradients implicites
Références

1. N. Park et al. « Data synthesis based on generative adversarial network » VLDB 2018

2. L. Xu et al. « Modeling Tabular data using Conditional GAN » NeurIPS 2019

3. S. O. Arik et T. Pfister, « TabNet: Attentive Interpretable Tabular Learning » AAAI 2021

4. R. Shwartz-Ziv et A. Armon, « Tabular Data: Deep Learning is Not All You Need » ICML 2022

5. A. Kadra et al. « Well-tuned Simple Nets Excel on Tabular Datasets » NeurIPS 2021

6. V. Borisov et al. « Deep Neural Networks and Tabular Data: A Survey » (ArXiv 2022)

7. Y. Gorishniy et al. « On Embeddings for Numerical Features in Tabular Deep Learning » (ArXiv 2022)

votre profil

Impératif : vous avez un Master 2 ou un diplôme équivalent (ingénieur) dans l'un ou plusieurs des domaines suivants : Maths-Info / Apprentissage statistique / Science des données / Statistiques / Traitement du signal.

Vous avez de solides connaissances en Apprentissage Statistique.

Vous êtes autant passionnés par les aspects théoriques que pratiques de cette discipline.

Vous avez une curiosité pour la recherche, vous êtes rigoureux et méthodique.

Vous avez un très bon niveau en anglais et vous lisez couramment l'anglais technique.

Vous maîtrisez python et au minimum une des deux librairies tensorflow ou pytorch.

Une première expérience en recherche (stage ou article publié) sera un plus.

le plus de l'offre

Ce projet présente des enjeux importants. Il doit permettre à terme de disposer d'algorithmes utilisables par des services opérationnels à Orange.

Il aborde un sujet encore récent dans la communauté IA (la majorité des publications date d'après 2020).

Ce sujet présente à la fois des aspects théoriques et pratiques. Il permet d'envisager ensuite une évolution vers les métiers de la recherche en apprentissage artificiel, les métiers autour de la science des données, etc.

Vous travaillerez avec des moyens techniques conséquents (serveurs multi-GPUs, GCP, HPC), dans une équipe de haut niveau en recherche et développement, dont l'expertise en traitement statistique des données et apprentissage est reconnue au sein d'Orange et sur le plan international.

Vous profiterez du cadre de vie exceptionnel qu'offre la ville de Lannion.

entité

L'ambition de la division Innovation est de porter plus loin l'innovation d'Orange et de renforcer son excellence technologique, en mobilisant ses capacités de recherche pour nourrir une innovation responsable au service de l'humain, éclairer les choix stratégiques du Groupe à long terme et influencer l'écosystème numérique mondial.

Nous formons les expertes et les experts des technologies d'aujourd'hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité.
La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l'innovation dont 720 chercheurs. Porteurs d'une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, experts en science des données, sociologues, graphistes, marketeurs, experts en cybersécurité…), les femmes et les hommes d'Orange Innovation sont à l'écoute et au service des pays, des régions et des unités d'affaire pour faire d'Orange un opérateur multi-services de confiance.

Au sein d'Orange Innovation, vous serez intégré(e) dans une équipe basée à Lannion. Cette équipe, spécialisée en apprentissage statistique et analyse de données, compte actuellement 15 membres permanents et 3 doctorants. Elle est reconnue au sein du groupe pour son expertise et à l'international par des publications régulières dans des conférences et revues de premier plan.

contrat

Thèse

Orange

Refer code: 14605. Orange - Le jour d'avant - 2022-08-11 15:17

Orange

Lannion, Côtes-d'Armor

Partager des emplois avec des amis