Stage Bénévolat Europe

Orange recrute 01 Stagiaire – Calibration des scores des classifieurs

Orange recrute 01 Stagiaire – Calibration des scores des classifieurs avec des méthodes MODL F/H

orange

LANNION ,France
Informatiques, Télécommunications
Stage : Calibration des scores des classifieurs avec des méthodes MODL F/H
Ref : 0024943 | 16 oct. 2019
Date limite de candidature : 13 nov. 2019
2 avenue Pierre Marzin 22300 LANNION – France
Leaflet
Life At Orange : la campagne
Votre rôle
Dans un problème de classification automatique, les modèles construits sont des fonctions qui prennent en entrée les features d’une instance et renvoient en sortie des scores représentant la fiabilité d’appartenance à chacune des classes du problème. Néanmoins, du fait que les modèles ne sont pas probabilistes ou que les hypothèses du modèle sur les données ne sont pas remplis, ces scores ne représentent pas nécessairement les probabilités d’appartenance à une classe donnée.
Quand un modèle exhibe cette discrépance on dit qu’il n’est pas calibré. Dans certaines applications de la classification automatique, tels que la coupure automatique des appels téléphoniques frauduleux ou le crédit scoring, obtenir une bonne estimation des probabilités d’appartenance est critique parce que les coûts d’une mauvaise classification ne sont pas négligeables et donc le risque est majeur.
L’objectif de ce stage est d’étudier l’application des méthodes MODL (Minimun Optimized Description Length) pour la calibration de « classifieurs ». Plus précisément, on utilisera les méthodes MODL pour l’estimation par morceaux de la densité conjointe entre les classes et les scores issus d’un « classifieur ». Le modèle obtenu peux s’utiliser ensuite comme un calibreur du « classifieur » en question.
Dans la première phase du stage, on étudiera le cas bi-classe, où la méthodologie MODL se réduise à construire un « diagramme de fiabilité supervisé ». En particulier, on s’intéressera à la compétitivité de cette méthodologie par rapport aux méthodes de l’état de l’art : régression isotonique, Platt Scaling, etc.
Dans la deuxième phase on étudiera le cas multi-classe où à priori la méthodologie MODL ne pourra être applicable que dans des problèmes d’au plus dix classes. On se concentrera donc sur la comparaison entre la calibration multi-classe et la consolidation des calibrations mono-classe du problème.
Eléments de Bibliographie :
-Predicting Good Probabilities With Supervised Learning – Niculescu-Mizil & Caruana – 2005
-Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods – Platt – 1999
-Obtaining calibrated probability estimates from decision trees and naive Bayesian classifiers – Zadrozny & Elkan – 2001
-Transforming classifier scores into accurate multiclass probability estimates – Zadrozny & Elkan – 2002
-Calibration Techniques for Binary Classification Problems: A Comparative Analysis – Martino et Al. 2019
-Increasing the Reliability of Reliability Diagrams – Bröckner & Smith – 2006
Votre profil
Dans le cadre de votre formation Bac+5 informatique / math appliquées / statistiques.
– Programmation en Python
– Notions en machine Learning
Ce sujet requiert une bonne culture en informatique et mathématique appliquée.
Entité
L’équipe d’accueil à Orange Labs, spécialisée en apprentissage statistique et analyse de données, compte actuellement 20 membres permanents et 4 doctorants et est reconnue au sein du groupe pour son expertise.
Nous publions régulièrement dans les meilleures conférences et revues internationales du domaine.
Nous vous proposons un stage de 6 mois à compter du 01/03/2020.
Contrat
Stage
Durée du stage : 6 mois
Niveau d’études préparées pendant ce stage : Bac+5

POSTULER
[subscribe]

Laisser un Commentaire

En savoir plus sur Concoursn.com

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Continue reading