Orange recrute 01 Stagiaire - Apprentissage par renforcement

Orange recrute 01 Stagiaire – Apprentissage par renforcement pour l’optimisation de campagne marketing F/H

orange

LANNION,France

Informatiques, Télécommunications

Stage – Apprentissage par renforcement pour l’optimisation de campagne marketing F/H

Ref : 0024867 | 29 janv. 2020

Date limite de candidature : 26 févr. 2020

2 avenue Pierre Marzin 22300 LANNION – France

Leaflet

Votre rôle

L’objectif de ce stage de 6 mois à compter de mars 2020 est d’améliorer un algorithme existant de bandit contextuel conçu pour l’optimisation de campagne marketing.

Orange lance régulièrement des campagnes marketing pour promouvoir ses produits et services. L’objectif est de trouver parmi les clients d’Orange, ceux qui sont susceptibles de souscrire au service lorsqu’ils sont sollicités par une campagne marketing.

La méthode habituelle consiste à construire des top-scores en inférant un modèle prédictif à partir des profils des clients qui ont déjà souscrit sans aucune sollicitation. Malheureusement, il arrive que les campagnes marketing basées sur les top-scores soient inefficaces, car elles ciblent les clients qui auraient souscrit au service sans aucune sollicitation.

Une autre approche consiste à poser le problème de l’optimisation de campagnes marketing comme un problème d’apprentissage par renforcement. Le but est alors de maximiser le nombre total de souscriptions (la récompense cumulée) en choisissant séquentiellement la campagne marketing d’un client en fonction de son profil et des souscriptions précédentes.

L’objectif du stage est d’améliorer un algorithme existant de bandit contextuel conçu pour l’optimisation de campagne marketing. Cet algorithme utilise une approche de random forest pour choisir la meilleure action (i.e. la meilleure campagne marketing) étant donné un contexte observé (i.e. le profil du client et la description de la campagne) et les précédentes interactions (l’historique profil client, campagne choisie, souscription o/n). Nous avons précédemment montré que cet algorithme est quasiment optimal pour le problème du bandit contextuel.

Néanmoins, il a deux défauts : une efficacité d’échantillonnage empirique (i.e. nombre d’interactions nécessaires) moyenne et pas d’adaptation aux environnements évolutifs.

Vous testerez deux approches pour améliorer l’efficacité d’échantillonnage effective : une consistant à utiliser un meilleur algorithme de choix des variables de coupure utilisées dans les arbres, et l’autre consistant à choisir des combinaisons de variables de coupure plutôt qu’une seule.

Pour les environnements évolutifs, vous évaluerez deux approches : la première consistant à construire une fenêtre glissante de modèles, et l’autre consistant à détecter les changements de performances des modèles construits à différents instants.

La validation des approches s’appuiera sur une étude expérimentale et éventuellement sur une étude analytique. Le résultat attendu du stage est en plus du rapport de stage, un code en C++ et une publication dans une conférence.

Votre profil

Dans le cadre de votre formation BAC+5 informatique / math appliquées / statistiques, vous êtes à la recherche d’un stage de 6 mois

Ce sujet requiert une bonne culture en informatique et mathématique appliquée.

Entité

L’équipe d’accueil à Orange Labs, spécialisée en apprentissage statistique et analyse de données, compte actuellement 20 membres permanents et 4 doctorants. L’équipe est reconnue au sein du groupe pour son expertise. Nous publions régulièrement dans les meilleures conférences et revues internationales du domaine.

Contrat

Stage

Durée du stage : 6 mois

Niveau d’études préparées pendant ce stage : Bac+5

POSTULER[subscribe]