Philippe Preux, Université de Lille, CRIStAL et INRIA Lille.

Les robots occupent une place de plus en plus grande autour de nous: les robots physiques tels les drones et certains dispositifs médicaux, les robots logiciels qui recommandent des produits sur Internet ou jouent à des jeux de plateau n’en constituent que quelques exemples.

Ces robots interagissent avec leur environnement et prennent des décisions pour réaliser la tâche qui leur est assignée.

Dans un environnement a priori inconnu ou partiellement connu, le robot doit apprendre à agir pour accomplir sa tâche. Cette situation est attaquée par les méthodes d’apprentissage par renforcement.

Au cours de cette conférence, je présenterai la problématique de la prise de décision séquentielle dans l’incertain ainsi que les principales approches algorithmiques d’apprentissage par renforcement et du problème dégénéré connu sous le nom de bandits.