Coordinación: Laura Aspirot (laura.aspirot@fcea.edu.uy), Maine Fariello (fariello@fing.edu.uy) y Micaela Long (mlong@fing.edu.uy).
Día y hora: Viernes a las 10:30 am.
Lugar: En general habrá transmisión virtual.
Archivo del seminario (con abstracts).
Día y hora: Viernes 27 de marzo, 10:30 horas.
Título: Online RL for infinite state space problems.
Expositor: Vittorio Puricelli, LAAS-CNRS.
Resumen: For infinite space problems, classical reinforcement learning (RL) algorithms can fail to converge due to unstable behavior. In this talk, we present a path toward addressing this problem and obtaining converge guarantees.
We will start by introducing the fundamental concepts from Markov decision process theory, focusing on the expected discounted cost problem. We then move on to online RL methods, with a particular emphasis on the Q-learning algorithm.
We comment on the convergence of Q-learning for finite state space problems. We argue then that the convergence can be extended for infinite state spaces under certain stability assumptions.
Next, we present a recent result where we show that Q-learning by itself can fail to promote stability, and that an stabilizing scheme is needed to ensure convergence. We will outline the key ideas of the proof of this last result and discuss connections to self-interacting random walk models.
We will end by discussing work in progress in which we aim to develop an online stabilizing scheme that guarantees convergence of Q-learning.
Lugar: Facultad de Ciencias Económicas y de Administración, Salón 1 del EIP (entrando por Lauro Müller).
Datos para la reunión virtual: 870 3301 1104, pass: probable** donde ** es el cuadrado de la unidad imaginaria (dos caracteres).
Primer semestre
Las charlas que serán virtuales están indicadas con un * al lado del expositor. El resto de las charlas son presenciales con transmisión a través de Zoom.
13 de marzo: Paul Mansanarez (Université Libre de Bruxelles - Université de Rennes I) - Edgeworth expansion on Wiener chaos.
20 de marzo: Diego Armentano (IESTA, Universidad de la República) - Polinomios Aleatorios: donde la geometría encuentra a la probabilidad.
27 de marzo: Vittorio Puricelli (LAAS-CNRS) - Online RL for infinite state space problems.
10 de abril: Natalia Bottaioli
17 de abril: Diego Goldsztajn (Universidad ORT)
24 de abril Leandro Bentancur (FCIEN, Universidad de la República).
8 de mayo Marco Scavino (FCEA, Universidad de la República).
15 de mayo: Marcelo Capalbo (Coordinador Selecciones Formativas Masculinas Federación Uruguaya de Basketball. Docente ENE-FUBB).
22 de mayo: Pedro Raigorodsky (FCEA, Universidad de la República).
29 de mayo
5 de junio
12 de junio
26 de junio
Segundo semestre
21 de agosto
28 de agosto
4 de setiembre
11 de setiembre
18 de setiembre
25 de setiembre
2 de octubre
9 de octubre
16 de octubre
23 de octubre
30 de octubre
6 de noviembre
13 de noviembre
20 de noviembre
27 de noviembre
4 de diciembre