PAC RL

Optimistic PAC Reinforcement Learning: the Instance-Dependent View

Optimistic algorithms have been extensively studied for regret minimization in episodic tabular Markov Decision Processes (MDPs), both …

Andrea Tirinzoni, Aymen Al Marjani, Emilie Kaufmann

Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs

In probably approximately correct (PAC) reinforcement learning (RL), an agent is required to identify an $\epsilon$-optimal policy with …

Andrea Tirinzoni, Aymen Al Marjani, Emilie Kaufmann