Redes Profundas de Baunilha

Deep Q Learning Explained

Seg. · 6 min ler

Introdução

Este post será estruturado da seguinte forma:

Vamos passar brevemente pelos métodos de iteração de política geral e diferença temporal. Entenderemos, então, o aprendizado como uma iteração de política geral. Finalmente, vamos entender e implementar o DQN apresentado no artigo da Deepmind “ Playing Atari with Deep Reinforcement Learning” (Mnih et al. 2013) .

Iteração de Política Geral (GPI)

Iteração de política geral

Chamamos de iteração de política geral a alternância entre avaliação de políticas e iteração de políticas. Começamos com alguma política arbitrariamente inicializada, avaliamos a política (denotada como E ), derivamos uma nova política da avaliação (denotada como eu ) e repetimos esse processo até chegarmos a uma política ótima. Por meio desse processo iterativo, obtemos sequências ( aprimoradas ) monotonicamente crescentes de {V_?} e {?}.

Como podemos garantir isso? Vamos dar uma olhada no Teorema de Melhoria de Políticas :

O teorema afirma que o valor da política seguinte ? 'produz um valor maior que o da política seguinte ?. Isto é, a política ? 'é melhor que ?. Provaremos agora o teorema da melhoria de políticas.

Portanto, por meio da interação iterativa de avaliação e iteração de políticas, podemos alcançar nossa função de política e valor ideal.