Dr. Martin Riedmiller, Universität Karlsruhe:
Optimierendes Lernen in komplexen Umgebungen am Beispiel Robocup
Computerprogramme, die ihr Verhalten vollständig autonom aus der
Erfahrung von Erfolg oder Misserfolg lernen, sind Gegenstand des
Forschungsgebiets Optimierendes Lernen (engl. Reinforcement
Learning). Besondere Schwierigkeit der hier betrachteten
Problemstellungen ist die zeitliche Verzögerung zwischen Ausführung
und Bewertung einer Handlung (Temporal Credit Assigment
Problem). Lernalgorithmen, die auf der Theorie des Dynamischen
Programmierens basieren, erlauben die Formulierung des Lernproblems
als Optimierungsproblem im Rahmen Markov'scher Entscheidungsprobleme
und erschliessen damit ein sehr weites Feld praktischer
Anwendungen. In der Grundversion ist ihre Anwendbarkeit allerdings auf
endliche und relativ kleine Zustandsraüme beschränkt. Schwerpunkt
unserer Forschungsarbeit ist deshalb die Anpassung der Methoden auf
Probleme mit sehr grossen und/oder kontinuierlichen Zustandsraümen
sowie die Skalierbarkeit der Algorithmen auf komplexe
Aufgabenstellungen.
Im Vortrag wird insbesondere auf den Einsatz von Optimierendem Lernen
im Rahmen unseres Roboterfussball-Teams 'Karlsruhe Brainstormers' -
amtierender Vize-Weltmeister in der Simulationsliga des RoboCup -
eingegangen. Langfristiges Ziel ist das Erlernen des optimalen
Spielverhaltens aller Agenten allein aus der Erfahrung 'Spiel
gewonnen/ Spiel verloren'. Als erster Zwischenschritt wurden in
unserem diesjährigen Wettkampfteam alle massgeblichen
Basisfähigkeiten aus Erfolgs- bzw. Misserfolgserfahrung autonom
gelernt ('zum Ball gehen', 'dribbeln', ...). Für das optimierende
Lernen von taktischen Entscheidungen liegen in Form eines
Lernalgorithmus für verteilte, koopererierende Agenten sowohl erste
theoretische als auch erste empirische Resultate vor. Das breite
Einsatzgebiet des optimierenden Lernens wird an weiteren Beispielen
kurz umrissen.