Dr. Martin Riedmiller, Universität Karlsruhe:

Optimierendes Lernen in komplexen Umgebungen am Beispiel Robocup

Computerprogramme, die ihr Verhalten vollständig autonom aus der Erfahrung von Erfolg oder Misserfolg lernen, sind Gegenstand des Forschungsgebiets Optimierendes Lernen (engl. Reinforcement Learning). Besondere Schwierigkeit der hier betrachteten Problemstellungen ist die zeitliche Verzögerung zwischen Ausführung und Bewertung einer Handlung (Temporal Credit Assigment Problem). Lernalgorithmen, die auf der Theorie des Dynamischen Programmierens basieren, erlauben die Formulierung des Lernproblems als Optimierungsproblem im Rahmen Markov'scher Entscheidungsprobleme und erschliessen damit ein sehr weites Feld praktischer Anwendungen. In der Grundversion ist ihre Anwendbarkeit allerdings auf endliche und relativ kleine Zustandsraüme beschränkt. Schwerpunkt unserer Forschungsarbeit ist deshalb die Anpassung der Methoden auf Probleme mit sehr grossen und/oder kontinuierlichen Zustandsraümen sowie die Skalierbarkeit der Algorithmen auf komplexe Aufgabenstellungen.

Im Vortrag wird insbesondere auf den Einsatz von Optimierendem Lernen im Rahmen unseres Roboterfussball-Teams 'Karlsruhe Brainstormers' - amtierender Vize-Weltmeister in der Simulationsliga des RoboCup - eingegangen. Langfristiges Ziel ist das Erlernen des optimalen Spielverhaltens aller Agenten allein aus der Erfahrung 'Spiel gewonnen/ Spiel verloren'. Als erster Zwischenschritt wurden in unserem diesjährigen Wettkampfteam alle massgeblichen Basisfähigkeiten aus Erfolgs- bzw. Misserfolgserfahrung autonom gelernt ('zum Ball gehen', 'dribbeln', ...). Für das optimierende Lernen von taktischen Entscheidungen liegen in Form eines Lernalgorithmus für verteilte, koopererierende Agenten sowohl erste theoretische als auch erste empirische Resultate vor. Das breite Einsatzgebiet des optimierenden Lernens wird an weiteren Beispielen kurz umrissen.