Institute for Computer Science

Machine Learning and Natural Language Processing Lab

PreviousNext

Master Thesis

Asynchrone Relationale Werte Iteration

Jörg Fischer, 2005


Sequentielle Entscheidungen unter Unsicherheit zu treffen ist ein fundamentales Thema der Künstlichen Intelligenz. Klassische Lösungsverfahren wie z.B. Techniken des Reinforcement Learnings haben Probleme mit Anwendungen, die eine große Zustandsmenge aufweisen. Entsprechend viel Arbeit wurde in Methoden investiert, um trotz großer Zustandsmengen Lösungen zu finden wie z.B. [Givan et al., 2003; Crites, 1996; Tesauro, 1994]. Relationale Value Iteration (RVI) [Kersting et al., 2004] verwendet Techniken aus der Logik, um große Zustandsmengen kompakter darzustellen. Doch selbst bei einer kompakter Darstellung ist der von RVI verwendete vollst¨andige Update sehr berechnungsintensiv, was Interesse an einem teilweisen Update motiviert. In dieser Diplomarbeit wird Asynchrone Relationale Value Iteration (ARVI) eingef¨uhrt, welche einen frei wählbaren teilweisen Update ermöglicht. Dies f¨uhrt zu einer verallgemeinerten Formulierung des Exploration/Exploitation-Problems. Als eine mögliche Lösung wird ein ARVI-Algorithmus namens REAVER vorgestellt und anhand von empirischen Untersuchungen gezeigt, dass asynchrone RVI effzienter als RVI ist.