Institute for Computer Science

Machine Learning and Natural Language Processing Lab

PreviousNext

Master Thesis

Induktive Datenbanken ueber Semistrukturierten Daten

Björn Bringmann, 2004


In dieser Arbeit werden einige Überlegungen aus dem Bereich der induktiven Datenbanken auf semistrukturierte Daten übertragen und angewendet. Es wird ein Data-Mining Verfahren für die Suche nach Mustern verschiedener Definitionen in baumstrukturierten, wie beispielsweise XML-basierten, Daten vorgestellt. Existierende Musterdefinitionen werden erläutert und eine im Rahmen dieser Arbeit entwickelte, neue Musterdefinition, mit diesen theoretisch und experimentell auf reelen und künstlichen Datesätzen verglichen. Es werden verschiedene Bedingungen, die bei Anfragen an die Datenbank genutzt werden können, eingeführt und zwei Pruningverfahren für die Beschleunigung des Algorithmus entwickelt und experimentell Ausgewertet. Beschreibungen für mögliche Erweitungen, wie Paralellisierung, Muster mit variablen Knotenbezeichnern und das Betrachten von Graphen statt Bäumen in der Datenbasis, beenden die Arbeit.