Institute for Computer Science

Machine Learning and Natural Language Processing Lab

PreviousNext

Master Thesis

Erweiterung des Molecular Feature Mining für 3-dimensionale Fragmente

Andreas Hill, 2002


In dieser Arbeit wird eine Erweiterung des Molecular Feature Miners MOLFEA (vgl. [2]) für 3-dimensionale Fragmente vorgestellt. Bei MOLFEA handelt es sich um eine domänenspezifische induktive Datenbank, in der die Datenbasis aus 2-dimensional repräsentierten chemischen Verbindungen besteht. Ziel ist die Suche nach Molekül-Fragmenten (ebenfalls 2-dimensional repräsentiert) in den Verbindungen der Datenbasis, die bestimmte Bedingungen (Constraints) erfüllen. Im wesentlichen sind dabei Constraints in bezug auf die Auftretenshäufigkeiten von Fragmenten in den Molekülen der Datenbasis und in bezug auf syntaktische Eigenschaften der Fragmente möglich. Der Suchalgorithmus, der MOLFEA zu Grunde liegt ist der Levelwise Version Space Algorithmus (LVA) (vgl. [1]). Das Ziel dieser Arbeit war die Erweiterung dieses Data Mining Ansatzes von 2-dimensional (MOLFEA) auf 3-dimensional (MOLFEA3D) repräsentierte Moleküle und Fragmente. Dabei werden sowohl die Moleküle als auch die Fragmente in einem geeigneten Format gespeichert, das alle notwendigen 3D-Informationen enthält. Die Operatoren des Levelwise Version Space Algorithmus wurden an die neuen Strukturen angepasst, der Algorithmus selbst blieb aber unverändert. Der wesentliche Unterschied zwischen den beiden Systemen besteht also darin, dass bei MOLFEA auf 2-dimensionalen Daten gearbeitet wird, während MOLFEA3D auf 3-dimensionalen Daten arbeitet. Dabei werden die Atome der Moleküle und Fragmente durch Atomtypen eines Molekülmechanik-Kraftfeldes repräsentiert. Diese enthalten einen großen Teil der 3-dimensionalen Information und stellen eine feinere Abstufung als die chemischen Elemente dar. Weiterhin wird - ebenfalls mit Hilfe des Molekülmechanik-Kraftfeldes - die Energie berechnet, die ein Fragment in einem Molekül besitzt. Mit einer Energie-Schranke können somit alle Fragmente aussortiert werden, die eine zu hohe Energie besitzen, um - chemisch gesehen - für das Ergebnis relevant zu sein. [1] The Levelwise Version Space Algorithm and its Application to Molecular Fragment Finding, L.De Raedt, S.Kramer, Albert-Ludwigs-Universität Freiburg, Institute for Computer Science [2] Molecular Feature Mining in HIV Data, S.Kramer, L.De Raedt, C.Helma, Institute for Computer Science, Machine Learning Lab, Albert-Ludwigs-Universität Freiburg