![]() Institute for Computer Science |
Machine Learning and Natural Language Processing Lab |
||||||||||||||||||||
|
Master ThesisClustering unter Berücksichtigung von Häufigkeitsbedingungen Clustering versucht, unterliegende Verteilungen auf Datensätzen zu finden. Constrained Clustering benutzt Bedingungen, um Vorwissen in den Clustering-Prozess einfliessen zu lassen und dadurch die Ergebnisse zu verbessern. Wir stellen eine neue Art von Bedingungen vor. Diese Häufigkeitsbedingungen sind in der Lage, Hintergrundwissen zu modellieren, das durch existierende Bedingungsformulierungen nicht ausdrückbar ist. Wir formulieren einen Algorithms, auf dem bekannten und bewährten K-Means-Algorithmus basierend, der Clustering unter Berücksichtigung von Häufigkeitsbedingungen durchführt, indem der Erfüllung von Bedingungen Vorrang vor der Verringerung der Distanz zwischen Instanzen gegeben wird. Erste Experimente zeigen, dass diese Art von Bedingungen zur Verbesserung der Clusteringergebnisse beiträgt. |