Mobiles optoelektronisches visuell-interpretatives System für Blinde und Sehbehinderte (MOVIS) An Luo, Wenjing Tao, Sven Utcke

  figure5
Abbildung: Tiefenschätzung zum Landmarken-Finden: das linke Stereobild (oben), die ermittelten 3-D Kanten (mitte) und die Segmentierung nach Farbinformation (unten)

Das MOVIS-System soll zur Orientierungs- und Erkennungshilfe für Blinde und Sehbehinderte in der natürlichen Umwelt dienen. Als Hauptaufgabe der ersten Arbeitsphase ist die Landmarken-Suchhilfe (Landmarkenfinder) zu realisieren.

Landmarken sind charakteristische Ansichten von Ort, die der Blinde/Sehbehinderte für seine Navigation braucht. Aus den Untersuchungsergebnisse der Projektspartnerfirmen wurde eine Gruppe von Landmarken bestimmt, deren Erkennung zur Verbesserung der Sicherheit, Orientierungsfähigkeit und Nutzungsmöglichkeit von Blinden für besonders wünschenwert gehalten wurde, z.B. Telefonzellen, Gebäude-Eingänge, Haltestellen und Bahnsteige, Verkehrsmittel und Schilder, Fußgängerüberwege und Ampeln.

Zur Beschreibung und Erkennung von oben genannten und weiteren Landmarken sind mehrere Merkmale z.B. Tiefe, Farbe, Texture und Schrift zu verwenden, die sich gegenseitig unterstützen können. Zur Ermittlung von Tiefeninformationen, die die dabei wichtigste Rolle spielen, gehört vor allem das binokulare Stereosehen, wo 2-D Stereobildpaare basierend auf der Triangulationsgeometrie ausgewertet werden.

Stereoverfahren teilen sich auf mehrere wesentlicheen Arten; korrelationsbasierte, merkmalbasierte, helligkeitsbasierte usw. In diesem Projekt wurde zunächst ein helligkeitsbasierter Ansatz entwickelt, wobei ein neues, koorperatives Matchingverfahren mit Hilfe eines Mehrgitterverfahrens und einer neuen Bayes'schen Modellierung verwendet wird. Ohne Merkmalextraktion ermittelt der Ansatz die dicht verteilte Tiefe des gesamten Sichtbereichs unter Berücksichtigung von Okklusion und Diskontinuitäten. Die Beschreibung und Wiedererkennung von Landmarken finden nicht unmittelbar auf der Pixelebene der Tiefeninformation statt, sondern müssen auf der Basis der räumlichen Struktur erfolgen, somit dies Tiefenfeld zuerst segmentiert und dann daraus die benötigten invarianten Merkmale extrahiert werden müssen.

Zur Vereinfachung der Lösung wird deshalb ein linien-basiertes Stereoverfahren statt der vollständigen räumlichen Rekonstruktion zu entwickeln. Wie oben erwähnt, sind alle für Blinde und Sehbehinderte wichtigen Landmarken künstliche Gegenstände, die eine gewissene regelmäßige Form haben und sehr oft durch deren gerade Kanten eindeutig charakterisiert werden können. In den beiden Stereobildern einer Szene werden nur gerade Linien extrahiert, die die Kanten der zu suchenden Landmarken sein können. Das Stereo-Matching erfolgt nur auf den Merkmalen von geraden Linien, so daß die wichtigsten Tiefeninformationen, und zwar die an den Kanten, ermittelt werden können. Diese 3-D Kanten können unmittelbar durch ihre Gruppierung zur 3-D Beschreibung von Objekt-Regionen und dann zur eindeutigen Erkennung von Landmarken verwendet werden. Um leichtes und eindeutiges Extrahieren bzw. Matching von Landmarken-Kanten unter dem minimalen Aufwand zu ermöglichen, wird der Algorithmus mit Mehrgitterverfahren implementiert.

Der zweite Lösungsansatz hat viele Vorteile, und zwar einfache Modellierung von Landmarken mit geradlinigen Kanten, damit alle Verarbeitungsstufen vom Stereo-Matching über die 3-D Region-Segmentierung bis zur Suche von Landmarken stark erleichtert werden.

Das Erkennung von Objekten umfaßt im allgemeinen komplexe Klassifikationsleistung: Objekte sollen trotz großer Variabilität, unterschiedlicher Beleuchtung und unterschiedlicher Betrachtungsrichtung erkannt werden. Dazu werden 2D affine und projektive Ansätze, z.B. Fluchtpunktanalyse, untersucht, wo geeignete invariante Merkmale extrahiert werden. Abb.2 zeigt ein Beispiel eines automatisch erkannten Zebrastreifens. Analog lassen sich viele der für Blinde wichtigen Schilder durch eine Kombination einfacher geometrischer Primitive (Dreiecke, Vierecke und Kreise - Ellipsen in 2D-Projektionen) beschreiben. Die Beziehung solcher Primitive zueinander ermöglicht es, Hypothesen zu generieren, die dann am ursprünglichen Bild getestet werden können.

  figure11
Abbildung: Maschinell erkannter Zebrastreifen. Zu beachten ist, daß mit dem Grouping-Prozeß der Zebrastreifen trotz der partiellen Verdeckung durch das Geländer im Vordergrund gefunden wird (rechts).



Sven Utcke
Mon Feb 9 17:45:20 MET 1998