Lernen von Konzeptdetektoren mit Trainings-daten aus dem WWW

Khalid Ballafkir

Die fortgeschrittene Entwicklung digitaler Kameras und geeigneter Komprimierungsverfahren für Multimediadaten, sowie die ständig sinkenden Kosten von Speicherhardware und die verbesserten Zugriffsmöglichkeiten darauf führen zu dem bisher ungelösten Problem des Suchens und Findens von Multimediadaten in riesigen Mengen an Informationen. Inhaltsbasierte Bild-Suchmaschinen (Content-Based Image Search Engines) benötigen für die Erstellung von Indexen annotierte Trainingsdaten, die in mühsamer Handarbeit gesammelt werden. Diese Daten werden zum Trainieren von sogenannten Konzept- bzw. Objektdetektoren eingesetzt; Beispiele für Konzepte sind: Auto, Strand, Stadt, Fußball, Menschenmenge, usw.

Das angestrebte Ziel dieser Arbeit war die Entwicklung einer skalierbaren Methode zum Web-basierten und inkrementellen Lernen von Objektdetektoren, um die manuelle Annotation von Trainingsdaten zu vermeiden. Entsprechend wurde im Rahmen der Diplomarbeit ein Prototyp einer webüberwachten inkrementellen Lernmethode für ein System entwickelt, das kontinuierlich Konzeptdetektoren mit Informationen aus dem Web lernt und sie kontinuierlich verbessert. Angestoßen wird dieser Vorgang lediglich durch die Eingabe des Namens des Konzepts, mithilfe dessen Trainingsdaten in Form von Bildern aus dem Web gesammelt werden. Diese durchlaufen textuelle und visuelle Clusterungsmethoden, um Spambilder herauszufiltern. Im Rahmen der Diplomarbeit wurden hierzu verschiedene Clusterungsverfahren evaluiert. Nachdem Clusterungsprozess können allerdings immer noch Spambilder vorhanden sein. Dies wird dadurch kompensiert, dass zu einem Objekt eine sehr große Menge an Bildern aus dem Web gesammelt werden kann, im Gegensatz zu manuell annotierten Datenmengen. Um die Heterogenität der Webbilder angemessen zu berücksichtigen, werden die verbliebenen Cluster der visuellen Clusterung als Subkonzepte interpretiert. Für jedes non-Spam Cluster wird jeweils ein „Random Forest“ gelernt. Alle diese Modelle bilden zusammen eine sogenannte „Random Savanna“. Für die Klassifikationsaufgabe werden diese Modelle mit verschiedenen Strategien kombiniert. Das so gelernte Ensemble-Modell ist besonders flexibel und unterstützt in natürlicher Weise das inkrementelle Lernen der Objektmodelle. Dies ist wichtig, da ständig neue Bilddaten im Web gefunden werden.

Die Performanz der einzelnen Komponenten und des Gesamtsystems wurde durch zahlreiche Experimente auf unterschiedlichen Testmengen überprüft. Im Rahmen dieser Experimente wurde die erreichte Leistungsfähigkeit unter anderem mit verschiedenen State-of-the-Art Methoden (z.B. Support Vector Machine: SVM) hinsichtlich der Erkennungsrate und dem vorherigen Lernaufwand verglichen. Die Ergebnisse der durchgeführten Experimente in Bezug auf die Spamfilterung zeigten eine Steigerung der Präzision um 10 Prozent bei den gefilterten gegenüber den Roh-Webtrainingsdaten und haben somit die Wichtigkeit der Spamfilterung unterstrichen. Die positive Wirkung der Clusterung zu Subkonzepten wurde ebenfalls experimentell gezeigt. Insgesamt haben die Experimente zum einen die Machbarkeit und die Güte der vorgestellten Lernmethode gezeigt, insbesondere wurde eine mit SVM vergleichbare Performanz erreicht. Zum anderen wurde demonstriert, dass die inkrementelle Erweiterung der Modelle zu einer Verbesserung der Detektion führen kann, außerdem lässt sich das System für eine verteilte Ausführung leicht parallelisieren.

Das in der Diplomarbeit vorgeschlagene System kann die Entwicklungskosten einer kommerziellen Softwarelösung für die inhaltsbasierte Bildsuche wesentlich reduzieren, da der manuelle Annotationsaufwand für die Trainingsdaten wegfällt. Durch die leichter zu lernenden Detektoren kann auf einfachere Art eine Multimedia-Suchmaschine erstellt werden, die eine große Menge von Konzepten zur inhaltsbasierten Suche abdeckt. Das bietet wiederum einen Mehrwert im Vergleich zu herkömmlichen Suchmaschinen, die bislang nur auf oftmals subjektiven oder unvollständigen Meta-Informationen basierten.