Direkt zum Inhalt | Direkt zur Navigation

Eingang zum Volltext

Lizenz

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:25-opus-61503
URL: http://www.freidok.uni-freiburg.de/volltexte/6150/


Setia, Lokesh

Machine learning strategies for content based image retrieval

Maschinelle Lernstrategien fuer inhaltsbasierte Bildsuche

Dokument1.pdf (8.276 KB) (md5sum: a5f9f936ab6df49f2c426d483c6708f4)

Kurzfassung in Englisch

The ever increasing amount of digital information has created a need for effective information retrieval systems. As it is said, information which cannot be found easily is as good as lost. As information comes in various formats and types, their retrieval mechanisms also need to differ correspondingly. In this work, we deal with the task of content based image retrieval, in which the system facilitates the interaction between a user and an image database by automatic analysis of the image content.

We know about the ambiguities that can exist even in the simplest of phrases in a natural language. As an example, a sentence such as "Flying planes can be dangerous" can either mean "Flying planes are dangerous" or "Flying planes is dangerous". Images are no different. In fact, the old saying "A picture is worth a thousand words" is as true here as it is anywhere. In this work, we take the view that these ambiguities are natural, and thus the system should not take the one or the other viewpoint from the very beginning. The earliest systems for image retrieval allowed the user to specify his or her viewpoint by giving access to its internal system parameters, which can be complicated or tiring for the user. A modern system, on the other hand, seeks to learn this viewpoint by imposing less responsibilities on the user. This can be achieved using relevance feedback, in which the user progressively gives the system more and more information, in return for better results. Relevance feedback can be short-term, in which the data collected is discarded as soon as the session is over, and long-term, in which the data can be collected over multiple sessions of one user, or even over multiple users. In this work, however, we will constrain ourselves to short-term relevance feedback, as in our view the ambiguities or the multiple interpretations present in an image cannot be handled otherwise.

The later part of the thesis delves into image search as an offshoot of the traditional text-based search engines. To this end, we explore the possibility of annotating an image database using keywords. One advantage of this approach is that the user does not need to provide a suitable starting image for the query. An equally important advantage is that the annotation process can be carried out offline for the whole database, unlike relevance feedback which must be carried out in real time. Apart from annotation, we show that further data mining operations can also be carried out on image databases, which can contribute to improving the effectiveness of the image search engine. We conclude with the demonstration of various algorithms on a real life medical image database in which very competitive results could be achieved in recent international benchmarks.


Kurzfassung in Deutsch

Die stets ansteigende Zahl digitaler Informationen hat die Notwendigkeit effizienter Informationsuchmachinen geschaffen. Informationen die man nicht leicht wiederfinden kann, könnten auch genau so gut verloren sein, so sagt man. Weil Informationen in den unterschiedlichsten Formaten und Typen vorkommen können, müssen auch die Suchmechanismen entsprechend unterschiedlich sein. In der vorliegenden Arbeit beschäftigen wir uns mit der inhaltsbasierten Bildsuche, die dem Benutzer die Interaktion mit einer Bilddatenbank mittels automatischer Analyse des Bildinhaltes erleichtert.
Wir kennen die Mehrdeutigkeiten, die sogar in sehr einfachen Sätzen natürlicher Sprachen existieren. Ein Satz wie "Flying planes can be dangerous" kann unterschiedliche Bedeutungen haben ("Es kann gefährlich sein Flugzeuge zu fliegen" vs "fliegende Flugzeuge können gefährlich sein."). Das gleiche gilt auch für Bilder. Tatsächlich ist das alte Sprichwort: "Ein Bild sagt mehr als tausend Worte" hier treffender als irgendwo sonst. Dieser Arbeit liegt die Ansicht zugrunde, dass diese Mehrdeutigkeiten normal sind, und dass das System nicht im Vorhinein eine mögliche Bedeutung einer anderen bevorzugen sollte. Die frühesten Image Retrieval Systeme erlaubten dem Benutzer seine Sichtweise zu spezifizieren, indem sie ihm Zugang zu internen Systemparametern gewährten. Diese zu spezifizieren ist wenn nicht zu kompliziert so doch zumindest sehr mühsam. Ein modernes System versucht die Sichtweise des Benutzers zu lernen und somit dem Benutzer weniger Verantwortung zu überlassen. Dies kann mittels Relevance Feedback realisiert werden, wobei der Benutzer dem System nach und nach mehr Informationen gibt, in der Hoffnung auf bessere Ergebnisse. Man unterscheidet zwischen Kurzzeit-Relevance Feedback, bei welchem die gesammelten Daten nach jeder Session verworfen werden, und Langzeit- Relevance Feedback, bei welchem die Daten über mehrere Sessions eines Benutzers oder sogar für mehrere Benutzer gesammelt werden. In dieser Arbeit beschäftigen wir uns jedoch ausschließlich mit Kurzzeit-Relevance Feedback, da sich unserer Meinung nach die in digitalen Bildern vorhandenen Mehrdeutigkeiten nicht anders modellieren lassen.
Im nächsten Teil der Arbeit wird die Bildsuche als Erweiterung traditioneller textbasierter Suchsysteme eingehend analysiert. Hierzu wird die Möglichkeit der Bildannotation mittels Schlüsselwörtern betrachtet. Ein Vorteil dieser Methode liegt darin, dass der Benutzer kein passendes Startbild für die Anfrage zur Hand haben muss. Ein ebenso wichtiger Vorteil besteht darin, dass der Annotationsschritt anders als Relevance Feedback offline vorgenommen werden kann. Darüber hinaus zeigen wir, dass weitergehende Data Mining Operationen auf Bilddatenbanken ausgeführt werden können, die dazu beitragen die Effektivität der Bildsuchmaschine zu steigern. Schließlich demonstrieren wir die Anwendung verschiedener Algorithmen auf einer realen medizinischen Datenbank, auf der sehr wettbewerbsfähige Ergebnisse erzielt werden konnten.


SWD-Schlagwörter: Relevanz-Feedback , Maschinelles Lernen
Freie Schlagwörter (deutsch): Bildsuche
Freie Schlagwörter (englisch): relevance feedback , machine learning , image retrieval
Institut: Dekanat Fakultät für Angewandte Wissenschaften
Fakultät: Technische Fakultät (bisher: Fak. f. Angew. Wiss.)
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Erstgutachter: Burkhardt, Hans (Prof. Dr.-Ing.)
Sprache: Englisch
Tag der mündlichen Prüfung: 19.06.2008
Erstellungsjahr: 2008
Publikationsdatum: 22.12.2008
Indexliste