Eingang zum Volltext

Lizenz

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:25-opus-62371
URL: http://www.freidok.uni-freiburg.de/volltexte/6237/


Teynor, Alexandra

Visual object class recognition using local descriptions

Erkennung visueller Objektklassen mit Hilfe lokaler Beschreibungen

pdf-Format:
Dokument 1.pdf (76.957 KB)
Gedruckte Ausgabe:
Print-On-Demand-Kopie


Kurzfassung in Deutsch

Die vorliegende Arbeit beschäftigt sich mit der Erkennung von Elementen visueller Objektklassen in digitalen Bildern, eine Aufgabe, die sich beispielsweise bei der Verwaltung großer Bild- und Videodatenbanken stellt. Bilder, die bestimmte Objekte enthalten, sollen leicht (wieder-) gefunden werden. Ziel ist es, Verfahren zu entwickeln, die nur auf den Bilddaten selbst beruhen.

Das grundlegende Prinzip der in dieser Arbeit vorgestellten Methoden ist dabei die Verwendung von lokalen, visuellen Merkmalen, die aus den Bildern extrahiert werden. Die Arbeit besitzt zwei Schwerpunkte: der erste Teil beschäftigt sich mit der Identifikation und der Repräsentation von Objektteilen. Der zweite Teil beleuchtet Methoden, wie die Objektteile miteinander in (örtliche) Verbindung gesetzt werden können, um damit verschiedene Objektklassen zu modellieren. Im Folgenden werden die beiden Schwerpunkte kurz beschrieben.


Identifikation von Teilen

Um Orte für die lokale Merkmalsextraktion zu bestimmen, werden Punkte mit gewünschten Eigenschaften identifiziert. Welchen Kriterien diese Punkte entsprechen müssen, hängt von der Anwendung ab. Die Analyse einer Vielzahl von Detektoren zeigte, dass eine zu frühe Beschränkung der Art der detektierten Strukturen die Klassifikationsleistung negativ beeinflusst. Der von uns in dieser Arbeit verwendete Loupias-Detektor besitzt diesbezüglich sehr gute Eigenschafen. Er beruht auf einer Waveletanalyse des Signals, liefert in seiner Originalversion jedoch keine Größeninformation. Daher wurde dieser Detektor mit Hilfe eines Skalenselektionsverfahrens erweitert. Mit diesem neuen Detektor konnten bei Tests hervorragende Ergebnisse erzielt werden.

An den detektierten Stellen im Bild werden verschiedene Merkmale berechnet, welche die lokale Struktur beschreiben. Diese Merkmale werden zur Konstruktion von Teilewörterbüchern verwendet, deren Einträge als Bausteine zur Erstellung von Objektklassenmodellen dienen. In dieser Arbeit konnte gezeigt werden, dass komplizierte, zeitintensive Verfahren, welche die genaue Anordnung der Lernstichproben in Merkmalsräumen berücksichtigen, zur Bestimmung der Prototypteile nicht nötig sind. Vielmehr reicht ein einfaches, sequenzielles Verfahren (MBSAS-clustering) aus, um geeignete Teilewörterbücher zu erzeugen. Die Berechnungszeit solcher Wörterbücher konnte von mehreren Tagen auf wenige Stunden reduziert werden.

In herkömmlichen Teilewörterbüchern werden nur visuell ähnliche Strukturen zu Prototypteilen zusammengefasst. Bestimmte, semantisch äquivalente Teile eines Objekts können jedoch sehr unterschiedliche visuelle Ausprägungen haben. In dieser Arbeit wurde ein Verfahren entwickelt, visuell unterschiedliche, aber semantisch ähnliche Teile zu assoziieren. Dies geschieht mit Hilfe eines semantischen Ähnlichkeitsmaßes, das auf örtlichen Auftretensverteilungen beruht.


Assoziation von Teilen zur Objektmodellierung

Im zweiten Teil der Arbeit werden verschiedene Verfahren vorgestellt, einzelne Prototypen aus den Teilewörterbüchern zueinander in Verbindung zu setzten. Die Auswertung der relativen Position von Paaren lokaler Teile führt zu sogenannten cluster co-occurrence Matrizen. Diese Matrizen wurden als Merkmale zur Klassifikation von Röntgenaufnahmen eingesetzt. Damit konnten im "ImageCLEF medical image annotation" Wettbewerb in den Jahren 2006 und 2007 ausgezeichnete Ergebnisse erzielt werden.

Mit Hilfe lokaler Teile kann neben der Klassifikation auch die exakte Position eines Objektes im Bild ermittelt werden. Im Rahmen dieser Arbeit wurde eine Methode entwickelt, die nicht nur die Lage und Größe eines Objekts, sondern auch dessen Orientierung erkennt. Diese beruht auf einem Hough-Mehrheitsverfahren und beachtet die Orientierung der einzelnen Detektionen im Bild.

Bei Verfahren zur Bestimmung der wahrscheinlichen Lageparameter eines Objekts liegt die Annahme zugrunde, dass ein Objekt der Klasse im Bild vorhanden ist. Ob dies tatsächlich der Fall ist, wird nicht überprüft. Daher wird in dieser Arbeit vorgeschlagen, die Positionsparameterbestimmung mit der Erzeugung von lokalen Teilehistogrammen zu kombinieren, um damit eine Klassifikation von Bildern zu ermöglichen. Von Regionen mit einer hohen Auftretenswahrscheinlichkeit für das Objekt werden lokale Histogramme berechnet. Um die Klassifikationssicherheit von herkömmlichen regionenbasierten Histogrammen zu steigern, wurden SCP (spatially coherent parts) Histogramme entwickelt. Diese bestehen nur aus den Teilen, die für eine bestimmte Parameterkombination eines Objektes gestimmt haben. Dadurch entstehen Vorteile bei teilweise verdeckten Objekten sowie Objekten, durch die der Hintergrund durchscheint. Ein Test der neuen Verfahren auf einer schwierigen Fahrraddatenbank hat deren klare Überlegenheit gegenüber globalen Histogrammansätzen gezeigt.

Kurzfassung in Englisch

This work is concerned with the recognition of visual object class members in digital images. The fundamental principle of all methods employed in this work is the use of local, visual features extracted from the images. There are two emphases: the first half of the work deals with the identification and the representation of the local object parts, the second half analyzes and proposes methods how to relate the object parts in order to build object class models. In the following, we give a short overview about the two emphases:


Determining parts

In order to identify locations for feature extraction, interest point detectors are used. Depending on the precise type of the detector, different kinds of structures can be discovered. We evaluated the properties of several detectors and could show that restricting the type of structure to be found too early can be harmful for the recognition performance. In this respect, the wavelet-based Loupias detector used in this work possesses beneficial properties. However, in its original version, it does not provide any scale information. For this reason, we extended the Loupias detector by a Laplacian scale selection mechanism. we could obtain superior results using this extended detector in a challenging animal classification task proposed by the MUSCLE Network-of-Excellence.

From the regions discovered by the individual interest point detectors, visual features are calculated. These local descriptions of the structures under consideration can be used to construct part dictionaries or visual codebooks. The individual entries of these dictionaries serve as building blocks for object class models.

In this work, we analyzed different state-of-the art methods for building visual codebooks. We were able to show that difficult, time-consuming algorithms, that try to recover the precise layout of the samples in feature space are not necessary. A simple sequential algorithm (MBSAS-clustering) is sufficient to construct high quality codebooks. In this way, we were able to reduce the time for constructing visual codebooks from several days to few hours.

The visual codebooks contain a variety of different visual parts. Certain structures might have a common semantic meaning, but look considerably different. Treating these semantically related, but visually different entities separately can spoil the recognition performance. This work presents a method how these semantically related parts can be associated by comparing their object reference point distributions. Using semantically recombined features leads to improved recognition performance for nearest neighbor classifiers and enhanced speed for SVM based classification.


Relating parts

The second focus of this work is on methods how to combine the prototype parts to create object class models. An established way is to just consider the occurrence frequencies of the individual structures.

A more sophisticated technique is to examine the pairwise relationship of the parts. This lead to the development of cluster co-occurrence matrices. These features were used for the classification of radiograph images in the ImageCLEF medical image annotation challenge. Superior results could be achieved for the 2006 and 2007 competitions.

The local parts can also be used to recover the positional parameters of an object. In this work, we present a method that is not only capable of estimating the location and the scale of an object, but also its orientation. This is achieved by using a Hough-like voting scheme and object reference point distributions as well as the orientation of the local detections in the image.

Methods to identify probable object parameters already assume that the object is indeed present in an image, but it can not be inferred whether this is true. We propose to combine an object parameter estimation stage and the creation of local histograms from the estimated object region to enable object classification. To improve the capabilities of the traditional regional histograms, we have developed histograms of spatially coherent parts (SCP). These are histograms only from parts that agree on a specific object parameter configuration. Tests on a challenging bicycle database have shown the superiority of the approach compared to a global bag-of-features approach.


SWD-Schlagwörter: Mustererkennung , Bildverarbeitung , Objektklasse , Bilddatenbank , Maschinelles Lernen
Freie Schlagwörter (deutsch): Objektklassenerkennung , Objektsuche , teilebasiertes Objektmodell
Freie Schlagwörter (englisch): image retrieval , visual object class recognition , part based object models
CCS Klassifikation H.3.1 Cont , H.3.3 Info , I.4.8 Scen , I.5.1 Mode
Institut: Institut für Informatik
Fakultät: Fakultät für Angewandte Wissenschaften
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Burkhardt, Hans (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 03.12.2008
Erstellungsjahr: 2008
Publikationsdatum: 03.02.2009
Gedruckte Ausgabe: Print-On-Demand-Kopie
 
FreiDok-Home Recherche Veröffentlichen Hilfe Kontakt Rechtliches

Ein kostenloser Dienst Ihrer Universitätsbibliothek Freiburg.