Direkt zum Inhalt | Direkt zur Navigation

Eingang zum Volltext

Lizenz

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:25-opus-64802
URL: http://www.freidok.uni-freiburg.de/volltexte/6480/


Simon, Kai Florian

ViPER: Visual perception based information extraction of structured web content

ViPER: Visuelle wahrnehmungsorientierte Informationsextraktion von strukturierten Webinhalten

Dokument1.pdf (4.521 KB) (md5sum: 27cd31d9d72dcdb65e6f38bff6d875b5)

Kurzfassung in Englisch

No other medium has taken a more meaningful place in our life in such a
short time than the world-wide largest data network, the World Wide Web.
However, when searching for information in the data network, the user is
constantly exposed to an ever-growing flood of information. This is both a
blessing and a curse at the same time. While many users only scratch at the surface of the Web via index-based search engines, an almost endless amount of sources providing high quality information often stored in databases can be found in the depths of the WWW. In order to take advantage of these sources when searching the Web novel techniques are required facilitating the integration of heterogeneous Deep Web with minimal effort and enabling a semantic interpretation of their published content.
With respect to the Semantic Web, which focuses on computer-computer and
human-computer interactions, the Web still resides in its early stages of development. It is, however, not to be expected that the expenditure of a complete semantic annotation of all web inventories can be done manually. Instead, the development of automatic extraction, annotation, and integration systems operating on representation-oriented HTML pages will play a significant role in this context. In this thesis, the first challenge that is faced is the development of a fully automated wrapper system. Various new approaches will be presented to solve specific problems in the context of web data extraction. The spectrum of the presented methods ranges from visual document analysis techniques for the localization and relevance ranking of similar structured data regions to the reorganization of extracted data records and the automatic annotation of aligned data items. Finally, by materializing derived extraction and annotation rules we are able to automatically generate a wrapper specification for congeneric web pages which can be used to efficiently transform web data into arbitrary target formats or just integrate the extracted web data into local database systems.


Kurzfassung in Deutsch

Das weltweit größte Datennetz, das WorldWideWeb, hat sich in kürzester Zeit
zu einem der wichtigsten Informationsmedien unsere Zeit entwickelt. Informationen sind in hypertext-basierten, verteilten Dokumenten an jedem Ort verfügbar. Diese stetig wachsende Datenmenge stellt immer neue Herausforderungen
an Techniken zum gezielten Finden relevanter Informationen.
Eine wesentliche Hilfe beim Durchsuchen des WWW stellen heutzutage indexbasierte
Suchmaschinen wie beispielsweise Google dar. Basierend auf einem
Index, ermöglichen sie eine effiziente Suche von relevanten Dokumenten durch
die Eingabe von Suchbegriffen. Bei diesem Verfahren können jedoch nur Dokumente
gefunden werden, die zuvor durch einen so genannten Webcrawler in
den Index aufgenommen wurden. Durch die Größe des Webs, den Zeitversatz
der zwischen einem Crawlvorgang und dem Indexieren von Dokumenten
vergeht ergeben sich eine Reihe von Einschränkungen für indexbasierte Suchmaschinen. So ist bekannt, dass sich ein weitaus größerer, für Webcrawler unzugänglicher Anteil von zumeist qualitativ hochwertigeren Informationen in
so genannten Backend Datenbanken befindet, deren Inhalte nur indirekt über
dynamisch erzeugte Webseiten angefragt werden können. Um solche Quellen
in eine Informationsrecherche einzubeziehen, bedarf es neuer Techniken, die
es ermöglichen, die Informationsquellen mit geringem Aufwand zu integrieren
und deren Inhalt semantisch zu erfassen.
Einen Schritt in diese Richtung beschreibt die Idee des semantischen Webs. Informationen im Web sollen nicht nur für Menschen verständlich sein, sondern
deren semantische Annotation soll die Kommunikation zwischen Computer-
Computer und Mensch-Computer ermöglichen. Es ist jedoch nach heutigem
Kenntnisstand nicht zu erwarten, dass der Aufwand einer vollständigen semantischen Annotierung der in HTML Dokumenten dargeboten Information
manuell durchgeführt werden kann. Stattdessen kommen automatischen Verfahren
zur Unterstützung der Annotation eine tragende Rolle zuteil.
Im Rahmen dieser Dissertation werden Methoden untersucht, mit denen strukturierte
Inhalte vollautomatisch aus Webseiten erkannt und extrahiert werden
können. Das Spektrum reicht dabei von Mustererkennugsmethoden und
visueller Dokumentenanalysetechniken zur Lokalisierung und Strukturerkennung
zusammenhängender und relevanter Informationsbestandteile, über globale
Alignmenttechniken zur Identifizierung von gleichartigen Informationen bis
hin zu statistischen Heuristiken zur Erkennung von Extraktions- und Annotationsregeln. Basierend auf den gelernten Regeln ist es möglich, schnell und einfach Informationen in gewünschte Formate zu überführen und in einer semantischen Suche zu nutzen.


SWD-Schlagwörter: Information Extraction , Data Mining , Information-Retrieval-System , Web-Seite , Metasuchmaschine
Freie Schlagwörter (englisch): Information Extraction , Data Mining , Information-Retrieval-System
Institut: Institut für Informatik
Fakultät: Technische Fakultät (bisher: Fak. f. Angew. Wiss.)
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Erstgutachter: Lausen, Georg (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 24.04.2009
Erstellungsjahr: 2009
Publikationsdatum: 05.05.2009
Indexliste