Direkt zum Inhalt | Direkt zur Navigation

Eingang zum Volltext

Lizenz

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende
URN: urn:nbn:de:bsz:25-opus-23036
URL: http://www.freidok.uni-freiburg.de/volltexte/2303/


Lee, Sau Dan

Constrained mining of patterns in large databases

Muster-Entdeckung in großen Datenbanken unter Einschränkungen

Dokument1.pdf (4.138 KB) (md5sum: 73ee78fd18a0c5ee76c2facd5ef32f85)

Kurzfassung in Englisch

A theoretical framework is introduced to model data mining problems as the answering of queries in inductive databases. Inductive queries are requests to find out patterns in a database satisfying certain user-specified constraints. Through the analysis of the answer sets to inductive queries composed from anti-monotonic and monotonic basic predicates using Boolean operators, interesting properties, such as dimension'', are found, which are useful for query optimization. The concept of version spaces has been extended to generalized version spaces'' to encapsulate such answer sets. Generalized version spaces are closed under the usual set operations, thus providing the closure property akin to relation algebra. This generic theoretical framework has been applied to various application domains and various algorithms and optimization techniques have been devised to make use of the theoretical results to efficiently answer queries to inductive databases. Experiments show that these techniques are applicable.


Kurzfassung in Deutsch

In dieser Arbeit wird eine Theorie eingeführt, die die Data-Mining-Probleme als das Antworten auf Anfragen zu induktiven Datenbanken modelliert. Induktive Anfragen sind Anfragen über Muster in einer Datenbank, die die vom Benutzer angegebenen Bedingungen (Constraints) erfüllen. Analysiert werden Antwortmengen auf induktive Anfragen, die aus antimonotonen und monotonen Basisprädikaten mit Boolean-Operatoren gebildet sind. Dadurch werden interessante Eigenschaften, wie z.B. die Dimension, entdeckt, die nützlich zur Optimierung der Beantwortung der Anfragen sind. Das Konzept der "Version Spaces"' wird erweitert zu "Generalized Version Spaces"', um die Antwortmengen zu beschreiben. Diese Generalized Version Spaces sind unter den Mengenoperationen abgeschlossen. Daher bilden sie, analog zu relationaler Algebra, eine abgeschlossene Hülle. Die Theorie wurde auf verschiedene Probleme angewandt. Außerdem ermöglichte sie die Herleitung effizienter Algorithmen und Optimierungstechniken zur Berechnung der Antwortmengen. Empirische Untersuchungen belegen die theoretischen Ergebnisse so wie die praktische Relevanz dieser Theorie.


SWD-Schlagwörter: Data Mining , Großes Datenbanksystem
Freie Schlagwörter (englisch): constrained mining , data mining , large database , knowledge discover
CCS Klassifikation I.5 , I.2.6 , E.1 , I.1 , E.2
Institut: Institut für Informatik
Fakultät: Technische Fakultät (bisher: Fak. f. Angew. Wiss.)
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Erstgutachter: De Raedt, Luc (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 18.01.2006
Erstellungsjahr: 2005
Publikationsdatum: 20.02.2006
Indexliste