Objekt-Metadaten

An Incrementally Trainable Statistical Approach to Information Extraction Based on Token Classification and Rich Context Models
Siefkes, Christian

Main titleAn Incrementally Trainable Statistical Approach to Information Extraction Based on Token Classification and Rich Context Models
Title variationsEin inkrementell trainierbarer statistischer Ansatz zur Informationsextraktion basierend auf Tokenklassifikation und reichhaltigen Kontextmodellen
Author(s)Siefkes, Christian
Place of birth: Karlsruhe, Deutschland
1. RefereeProf. Dr. Heinz F. Schweppe
Further Referee(s)Prof. Dr. Bernhard Thalheim
Keywordsinformation extraction, classification-based extraction, statistical methods, natural language processing, incremental trainingH.3.1
Classification (DDC)004 Data processing and Computer science
Summary

Ein Großteil der heute digital verfügbaren Informationen liegt in Form natürlichsprachlicher Texte vor. Das Ziel der Informationsextraktion (IE) ist es, bestimmte gewünschte Informationen aus solchen Texten zu extrahieren und in einer Form abzuspeichern, die strukturierte Abfragen ermöglicht (im Gegensatz zum Information Retrieval, wo die Suche nach Dokumenten und Dokumentfragmenten im Vordergrund steht).

In dieser Dissertation wird ein trainierbares statistisches Informationsextraktionssystem entwickelt. Anders als bisherige Ansätze kann unser System inkrementell trainiert werden, was den menschlichen Trainingsaufwand verringert.

Das System ist als generisches Framework konzipiert -- alle Bestandteile des klassifikationsbasierten Informationsextraktionsmodells können unabhängig voneinander modifiziert und ausgetauscht werden. Der systematische Austausch einer der Komponenten (der Tagging-Strategien) wird im Rahmen der Arbeit untersucht.

Zur Verbesserung der Extraktionsqualitität werden verschiedene neue Informationsquellen untersucht. Die Verwendung reichhaltiger Kontextrepräsentationen auf Basis von Baumstrukturen ermöglicht es uns, neben semantischen und linguistischen Informationen auch die Dokumentstruktur als Informationsquelle zu erschließen. Um die verschiedenen und teilweise widersprüchlichen Strukturen in eine einheitliche Baumstruktur zu bringen, entwickeln wir einen Verschmelzungsalgorithmus für XML, der Verschachtelungskonflikte und andere Fehler beheben kann.

Als Kern des klassifikationsbasierten Ansatzes führen wir einen generischen Klassifikationsalgorithmus (Winnow+OSB) ein, der Online Learning mit einer neuen Art erweiterter Bigramme verbindet. Wir zeigen, dass dieser Algorithmus außer für Informationsextraktion auch für andere Anwendungen wie Textklassifikation geeignet ist -- so erzielte er im Spamfilter-Wettbewerb der Text REtrieval Conference (TREC) 2005 eines der beiden besten Ergebnisse.

Die Arbeit beinhaltet eine ausführliche Evaluation unseres Extraktionssystems, die zeigt, dass es mit anderen modernen Verfahren vergleichbare oder bessere Ergebnisse erzielt. Wir untersuchen dabei auch den Einfluss verschiedener Faktoren und Informationsquellen auf das Gesamtsystem, mit dem Ergebnisse, dass alle eine positive Rolle spielen. Weiterhin wird die Nützlichkeit des von uns vorgeschlagenen interaktiven inkrementellen Trainings gemessen; dabei bestätigt sich, dass der menschliche Trainingsaufwand auf diese Weise stark reduziert werden kann. Ergänzend zur quantitativen Evaluation analysieren wir die auftretenden Fehler und ihre mutmaßlichen Ursachen, was ein besseres Verständnis von Verbesserungsmöglichkeiten und vermutlich eher grundsätzlichen Beschränkungen der Informationsextraktion ermöglicht.

Documents
FUDISS_derivate_000000002705
 
FU DepartmentDepartment of Mathematics and Computer Science
Year of publication2007
Document typeDoctoral thesis
Media type/FormatText
LanguageEnglish
Terms of use/RightsNutzungsbedingungen
Date of defense2007-02-16
Created at2007-02-20 : 12:00:00
Last changed2010-02-19 : 02:53:57
 
Old Darwin URLhttp://www.diss.fu-berlin.de/2007/173/
Static URLhttp://www.diss.fu-berlin.de/diss/receive/FUDISS_thesis_000000002705
NBNurn:nbn:de:kobv:188-fudissthesis000000002705-8
Statistics