Übersetzung Home Leistungen Kontakt Links Polnisch Übersetzer Kostenlose Übersetzung Kunden

Bookmark and Share

Übersetzer Polnisch | Übersetzungen | Links | Impressum | Wörterbücher | Kunden

Website Übersetzungen | Polnisch Übersetzung | Internet Recherche Polnisch

Übersetzung Polnisch Köln | Software Lokalisierung Polnisch

© 2010 Copyright Übersetzungen PABRRO

Deutsch Polski

Informationsextraktion von Webseiten via RoadRunner.

Autor: Pawel Broda
Jahr: 2009
Seitenzahl: 22
ISBN (Buch): 978-3-640-51864-7
ISBN (E-Book): 978-3-640-51844-9

Kategorie: Information Retrieval, Computerlinguistik, Web Data Mining, Informatik, Information Extraktion

1  Einführung und Zielbeschreibung

2  Informationsextraktion – Genese, Ziele und Probleme

2.1 Geschichte der Informationsextraktion

2.2  Ziele der Informationsextraktion

2.3  Probleme bei der Informationsextraktion

2.4 Verfahren der Informationsextraction

3  Informationsextraktion mit RoadRunner

3.1 Allgemeines

3.2  Ablauf der Extraktion  bei RoadRunner

3.2.1  Eingabe

3.2.2 Verarbeitung

3.2.3  Ausgabe

4  Fazit

5  Literaturverzeichnis

Textauszug

1  Einführung

Das Web hat sich in den letzten Jahren zum größten existierenden und frei verfügbaren Daten- und Informationsbestand entwickelt. Das wundert es kaum, wenn man die Anzahl der registrierten Domänen in Betracht zieht. Im Jahre 2007 gab es ca. 118 Mio. registrierte Domänen und davon ca. 54 Mio. aktiv.  Zwei Jahre später hat die Zahl der registrierten Domänen schon 240 Mio. überschritten.

Im Netz, wo es ein absoluter Datenüberfluss und Informationenchaos herrscht, ist beinahe alles zu finden. Auf der Suche nach benötigten Informationen wird durch unzählige Dokumente gestöbert, die von unterschiedlicher Struktur und unterschiedlicher Relevanz sind. Während die Suchmaschinen einen gewissen Teil des Webs crawlen und somit auch indexiert können, bleibt ein sehr großer Teil des Webs verschlossen. Dieser Umstand wird auf die stets wachsende Anzahl von dynamisch generierten Webseiten zurückgeführt. Die gesuchten Informationen sind nicht mehr statisch verfügbar sondern werden aufgrund von benutzerspezifischen Anfragen aus den relationalen Datenbanken dynamisch erzeugt.

In diesem riesigen Dokumentenbestand, in den statischen und dynamisch generierten Webseiten, werden mit Information Retrieval Verfahren relevante Daten  gesucht und nach dem Finden so abgespeichert, dass sie bequem weiterverarbeitet werden können. Im nächsten Schritt wird es versucht, aus den semi-strukturierten Dokumenten relevante Informationen zu gewinnen.

Im ersten Kapitel der vorliegenden Arbeit werden Genese, Ziele, Probleme und Verfahren der Informationsextraktion dargestellt.

Der Hauptfokus dieser Arbeit besteht darin, das ausgewählte Tool zur Informationsextraktion von Webseiten (RoadRunner) darzustellen und an konkreten  Beispielen seine Arbeitsweise in einzelnen Schritten zu erläutern. Zum Schluss werden die Ergebnisse der Arbeit im Fazit diskutiert.

2.4 Verfahren der Informationsextraction

Da die Informationsextraktion je nach der Input-Datei unterschiedlich verläuft, ist es notwendig, die analysierten Dokumente zu identifizieren. Die Texte werden nach ihrer Strukturiertheit aufgeteilt:

• Auf die natürlichen und unstrukturierten Plain-Texte werden Systeme angewendet, die eine linguistische (morphologische und syntaktische) Analyse ermöglichen. Die Vorgehensweise ist dabei sehr aufwendig und manchmal überflüssig, weil die gesuchten Informationen anhand einfacher Muster gefunden werden können.

• Als ein Beispiel für strukturierte Informationen dienen Tabellen und relationale Datenbanken. Hierbei wird keine linguistische Analyse benötigt sondern die Struktur muss nur erkannt werden, um die gesuchten Informationen zu finden.

• HTML-Dokumente, die meist als semi-strukturierte Texte bezeichnet werden können, stellen eine gewisse Herausforderung für die IE-Systeme dar. Sie zeichnen sich durch eine nicht einheitliche Struktur aus: Teilweise sind durch die HTML-Tags markiert, und teilweise sind sie natürliche Texte. Um die Informationen zu extrahieren, müssen die IE-Systeme die HTML-Struktur und die Textmuster erkennen. Dabei sind die HTML-Tags ein wichtiger Hinweis auf die Struktur.

Bei unterschiedlich strukturierten Texten werden auch verschiedene Verfahren der Informationsextraktion angewendet. Diese Verfahren unterscheiden sich voneinander  durch ihre Komplexität (manuell oder automatisch), Restriktionen (natürliche Sprachen oder semi-strukturierte Texte) und den Ablauf der Extraktion.

3  Informationsextraktion mit RoadRunner

Das in diesem Kapitel präsentierte Extraktionstool RoadRunner  gehört zur Gruppe der  Wrapper-Programme. Wrapper werden als eine Prozedur definiert, die bestimmte Inhalte aus bestimmten Quellen extrahieren und den gewünschten Inhalt auf eine selbst-beschreibende Weise repräsentieren. Ein Wrapper besteht aus eine Reihe von Extraktionsregeln (Grammatik) und Code um die Regeln anzuwenden. Jeder Wrapper ist nur für eine spezielle Quelle geeignet, daher benötigt man eine Wrapper-Bibliothek. Außer dem RoadRunner gibt es folgende automatische Wrapper zur Informationsextraktion:  WebL, XSL und XWrap Elite.

3.1 Allgemeines

Das Web Extraktionstool RoadRunner wurde an der Università di Roma Tre entwickelt. Es handelt sich dabei um einen automatischen Wrapper, der Informationen extrahiert, die aus den Templates mit gleicher Struktur stammen. RoadRunner erzeugt eine lokale Grammatik, die mit Hilfe von regulären Ausdrücken die HTML-Struktur mit dem Ziel beschreibt, Divergenzen zu finden. Dabei können zwei Divergenzarten auftreten : Tag Mismatch und String Mismatch (...).

Der Arbeitsprozess kann beim RoadRunner in drei Bereiche eingeteilt werden: Eingabe, Verarbeitung und Ausgabe.

• Eingabe

Als Argument werden Webseiten eingegeben. Die Eingabe erfolgt manuell. Die Webseite wird lokal auf der Festplatte abgespeichert. An RoadRunner wird der Pfad zur Datei übergeben. Es muss darauf geachtet werden, dass alle Webseiten die gleiche Struktur haben.

• Verarbeitung

Im nächsten Schritt werden aus den eingegebenen Webseiten Informationen extrahiert. Die Qualität der Outputergebnisse hängt von den Restriktionen, die durch die eingesetzten Algorithmen entstehen.

• Ausgabe

Die Ausgabe erfolgt als eine XML-Datei. Zur besseren Transparenz sollen die Ergebnisse der Extraktion aus der XML-Datei herauskopiert werden und als eine Textdatei abgespeichert werden (...).

3.2.2 Verarbeitung

Nach der Eingabe aller Argumente (sieh Abbildung 2) findet der Extraktionsprozess statt. Die HTML-Seiten werden an RoadRunner übergeben, der sie analysiert und aus ihnen eine lokale Grammatik generiert. Im Verarbeitungsteil erkennt RoadRunner auf den Seiten jegliche Muster und sich wiederholende Elemente, die er nicht in die Analyse mit einbezieht. Eine so erstellte lokale Grammatik muss bei jeder weiteren Extraktion aufs Neue generiert werden. Es gibt leider keine Möglichkeit sie nur auszuführen, was dieses Tool etwas unpraktisch macht, weil der Extraktionsprozess mit einem Zeitaufwand verbunden ist. Die von RoadRunner erzeugte Grammatik ist stabil, genauso wie die Ausgabedatei, die alle veränderlichen Informationen im XML-Format überführt (...).