next_inactive up previous


Korpussuche mit TIGERSearch

Achim Stein

in Arbeit, Version 17. April 2012

Zusammenfassung:

TIGERSearch ist ein Programm zur Abfrage syntaktisch annotierter Textkorpora (Baumstrukturen). Es kann auch für nicht syntaktisch annotierte Korpora verwendet werden, in denen alle Wörter auf der gleichen Ebene unter einem Satzknoten hängen. Eine ausführliche Anleitung liegt dem Programm bei. Diese Kurzanleitung ist als erster Einschritt gedacht. TIGERSearch und TIGERRegistry sind am Institut für Maschinelle Sprachverarbeitung (IMS) der Universität Stuttgart entwickelt worden (Lezius, 2002).


Inhalt

1 Installation und Start von TIGERSearch

TIGERSearch besteht aus zwei Programmen TIGERSearch für die Korpussuche, und TIGERRegistry für das (einmalige) Erstellen eines Korpus, bevor er durchsucht werden kann.

Fall 1: Installation der Programme

Vorbereitete Installationspakete für Windows, Mac OS X, Linux und Solaris gibt es auf http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/download/

Bei der Installation können Sie optional Startsymbole auf dem Bildschirm anlegen lassen.

Folgen Sie der Installationsanleitung. Das Paket enthält einige Demo-Korpora in verschiedenen Sprachen, mit denen Sie die Funktionen ausprobieren können.

Für Mac OS X: Beachten Sie die Hinweise in der Distribution. TIGERSearch und TIGERRegistry werden über Shell-Skripte gestartet (Teil der Distribution). Falls Sie beim Start eine Fehlermeldung zur Java-Version erhalten, müssen Sie die aktualisierte Datei tiger.jar in das Unterverzeichnis lib kopieren.

Fall 2: Datenträger mit Programm und registrierten Korpora

Wenn Sie einen Datenträger oder ein ZIP-Archiv mit einer Kopie des installierten Programms mit registrierten Korpora erhalten haben, gehen Sie wie folgt vor:

Fall 3: Datenträger mit registrierten Korpora

Unter dem Installationsverzeichnis von TIGERSearch befindet sich das Verzeichnis TIGERCorpora (also unter Windows: C:\TIGERSearch\TIGERCorpora). Darunter hat jedes registrierte Korpus sein eigenes Unterverzeichnis.

Wenn Sie bereits für TIGERSearch vorbereitete Korpora bekommen (d.h. Korpora, die mit TIGERRegistry registriert wurden), suchen Sie auf dem Datenträger das Verzeichnis, das die Korpusdateien enthält (das können über 50 Dateien sein, von denen einige corpus.* heißen).

Kopieren Sie das ganze Verzeichnis (z.B. LeMonde2002) in das Installationsverzeichnis, so dass z.B. C:\TIGERSearch\TIGERCorpora\LeMonde2002 entsteht. (Auf Unix-Systemen genügt auch ein symbolischer Link auf das Korpusverzeichnis.)

Starten Sie TIGERSearch: Das Korpus sollte links im Verzeichisbaum angezeigt werden.

1.1 Dokumentation

TIPP: Die ausführliche Dokumentation (auf Englisch) finden Sie, wenn Sie im Programm das Hilfesymbol anklicken, oder als PDF im Installationsverzeichnis C:\TIGERSearch\doc\pdf.

1.2 Erste Schritte

Starten Sie TIGERSearch. Klicken Sie links im Korpusbaum auf das gewünschte Korpus (falls bereits ein Korpus installiert ist, lädt es sich u.U. automatisch.) Bei großen Korpora kann das Laden ein wenig dauern.

2 Anfragen

TIPP: Vielleicht haben Sie mit dem Programm bereits vorbereitete Anfragen erhalten, in Form einer XML-Datei mit Bookmarks. Dann importieren Sie sie wie in Abschnitt 5.2 beschrieben. Passende Anfragen zu Abschnitt 3 dieser Anleitung sind hier erhalten: tiger-bookmarks-flache-strukturen.xml.


3 Nicht syntaktisch annotiertes Korpus: flache Strukturen


3.1 Wie sieht das Korpus aus?

Als Beispielkorpus verwenden wir Le Monde 2002. Das Korpus ist nicht syntaktisch annotiert, d.h. alle Wörter hängen auf der gleichen Ebene direkt unter einem Satzknoten S (s. Abb. 1):

Abbildung 1: Korpus ohne syntaktische Annotation: flache Struktur
Image tiger-graph-flach

Die Wörter sind aber annotiert, d.h. mit Attribut-Wert-Paaren versehen. Für va sind die Attribut-Wert-Paare

word=va
pos=VER_infi
lemma=aller

Auch die Knoten S sind annotiert: Hält man die Maus einen Moment über das Knotensymbol, werden die Attribut-Wert-Paare sichtbar (z.B. date und page).

TIPP: Weitere Informationen über die Struktur des Korpus gibt das linke Teilfenster von TIGERSearch, wenn unten der Tab Open aktiviert ist, nähere Details über den Tab Info (z.B. die Liste der Wortarten, falls dies bei der Aufbereitung vorgesehen wurde).

Abbildung 2: TIGERSearch Anfragefenster
Image tiger-anfrage-fenster


3.2 Anfragen

In der Anfragesprache wird für jeder Knoten durch einen Ausdruck in eckigen Klammern spezifiziert. Bei flachen Strukturen sind die Knoten nur Wörter (terminale Knoten) oder S (für den Satz).

Zwischen den eckigen Klammern können ein oder mehrere Attribut-Wert-Paare stehen, z.B. pos=NOM. Alle Knoten (Wörter), die auf diese Angaben passen, werden gefunden.

Mehrere Knoten können durch Operatoren verknüpft werden, um z.B. Wortfolgen zu suchen (s. Abschnitt 3.6).

Text nach doppelten Schrägstrichen // wird in der Anfrage ignoriert (Kommentare).

3.3 Wort suchen

Eine einfache Anfrage sieht also so aus:

// ein Wort suchen
[word="expression"]

3.4 Suche mit Platzhaltern: reguläre Ausdrücke

Werden reguläre Ausdrücke verwendet, muss der Wert zwischen Schrägstrichen stehen (statt zwischen Anführungszeichen). Um z.B. à oder au oder aux zu finden, lautet die Anfrage:

[word=/(à|aux?)/]

Reguläre Ausdrücke verwenden bestimmte Zeichen als Platzhalter und zusätzliche Zeichen als Operatoren. Die Zeichen sind die üblichen, manchmal aus anderen Programmen (z.B. grep, Perl) bekannten (s. Tabelle).

Symbole Bedeutung Ausdruck findet...
. beliebiges Zeichen b.ten baten, beten, boten
+ vorhergehendes Zeichen min. einmal be*ten beten, beeten, beeeten, ...
? vorhergehendes Zeichen max. einmal bi?eten bieten, beten
* vorhergehendes Zeichen beliebig oft be*ten bten, beten, beeten, beeeten, ...
[ ] mögliche Zeichen an einer Position b[eo]ten beten, boten; nicht buten
[a-z] alle Zeichen zwischen a und z [a-z]aten aaten, baten, caten, daten, ...
[^ ] ausgeschlossene Zeichen an einer Position b[^eo]ten baten, buten; nicht beten, boten
häufig: .* beliebige Zeichenfolge b.*ten beten, bluten, bearbeiten
( | ) ODER (Rose|Nelke) Rose, Nelke


3.5 Attribute für ein Wort kombinieren

Die Attribute einer Form können mit & kombiniert werden. Die folgende Anfrage findet Formen mit einem Lemma, das auf ment endet, und die gleichzeitig mit Wortart NOM annotiert sind:

[lemma=/.*ment/ & pos="NOM"]


3.6 Wortfolgen suchen

Präzedenz: Zwei Knoten können mit dem Präzedenz-Operator . (Punkt) verbunden werden. Die folgende Anfrage findet Wortformen mit Lemma veiller, direkt gefolgt von à oder au oder aux:

[lemma="veiller"] . [word=/(à|au|aux)/]


3.7 Variablen und Abfolgen von mehr als zwei Formen

Ein Operator wie . verbindet immer genau zwei Ausdrücke. Sollen drei aufeinanderfolgende Formen gesucht werden, muss ein zweites Paar von Ausdrücken mit & hinzugefügt werden.

Eine Abfolge von A, B, C wird also als A . B & B . C formuliert.

Zur Vereinfachung (und um sicherzustellen, dass mit beiden B das selbe Wort gefunden wird) wird eine Variable für diesen Knoten eingeführt. Variablen haben die Form #name:[ ] und können dann mit #name beliebig oft referiert werden.

Die folgende Anfrage findet Formen von demander, gefolgt von einem Artikel (DET:...) und einem Nomen (NOM). Der Ausdruck für den Artikel wird in Zeile 2 mit der Variablen #det ein zweites Mal benutzt:

[lemma="demander"] . #det:[pos=/DET.*/]
& #det . [pos="NOM"]


3.8 Abstände definieren

Der Operator . kann modifiziert werden, um fixe oder Variable Abstände zu spezifizieren (s. Tabelle unten). Das folgende Beispiel findet demander gefolgt von der Präposition (à, au, aux) in ein bis fünf Wörtern Abstand:

[lemma="demander"] .1,5 [word=/(à|au|aux)/]

Symbole Bedeutung Beispiel
. 1 Wort davor
.n n Wörter davor .3
.m,n m bis n Wörter davor .1,5
.* beliebiger davor (1)
!. nicht 1 Wort davor
!.n nicht n Wörter davor !.3
!.m,n nicht m bis n Wörter davor !.1,5


3.9 Hierarchische Relationen in flachen Strukturen

Dominanz: Zwei Arten von Dominanz-Anfragen (also Anfragen an die hierarchische Baumstruktur) werden hier eingeführt, weil sie auch für die flachen Strukturen nicht syntaktisch annotierter Korpora nützlich sind:

Für weitere hierarchische Anfragen vgl. Abschnitt 4.

Der Operator für Dominanz ist >. (Er kann ähnlich wie der Präzedenzoperator . modifiziert werden, vgl. die Tabelle in 3.8).

Die nicht terminalen Knoten in Baumstrukturen haben in den mitgelieferten Demo-Korpora das Attribut cat für die Kategorie. Der oberste Knoten ist S; er wird also mit cat="S" gefunden.

Beschränkung auf bestimmte Sätze: Die folgende Anfrage findet Knoten S, die gleichzeitig für das Attribut page den Wert 1 haben und einen Knoten (eine Wortform) mit dem Lemma président dominieren. Gefunden werden also alle Sätze mit président auf Seite 1 der Zeitung:

[cat="S" & page="1"] > [lemma="président"]

Satzanfang und Satzende:

[cat="S"] >@l [pos="VER:infi"]


4 Syntaktisch annotierte Korpora: Baumstrukturen


4.1 Konstituentenstrukturen

[s. Beispiele in der TIGER-Dokumentation]


4.2 Dependenzstrukturen

Alle Informationen zum Syntactic Reference Corpus of Medieval French (SRCMF) finden Sie auf der SRCMF-Homepage.


5 Oberfläche und Komfort

Im Allgemeinen funktionieren in den Fenstern die üblichen Tastatur- und Mausbefehle zum Kopieren und Einfügen, z.B. unter Windows Ctrl+c und Ctrl+v (bzw. Strg+c und Strg+v).

Mac OS X: TIGERSearch benutzt die gleichen Tastenkombinationen wie bei Windows nötig, nicht die sonst üblichen (also Ctrl statt Cmd).


5.1 Das Ergebnisfenster

Nach Abschluss einer Suche öffnet sich das Ergebnisfenster (TIGERGraphViewer, Abb. 3). Hier können Sie in den Ergebnissen blättern (Previous/Next, First/Last). Bei mehreren Treffern innerhalb einer Struktur sind außerdem die Knöpfe unter Subgraph aktiv.

Abbildung 3: Ergebnisfenster (TIGERGraphViewer)
Image tiger-graphviewer

In der Symbolleiste kann mit dem gelben T das Textfenster unten aus- und eingeschaltet werden. Weitere Anzeigeoptionen sind im Menü Optionen wählbar (z.B. Anzeige von bestimmten Attributen, Farben usw.)

Die meisten weiteren Funktionen sind nur für syntaktisch annotierte Korpora nützlich oder funktionieren nicht bei flachen Strukturen: Export von Baumgrafiken, Fokus auf den gesuchten Teil des Baums usw.


5.2 Anfragen speichern und weitergeben: Bookmarks

Sie können die Anfrage, die aktuell im Suchfenster angezeigt wird, als Bookmark speichern:

  1. Aktivieren Sie im linken Teil des Fensters (s. Abb. 2) unten den Tab Bookmarks. Im linken Fenster erscheint der Bookmark-Baum.
  2. Klicken Sie mit der rechten Maustaste auf ein Verzeichnis im Baum (am Anfang ist nur eins da) und wählen Sie Add Bookmark.

    Sie könnten an diesem Punkt auch mit Add Group erst einmal ein Unterverzeichnis anlegen.

  3. Wenn Sie Anfragen als Bookmarks gespeichert haben, können Sie sie exportieren (und weitergeben oder aufheben), indem Sie im Baum rechts klicken und Export as Bookmark File wählen. Es erscheint ein Dialog, um die Datei (XML) zu speichern.

Falls Sie eine solche Bookmark-Datei erhalten, können Sie sie in TIGERSearch laden.

  1. Legen Sie die Datei irgendwo ab.
  2. Aktivieren Sie im linken Teil des Fensters (unten) den Tab Bookmarks. Im linken Fenster erscheint der Bookmark-Baum.
  3. Klicken Sie mit der rechten Maustaste auf ein Verzeichnis des Baums und wählen Sie Import Bookmark File. Es erscheint ein Dialog, in dem Sie die Datei auswählen können.
  4. Nach dem Import sind die Bookmarks im Baum auswählbar.

Daneben können Bookmarks geändert, umbenannt, kopiert und gelöscht werden.


5.3 Frequenzuntersuchungen

Die folgende Anfrage findet homme gefolgt von zwei mit et koordinierten Adjektiven:

[lemma="homme"] . #adj1:[pos=/ADJ/] 
& #adj1 . #et:[word="et"]
& #et . #adj2:[pos=/ADJ/]

Wenn die Suche beendet ist, erscheint das Ergebnisfenster. Zusätzlich kann aber im Anfragefenster durch Klicken auf das Gittersymbol die Funktion Statistics aktiviert werden (das Symbol gibt es auch am unteren Rand des Ergebnisfensters). Das Statisikfenster öffnet sich. Hier können nun die Variablen benutzt werden, um zu den etikettierten Positionen Listen zu erstellen.

Für eine erste Erfahrung klicken Sie bitte in der Symbolleiste auf Default. TIGERSearch schlägt Ihnen nun in der Tabelle eine Kopfzeile mit den verschiedenen (durch Variablen gekennzeichneten) Positionen vor. Sie sehen, dass TIGERSearch auch für die nicht etikettierte Position NOM eine Variable vorgeschlagen hat.

Konkordanz: In der Symbolleiste ist Corpus ausgewählt. Klicken Sie nun in der Symbolleiste auf Build. Die Tabelle wird gefüllt, und Sie sehen für jeden Satz im Ergebnis untereinander die entsprechenden Positionen.

Abbildung 4: Statistikfenster: Konkordanz (Ausschnitt)
Image tiger-statistik-conc

Frequenz: Klicken Sie in der Symbolleiste auf Frequency, und Sie erhalten eine Frequenzliste

Abbildung 5: Statistikfenster: Frequenz (Ausschnitt)
Image tiger-statistik-freq

Anpassen: Die Tabellen können Sie anpassen. Nehmen Sie an, Sie interessieren sich nur für das erste Adjektiv (adj1). Klicken Sie mit der rechten Maustaste auf jeden anderen Spaltenkopf und entfernen Sie ihn mit Remove column. Wenn nur noch die Spalte mit dem ersten Adjektiv angezeigt wird, klicken Sie wieder auf Build, um die Frequenzliste nur für diese Position zu erhalten.

Exportieren: Wählen Sie in der Symbolleiste Export. Im folgenden Dialog können Sie die Tabelle als Datei speichern und dafür zwischen drei Formaten wählen: Text, XML und Excel.

Literatur

Lezius 2002 LEZIUS, Wolfgang:
Ein Suchwerkzeug für syntaktisch annotierte Textkorpora (German).
Stuttgart : Institut für Maschinelle Sprachverarbeitung (IMS), 2002
(University of Stuttgart Arbeitspapiere des Instituts für Maschinelle Sprachverarbeitung (AIMS), vol. 8, no. 4)

Über dieses Dokument ...

Korpussuche mit TIGERSearch

This document was generated using the LaTeX2HTML translator Version 2002-2-1 (1.71)

Copyright © 1993, 1994, 1995, 1996, Nikos Drakos, Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999, Ross Moore, Mathematics Department, Macquarie University, Sydney.

The command line arguments were:
latex2html -split 0 -dir latex2html -show_section_numbers -local_icons -style=tigersearch-basics.css tigersearch-basics.tex

The translation was initiated by Achim Stein on 2012-04-17


next_inactive up previous
Achim Stein 2012-04-17