Achim Stein
in Arbeit, Version 17. April 2012
TIGERSearch besteht aus zwei Programmen TIGERSearch für die Korpussuche, und TIGERRegistry für das (einmalige) Erstellen eines Korpus, bevor er durchsucht werden kann.
Fall 1: Installation der Programme
Vorbereitete Installationspakete für Windows, Mac OS X, Linux und Solaris gibt es auf http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/download/
Bei der Installation können Sie optional Startsymbole auf dem Bildschirm anlegen lassen.
Folgen Sie der Installationsanleitung. Das Paket enthält einige Demo-Korpora in verschiedenen Sprachen, mit denen Sie die Funktionen ausprobieren können.
Für Mac OS X: Beachten Sie die Hinweise in der
Distribution. TIGERSearch und TIGERRegistry werden über Shell-Skripte
gestartet (Teil der Distribution). Falls Sie beim Start eine
Fehlermeldung zur Java-Version erhalten, müssen Sie die aktualisierte
Datei tiger.jar
in das Unterverzeichnis lib
kopieren.
Fall 2: Datenträger mit Programm und registrierten Korpora
Wenn Sie einen Datenträger oder ein ZIP-Archiv mit einer Kopie des installierten Programms mit registrierten Korpora erhalten haben, gehen Sie wie folgt vor:
TIGERSearch
auf die oberste
Ebene Ihres Laufwerks, so dass das Verzeichnis C:\TIGERSearch
entsteht (das Programm kann nicht direkt auf dem Datenträger
gestartet werden).
C:\TIGERSearch\bin
befinden sich die
Programme TIGERSearch.exe
und TIGERRegistry.exe
, die
Sie direkt starten können oder zu denen Sie eine Verknüpfung
erstellen können.
Applications
(falls es noch nicht existiert).
TIGERSearch
in das
Verzeichnis Applications
(das Programm kann nicht direkt auf dem Datenträger
gestartet werden).
.../TIGERSearch/lib/
und starten TIGERSearch mit ./runTS.sh
.../TIGERSearch/lib/
auch eine Datei
runTS.command
ist, können Sie diese direkt anklicken.
Fall 3: Datenträger mit registrierten Korpora
Unter dem Installationsverzeichnis von TIGERSearch befindet sich das
Verzeichnis TIGERCorpora (also unter Windows:
C:\TIGERSearch\TIGERCorpora
). Darunter hat jedes registrierte
Korpus sein eigenes Unterverzeichnis.
Wenn Sie bereits für TIGERSearch vorbereitete Korpora bekommen
(d.h. Korpora, die mit TIGERRegistry registriert wurden), suchen Sie
auf dem Datenträger das Verzeichnis, das die Korpusdateien enthält
(das können über 50 Dateien sein, von denen einige corpus.*
heißen).
Kopieren Sie das ganze Verzeichnis (z.B. LeMonde2002
) in das
Installationsverzeichnis, so dass
z.B. C:\TIGERSearch\TIGERCorpora\LeMonde2002
entsteht. (Auf
Unix-Systemen genügt auch ein symbolischer Link auf das
Korpusverzeichnis.)
Starten Sie TIGERSearch: Das Korpus sollte links im Verzeichisbaum angezeigt werden.
TIPP: Die ausführliche Dokumentation (auf Englisch) finden Sie, wenn
Sie im Programm das Hilfesymbol anklicken, oder als PDF im
Installationsverzeichnis C:\TIGERSearch\doc\pdf
.
Starten Sie TIGERSearch. Klicken Sie links im Korpusbaum auf das gewünschte Korpus (falls bereits ein Korpus installiert ist, lädt es sich u.U. automatisch.) Bei großen Korpora kann das Laden ein wenig dauern.
TIPP: Vielleicht haben Sie mit dem Programm bereits vorbereitete Anfragen erhalten, in Form einer XML-Datei mit Bookmarks. Dann importieren Sie sie wie in Abschnitt 5.2 beschrieben. Passende Anfragen zu Abschnitt 3 dieser Anleitung sind hier erhalten: tiger-bookmarks-flache-strukturen.xml.
Als Beispielkorpus verwenden wir Le Monde 2002. Das Korpus ist nicht syntaktisch annotiert, d.h. alle Wörter hängen auf der gleichen Ebene direkt unter einem Satzknoten S (s. Abb. 1):
Die Wörter sind aber annotiert, d.h. mit Attribut-Wert-Paaren versehen. Für va sind die Attribut-Wert-Paare
word=va pos=VER_infi lemma=aller
Auch die Knoten S sind annotiert: Hält man die Maus einen Moment über das Knotensymbol, werden die Attribut-Wert-Paare sichtbar (z.B. date und page).
TIPP: Weitere Informationen über die Struktur des Korpus gibt das linke Teilfenster von TIGERSearch, wenn unten der Tab Open aktiviert ist, nähere Details über den Tab Info (z.B. die Liste der Wortarten, falls dies bei der Aufbereitung vorgesehen wurde).
In der Anfragesprache wird für jeder Knoten durch einen Ausdruck in eckigen Klammern spezifiziert. Bei flachen Strukturen sind die Knoten nur Wörter (terminale Knoten) oder S (für den Satz).
Zwischen den eckigen Klammern können ein oder mehrere
Attribut-Wert-Paare stehen, z.B. pos=NOM
. Alle Knoten
(Wörter), die auf diese Angaben passen, werden gefunden.
Mehrere Knoten können durch Operatoren verknüpft werden, um z.B. Wortfolgen zu suchen (s. Abschnitt 3.6).
Text nach doppelten Schrägstrichen //
wird in der Anfrage
ignoriert (Kommentare).
Eine einfache Anfrage sieht also so aus:
// ein Wort suchen [word="expression"]
Werden reguläre Ausdrücke verwendet, muss der Wert zwischen Schrägstrichen stehen (statt zwischen Anführungszeichen). Um z.B. à oder au oder aux zu finden, lautet die Anfrage:
[word=/(à|aux?)/]
Reguläre Ausdrücke verwenden bestimmte Zeichen als Platzhalter und zusätzliche Zeichen als Operatoren. Die Zeichen sind die üblichen, manchmal aus anderen Programmen (z.B. grep, Perl) bekannten (s. Tabelle).
Symbole | Bedeutung | Ausdruck | findet... |
. |
beliebiges Zeichen | b.ten |
baten, beten, boten |
+ |
vorhergehendes Zeichen min. einmal | be*ten |
beten, beeten, beeeten, ... |
? |
vorhergehendes Zeichen max. einmal | bi?eten |
bieten, beten |
* |
vorhergehendes Zeichen beliebig oft | be*ten |
bten, beten, beeten, beeeten, ... |
[ ] |
mögliche Zeichen an einer Position | b[eo]ten |
beten, boten; nicht buten |
[a-z] |
alle Zeichen zwischen a und z | [a-z]aten |
aaten, baten, caten, daten, ... |
[^ ] |
ausgeschlossene Zeichen an einer Position |
b[^eo]ten |
baten, buten; nicht beten, boten |
häufig: .* |
beliebige Zeichenfolge | b.*ten |
beten, bluten, bearbeiten |
( | ) |
ODER | (Rose|Nelke) |
Rose, Nelke |
Die Attribute einer Form können mit &
kombiniert werden. Die
folgende Anfrage findet Formen mit einem Lemma, das auf ment
endet, und die gleichzeitig mit Wortart NOM annotiert
sind:
[lemma=/.*ment/ & pos="NOM"]
Präzedenz: Zwei Knoten können mit dem Präzedenz-Operator
.
(Punkt) verbunden werden. Die folgende Anfrage findet
Wortformen mit Lemma veiller, direkt gefolgt von à oder
au oder aux:
[lemma="veiller"] . [word=/(à|au|aux)/]
Ein Operator wie .
verbindet immer genau zwei Ausdrücke.
Sollen drei aufeinanderfolgende Formen gesucht werden, muss ein
zweites Paar von Ausdrücken mit &
hinzugefügt werden.
Eine Abfolge von A, B, C wird also als A . B & B . C
formuliert.
Zur Vereinfachung (und um sicherzustellen, dass mit beiden B
das
selbe Wort gefunden wird) wird eine Variable für diesen Knoten eingeführt.
Variablen haben die Form #name:[ ]
und können dann mit
#name
beliebig oft referiert werden.
Die folgende Anfrage findet Formen von demander, gefolgt von
einem Artikel (DET:...) und einem Nomen (NOM). Der
Ausdruck für den Artikel wird in Zeile 2 mit der Variablen
#det
ein zweites Mal benutzt:
[lemma="demander"] . #det:[pos=/DET.*/] & #det . [pos="NOM"]
Der Operator .
kann modifiziert werden, um fixe oder Variable
Abstände zu spezifizieren (s. Tabelle unten). Das folgende Beispiel
findet demander gefolgt von der Präposition (à, au, aux)
in ein bis fünf Wörtern Abstand:
[lemma="demander"] .1,5 [word=/(à|au|aux)/]
Symbole | Bedeutung | Beispiel |
. |
1 Wort davor | |
.n |
n Wörter davor | .3 |
.m,n |
m bis n Wörter davor | .1,5 |
.* |
beliebiger davor (1) | |
!. |
nicht 1 Wort davor | |
!.n |
nicht n Wörter davor | !.3 |
!.m,n |
nicht m bis n Wörter davor | !.1,5 |
Dominanz: Zwei Arten von Dominanz-Anfragen (also Anfragen an die hierarchische Baumstruktur) werden hier eingeführt, weil sie auch für die flachen Strukturen nicht syntaktisch annotierter Korpora nützlich sind:
Für weitere hierarchische Anfragen vgl. Abschnitt 4.
Der Operator für Dominanz ist >
. (Er kann ähnlich wie der
Präzedenzoperator .
modifiziert werden, vgl. die Tabelle in
3.8).
Die nicht terminalen Knoten in Baumstrukturen haben in den
mitgelieferten Demo-Korpora das Attribut cat für die Kategorie.
Der oberste Knoten ist S; er wird also mit cat="S"
gefunden.
Beschränkung auf bestimmte Sätze: Die folgende Anfrage findet Knoten S, die gleichzeitig für das Attribut page den Wert 1 haben und einen Knoten (eine Wortform) mit dem Lemma président dominieren. Gefunden werden also alle Sätze mit président auf Seite 1 der Zeitung:
[cat="S" & page="1"] > [lemma="président"]
Satzanfang und Satzende:
[cat="S"] >@l [pos="VER:infi"]
[s. Beispiele in der TIGER-Dokumentation]
Alle Informationen zum Syntactic Reference Corpus of Medieval French (SRCMF) finden Sie auf der SRCMF-Homepage.
Im Allgemeinen funktionieren in den Fenstern die üblichen Tastatur- und Mausbefehle zum Kopieren und Einfügen, z.B. unter Windows Ctrl+c und Ctrl+v (bzw. Strg+c und Strg+v).
Mac OS X: TIGERSearch benutzt die gleichen Tastenkombinationen wie bei Windows nötig, nicht die sonst üblichen (also Ctrl statt Cmd).
Nach Abschluss einer Suche öffnet sich das Ergebnisfenster (TIGERGraphViewer, Abb. 3). Hier können Sie in den Ergebnissen blättern (Previous/Next, First/Last). Bei mehreren Treffern innerhalb einer Struktur sind außerdem die Knöpfe unter Subgraph aktiv.
In der Symbolleiste kann mit dem gelben T das Textfenster unten aus- und eingeschaltet werden. Weitere Anzeigeoptionen sind im Menü Optionen wählbar (z.B. Anzeige von bestimmten Attributen, Farben usw.)
Die meisten weiteren Funktionen sind nur für syntaktisch annotierte Korpora nützlich oder funktionieren nicht bei flachen Strukturen: Export von Baumgrafiken, Fokus auf den gesuchten Teil des Baums usw.
Sie können die Anfrage, die aktuell im Suchfenster angezeigt wird, als Bookmark speichern:
Sie könnten an diesem Punkt auch mit Add Group erst einmal ein Unterverzeichnis anlegen.
Falls Sie eine solche Bookmark-Datei erhalten, können Sie sie in TIGERSearch laden.
Daneben können Bookmarks geändert, umbenannt, kopiert und gelöscht werden.
Die folgende Anfrage findet homme gefolgt von zwei mit et koordinierten Adjektiven:
[lemma="homme"] . #adj1:[pos=/ADJ/] & #adj1 . #et:[word="et"] & #et . #adj2:[pos=/ADJ/]
Wenn die Suche beendet ist, erscheint das Ergebnisfenster. Zusätzlich kann aber im Anfragefenster durch Klicken auf das Gittersymbol die Funktion Statistics aktiviert werden (das Symbol gibt es auch am unteren Rand des Ergebnisfensters). Das Statisikfenster öffnet sich. Hier können nun die Variablen benutzt werden, um zu den etikettierten Positionen Listen zu erstellen.
Für eine erste Erfahrung klicken Sie bitte in der Symbolleiste auf Default. TIGERSearch schlägt Ihnen nun in der Tabelle eine Kopfzeile mit den verschiedenen (durch Variablen gekennzeichneten) Positionen vor. Sie sehen, dass TIGERSearch auch für die nicht etikettierte Position NOM eine Variable vorgeschlagen hat.
Konkordanz: In der Symbolleiste ist Corpus ausgewählt. Klicken Sie nun in der Symbolleiste auf Build. Die Tabelle wird gefüllt, und Sie sehen für jeden Satz im Ergebnis untereinander die entsprechenden Positionen.
Frequenz: Klicken Sie in der Symbolleiste auf Frequency, und Sie erhalten eine Frequenzliste
Anpassen: Die Tabellen können Sie anpassen. Nehmen Sie an, Sie interessieren sich nur für das erste Adjektiv (adj1). Klicken Sie mit der rechten Maustaste auf jeden anderen Spaltenkopf und entfernen Sie ihn mit Remove column. Wenn nur noch die Spalte mit dem ersten Adjektiv angezeigt wird, klicken Sie wieder auf Build, um die Frequenzliste nur für diese Position zu erhalten.
Exportieren: Wählen Sie in der Symbolleiste Export. Im folgenden Dialog können Sie die Tabelle als Datei speichern und dafür zwischen drei Formaten wählen: Text, XML und Excel.
This document was generated using the LaTeX2HTML translator Version 2002-2-1 (1.71)
Copyright © 1993, 1994, 1995, 1996,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999,
Ross Moore,
Mathematics Department, Macquarie University, Sydney.
The command line arguments were:
latex2html -split 0 -dir latex2html -show_section_numbers -local_icons -style=tigersearch-basics.css tigersearch-basics.tex
The translation was initiated by Achim Stein on 2012-04-17