Lingo ist ein frei verfügbares System zur linguistisch und statistisch basierten automatischen Indexierung des Deutschen und Englischen. Lingo arbeitet mit einem Wörterbuchmodell, das eine Grundformidentifizierung bzw. -reduktion mit einem Grundformenwörterbuch und einer zugehörigen einfachen Suffixliste realisiert. Lingo verfügt zusätzlich über eine algorithmische Kompositumzerlegung, eine lexikalische Mehrworterkennung und eine allgemeine lexikalische Relationierung. Lingo unterliegt der GNU General Public License (GPL).
Einen ersten Eindruck von der Funktionalität vermittelt lingo-web.
Lingo ist vollständig in Ruby programmiert, weshalb vor dem Einsatz von lingo eine Ruby-Umgebung (Ruby 1.8.7) installiert werden muss.
Mittwoch, 16. Juni 2010
Willkommen bei lingo!
Eingestellt von
le
um
10:23
0
Kommentare
Montag, 24. März 2008
Lingo im Überblick
Die aktuelle lingo-Version gibt es als Download hier.
Fachlich Interessierte finden in diesem PDF-Dokument eine gute Einführung in die Funktionalität von lingo.
Anwender und Entwickler können tiefer einsteigen mit der HTML-Dokumentation oder der Klassen-Architektur.

Eingestellt von
le
um
17:30
0
Kommentare
Montag, 24. September 2007
Lingo-Architektur
Lingo ist die Abkürzung für LINguistisches LeGO. Die Namensgebung stammt daher, dass lingo aus einzelnen Bausteinen besteht, die beliebig kombiniert werden können, um ganz individuelle Anforderungen an die Verarbeitung von Texten umsetzen zu können.
Lingo ist aber auch der englische Begriff für Fachsprache, Jargon. Daher heißen bei lingo die Bausteine Teilnehmer (attendee). Bei Start von lingo werden die Teilnehmer zu einer Besprechung (meeting) zusammengerufen, in der zu der gestellten Aufgabe linguistisch fachgesimpelt wird. Den Teilnehmern wird der Ablauf des Meetings über die Agenda (AgendaItem) mitgeteilt. Jeder Teilnehmer kann bei Bedarf zusätzlich Punkte auf die Agenda bringen, wenn es zur Lösung der Aufgabenstellung hilfreich ist.
Der normale Ablauf einer solchen Besprechung sieht etwa wie folgt aus:
Der Textreader (einer der Teilnehmer) bekommt von lingo den Anstoß, die Sitzung zu beginnen. Der Textreader liest daraufhin aus einer Datei eine Zeile nach der anderen und stellt sie den anderen Teilnehmern zur Verfügung. Da nicht alle Teilnehmer mit dieser Information etwas anfangen können, wird in der Konfiguration von lingo bestimmt, wer zielgerichtet mit wem redet (über in und out-Attribute).
Der Textreader gibt die Zeilen in unserem Beispiel weiter an den Tokenizer, der die Zeilen in einzelne Token zerlegt. Die Ausgabe des Tokenizers bekommt der Stopworder, der z.B. bestimmte und unbestimmte Artikel so markiert, dass sie in der weiteren Bearbeitung nicht weiter beachtet werden.
Der Stopworder gibt seine Ausgabe weiter an den Wordsearcher, der mit Hilfe des Wörterbuchs versucht die Grundform zu ermitteln. Dieser gibt seine Ausgaben wiederum weiter an einem Textwriter, der den Datenstrom in eine Datei umlenkt.
Es gibt noch weitere Teilnehmer, die als Baustein herangezogen werden können. Auch vernetzte Konfigurationen sind denkbar, die weit über das dargestellte lineare Beispiel hinaus gehen.
Sollte das Interesse geweckt sein, empfehle ich die Dokumentation der einzelnen Teilnehmer.
Eingestellt von
le
um
19:16
0
Kommentare