Erster Veranstaltungstag:

Dienstag, 8. April 2008, 10:15 in Raum -1607 (Neubau WA 73)

Ort und Zeit:

Dienstags, 10.15 h – 11.45 h, in Raum 0443

Übungen:

Mittwochs, 10.15 h – 11.45 h, in Raum 0443. Beginn 16. April

Angesprochener HörerInnenkreis:

Informatik Master/Diplom II. Die Vorlesung kann auch im Bachelor Informatik angerechnet werden. (Es darf aber nur eine Masterveranstaltung in den Bachelor eingebracht werden, die man dann aber nicht mehr für den Master verwenden kann!)

Vorkenntnisse:

Informatik Grundstudium

Leistungsnachweis:

Klausur oder mündliche Prüfung, je nach Teilnehmerzahl. Die Vorlesung kann im Bereich Praktische Informatik sowie in den Anwendungsgebieten Knowledge & Data Engineering und Internet-Technologien angerechnet werden.

Veranstalter:

Dr. Andreas Hotho, Dominik Benz

Inhalt:

Der grösste Anteil des heute verfügbaren Wissens liegt in Form natürlichsprachlicher Texte vor. Das Aufkommen des WWW hat die elektronische Verfügbarkeit dieser Texte stark beschleunigt. Somit stehen heutzutage Millionen von Textdokumenten nicht nur Menschen zur Verfügung, sondern können auch von Computern automatisiert verarbeitet werden. Dies eröffnet neue Möglichkeiten, Einblicke in die Eigenschaften und Nutzung von Sprache zu erhalten. Analytische Verfahren zur Untersuchung der Eigenschaften und der Verarbeitung von Sprache in Form von Texten und Textkollektionen bilden den Kern dieser Vorlesung. Darauf aufbauend werden statistische Methoden z.B. zur Unterscheidung von Wortsinnen oder der Bestimmung grammatikalischer Konstrukte erarbeitet. Ein weiteres Thema sind Verfahren zur automatischen Übersetzung von Texten zwischen verschiedenen Sprachen.

Organisatorisches:

Die Vorlesung wird nicht wie üblich als Frontalunterricht auf der Basis von Folien abgehalten. Vielmehr gibt es wöchentliche Leseaufgaben, die dann jede Woche während der Vorlesung besprochen werden.

Agenda:

  • [08.04] Einführung (Folien Andreas)
  • [15.04] Eigenschaften von Text (Kap 3., Folien Hagen)
  • [22.04] Words I: Satzgrenzenerkennung, Tokenization (Kap 4, Folien Olga)
  • [29.04] Kollokationen (Kap 5.1, 5.2, 5.3, Folien Jörn)
  • [06.05] N-Gram-Modelle (Kap 6.1 und Kap 6.2, Folien Michael Blumenstein)
  • [13.05] Hidden Markov Modelle für Tagging (Kap 9, 10.1.,10.2, Folien Melih)
  • [20.05] Rest HMM, Transformationsbasiertes Tagging (Kap 10.3, Kap 10.4 Folien Michael Wagner)
  • [27.05] Probabilistic Context Free Grammars (Kap 11, Folien Christian)
  • [03.06] Probabilistic Parsing I (Kap 12, Folien Jörn)
  • [10.06] Probabilistic Parsing II (Kap 12, Folien Michael Blumenstein)
  • [17.06] Word Sense Disambiguation I (Kap 7, Folien Daniel)
  • [24.06] Word Sense Disambiguation II (Kap 7, Folien Daniel)
  • [01.07] Machine Translation (Kap 13, Folien Oxana)

 

 

Literatur zur Vorlesung:

Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. The MIT Press,Cambridge, Massachusetts,1999.

Eine Liste mit vertiefender Literatur gibt es in BibSonomy unter dem Stichwort NLP.

 

Folien:

  • Einführung, Organisatorisches, Überblick von Andreas PDF-Download PDF-Download (4 in 1)
  • Eigenschaften von Text von Andreas PDF-Download PDF-Download (4 in 1)
  • Linguistic Essentials von Hagen Peukert PDF-Download PDF-Download (4 in 1)
  • Corpus Based Work von Olga Walker PDF-Download PDF-Download (4 in 1)
  • POS Tagging von Michael Wagner PDF-Download
  • Probabilistic Context Free Grammars von Christian Voigtmann PDF-Download
  • Machine Translation von Oxana Lapteva PDF-Download PDF-Download (4 in 1)
  • Probabilistic Parsing, Teil 1 von Jörn Dreyer PDF-Download
  • Probabilistic Parsing, Teil 2 von Michael Blumenstein PDF-Download
  • N-Gram Modelle von Michael Blumenstein PDF-Download
  • Markov-Models von Melih Kurt PDF-Download PDF-Download (4 in 1)
  • Word Sense Disamiguation von Daniel PDF-Download PDF-Download (4 in 1)

 

Übung: