- Trainer*in: Tatiana Bladier
- Trainer*in: Regina Stodden
Linguistic Resources
The focus of the course is on linguistic resources, such as web corpora,
language models, (lexical & syntactical) databases, treebanks, etc.
The focus is on answering the following questions:
- How can suitable data sources be found?
- What types of data sources are available?
- In which formats are the data provided and how can it be handled?
- How and for what can these data sets be used?
- How can own data sets be created?
- How can the data be analyzed?
These
topics are first theoretically introduced and then practically
addressed. Prior knowledge of Python is therefore desirable but not
mandatory. The goal is to support students in selecting, creating, and
processing suitable linguistic resources and analysis methods for
quantitative questions, such as for term papers, theses, or research
papers.
Following the handbook of modules, there will be only an
opportunity for a proof of active participation (BN) and no opportunity
for an exam. For the obtainment of the BN, the completion of regular
homework is required.
Einführung in die Computerlinguistik 2020
Ziel der Veranstaltung ist es, einen Überblick über Ziele und Methoden der Computerlinguistik zu vermitteln. Die Arbeitsweise der Computerlinguistik wird anhand von Beispielen aus verschiedenen linguistischen Bereichen (Phonologie, Morphologie, Syntax und Semantik) verdeutlicht. Parallel dazu werden Techniken für die formale Repräsentation und automatische Verarbeitung sprachlicher Informationen eingeführt. Die Bedeutung der Computerlinguistik für die Entwicklung praktischer sprachverarbeitender Systeme (etwa für maschinelle Übersetzung, Spracherkennung und automatische Informationsgewinnung aus Texten) wird in der Lehrveranstaltung hervorgehoben.
Hier https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf findet man das Draft von September 2018 der 3rd edition des Buches Speech and Language Processing von Daniel Jurafsky und James H. Martin.