Veranstaltungsdetails

Veranstaltungsdetails

Text Mining Project
SWS:
6
Dozierende:
Handschuh, Siegfried, Prof. Dr.
Veranstaltungstyp:
Übung
Beschreibung:
Analysis of natural language, amongst them the major themes of natural language understanding, information retrieval, information extraction and text classification, has been a mainstream research application in artificial intelligence and computational linguistics. In the text mining project course, students learn the basic concepts and major algorithms in natural language processing and text analytics.

The text mining project course covers basic concepts and major methods for analysing text data in a practical fashion. The aim is to provide the participants with essential knowledge and tools to discover and extract useful information from unstructured text to address a wide range of real world applications, particularly in a hands-on fashion using the natural language processing toolkit (NLTK) of Python. The aim is to learn both Python and natural language processing techniques in one go.

In the first 7 weeks of the semester, participants will learn basics of Python programming with a strong focus on natural language processing through the use of NLTK module. Thereafter, students are offered a project title, in which they will have a chance to apply the knowledge they have obtained in the first 7 weeks of the semester to a real world application and compare their work with the state of the art algorithms.

At the end of the semester, students are assessed and marked by their project work consisting of source codes, project report and the presentation of their work. The main text book for this course is Natural Language Processing with Python by Steve Bird, Ewan Klein, and Edward Loeper.
Ort:
(IM) R 028
Zeiten:
Fr. 10:00 - 16:00 (wöchentlich)
Erster Termin:Fr , 20.10.2017 10:00 - 16:00, Ort: (IM) R 028
Semester:
WS 17/18
Veranstaltungsnummer:
5981P
TeilnehmerInnen
Kenntnisse: Die Studierenden lernen in der praktischen Anwendung grundlegende Konzepte und die wichtigsten Methoden zur Analyse von Textdaten. Kompetenzen: Die Studierenden erwerben die Grundkompetenzen in Python und der NLTK (Natural Language Toolkit) Bibliothek. Diese Kompetenz erlaubt die Extraktion nützlicher Information aus unstrukturierten Text, um eine breite Palette von realen Anwendungen damit anzugehen.
Voraussetzungen:
Nach Prüfungsordnung: Keine. Empfohlene Voraussetzungen: Lineare Algebra, Wahrscheinlichkeitsrechnung, Programmier-kenntnisse in Python.
Lernorganisation:
75 Std. Präsenz + 50 Std. Übungsaufgaben + 85 Std. Nachbearbeitung des Vorlesungsstoffs und Prüfungsvorbereitung
Leistungsnachweis:
Projektarbeit bestehend aus Source-Code, schriftliche Ausarbeitung in Form eines technischen Berichts und Präsentation der Arbeit.
Anrechenbar fr:

Die Angaben zu den Anrechenbarkeiten an der FIM sind ohne Gewähr. Bitte beachten Sie die verbindliche Liste der Anrechenbarkeiten .

Studienangebote in anderen Sprachen > Studienangebot in englischer Sprache
Fakultät für Informatik und Mathematik > Bachelor Informatik
Fakultät für Informatik und Mathematik > Bachelor Internet Computing
Fakultät für Informatik und Mathematik > Bachelor Mobile und Eingebettete Systeme
Fakultät für Informatik und Mathematik > Bachelorstudiengang Mathematik
Fakultät für Informatik und Mathematik > Master Informatik
Sonstiges:
Der Kurs bietet eine leicht zugängliche Einführung in das Text Mining und die Verarbeitung natürlicher Sprache (NLP). Das Thema erlaubt eine Vielzahl von Anwendungen, von der automatischen Worterkennung und Email-Filterung bis hin zur automatischen Zusammenfassung und Übersetzung. Die Teilnehmer lernen, wie man Python-Programme erstellt, um große Sammlungen unstrukturierter Texte automatisch zu verarbeiten. Ebenso, wie man Sprach-Ressourcen (reich annotierte Datensätze) mittels einer umfassenden Palette an linguistischer Datenstrukturen verwendet. Die Teilnehmer lernen die wichtigsten Algorithmen für die Analyse des Inhalts und der Struktur schriftlicher Kommunikation kennen. Dies wird vermitteltet anhand umfangreicher Beispiele und Übungen.

Beispielsweise lernen die Teilnehmer:
• die Informationsgewinnung aus unstrukturierten Texte, zur Themen-Erkennung (Topic Detection) oder der Identifikation von wichtiger Begriffe (Named Entitites)
• Die Analyse linguistischer Strukturen im Text; einschließlich Parsing und semantischer Analyse
• Zugriff auf linguistische Datenbanken inklusive WordNet und Treebanks
• Die Integration von Techniken aus so unterschiedlichen Bereichen wie er Linguistik und der künstlichen Intelligenz


Der Kurs vermittelt praktische Fähigkeiten in der Verarbeitung natürlicher Sprach mit Hilfe der Programmiersprache Python und dem Natural Language Toolkit (NLTK).

Mögliche Projektarbeiten umfassen die automatische Text-Analyse Sozialer Medien (bspw Twitter), die Analyse multilingualer Nachrichtenquellen, die Erzeugung von Sprachressourcen, oder die Erzeugung eines Wissensgraphens mittels Wikipedia.

Die folgenden Inhalte werden im Detail geboten:
• Language Processing and Python
• Accessing Text Corpora and Lexical Resources
• Processing Raw Text
• Categorizing and Tagging Words
• Learning to Classify Text
• Extracting Information from Text
• Analyzing Sentence Structure
• Building Feature-Based Grammars
• Analyzing the Meaning of Sentences
• Managing Linguistic Data
ECTS-Punkte:
8
Literatur:
• Steven Bird, Ewan Klein and Edward Loper (2009), Natural Language Processing with Python, O’Reilly Media, Inc., ISBN: 9780596555719.
• Eigenes Skriptum
Weitere Informationen zu dieser Veranstaltung:
Heimatinstitut: Lehrstuhl für Informatik mit Schwerpunkt Digital Libraries and Web Information Systems
Angemeldete Teilnehmer: 59
Anzahl der Postings im Forum: 2
Anzahl der Dokumente im Downloadbereich: 1