Universität Düsseldorf: Mujezinovic 2023-II

Wir nutzen die Technologie! Erste Schritte in die Modellierung von linguistischen Daten

Projektleitung: Erdin Mujezinovic

Computerkompetenzen erfreuen sich großer Beliebtheit und werden immer häufiger von Arbeitgebenden vorausgesetzt. Auch innerhalb der Linguistik – allen voran Phonologie und Morphologie – ist die Verwendung von Computermodellen unabdingbar. Linguistik-Studierende sind sich dessen bewusst und zeigen großes Interesse am Erwerb von Computerkompetenzen, um sowohl die Chancen auf dem Arbeitsmarkt, als auch die eigenen Fachkompetenzen zu verbessern. Allerdings fehlen dem Großteil der Linguistik-Studierenden die Grundlagen, um computergestützte Forschung angemessen nach zu vollziehen und selbst anzuwenden. Innerhalb linguistischer Seminare gelingt es oft nicht, fehlende Grundlagen zusätzlich zu den Kursthemen nachzuholen.

Das Projekt "Wir nutzen die Technologie! Erste Schritte in die Modellierung von linguistischen Daten" möchte Studierenden der Linguistik und benachbarter Philologien (Anglistik, Germanistik, Romanistik) durch niedrigschwellige E-Learning-Einheiten die Angst vor Computern nehmen und Computermodellierung von linguistischen Daten zugänglich machen.

In insgesamt fünf Lerneinheiten werden Studierende ohne Informatikvorkenntnisse durch die wesentlichen Aspekte der linguistischen Computermodellierung geführt. Die erste Einheit schafft die Grundlagen für alle folgenden Einheiten (Computerdateien richtig einlesen, Installation und Überblick über Programmierumgebungen wie RStudio, etc.). Die folgenden Einheiten führen in die Arbeit mit unterschiedlichen Lern- und Klassifizierungsmodelle ein: Diese sind EDL (error-driven learning), NDL (naive discriminative learning), LDL (linear discriminative learning) und TiMBL (Tilburg[1]Memory-based-Learner). Die Einheiten sind in sich geschlossen, allerdings steigt die Lernschwierigkeit von Einheit zu Einheit. Je nach Seminarschwerpunkt können unterschiedliche Lerneinheiten genutzt werden, z.B. ist die Grundlagen[1]Einheit auch für Kurse mit Fokus auf Statistik nutzbar. Die Lerninhalte werden durch Tutorials in Form von Lehrvideos und Skripten vermittelt. Gleichzeitig wird durch "Learning by doing" die eigene Anwendung der Computermodelle gefordert. Durch Übungsaufgaben wird allgemein das Verständnis getestet.

Durch das Projekt lernen Studierende die Grundlagen computergestützter linguistischer Arbeit kennen. Sie können den Nutzen von maschineller Lern- und Klassifizierungsmodellen nachvollziehen und diese für eigene Forschungsfragen, bzw. Abschlussarbeiten nutzen.

Verantwortlichkeit: