Veröffentlichungen

Vorstellung des Projekts – U:FF 2021

Lightning Talks "Künstliche Intelligenz und Kompetenzentwicklung"

Kann Künstliche Intelligenz sinnvoll in die Bewertung juristischer Klausuren integriert werden?

Der Beitrag „KI-Unterstützung und Rohpunkteschemata: Die Zukunft der juristischen Klausurkorrektur?“ von Michael B. Strecker, Susanne Hähnchen, Martin Heidebach, Marie Herberger, Simon Alexander Nonn, Sarah Großkopf, Gökhan Erol, Menaf Erol, Ilja Garber, Constantin Höhmann, Enci Huang, Clemens Hufeld und Louisa Zachmann bildet den Abschlussbericht der zweiten Phase des DigitalProjekts und fasst die zentralen Ergebnisse zur Integration von KI in die Korrektur juristischer Prüfungen zusammen.

Innerhalb des DigitalProjekts wurden auf Grundlage empirischer Untersuchungen und umfangreicher praktischer Erprobungen die Möglichkeiten und Grenzen KI-gestützter Korrektursysteme für juristische Klausuren untersucht und zentrale Forschungsfragen zur automatisierten Bewertung entwickelt. Der Beitrag zeigt, wie KI im Zusammenspiel mit Rohpunkteschemata zur Objektivierung und Vereinheitlichung der Klausurbewertung beitragen kann. Zugleich macht er bestehende Limitationen bei komplexen Argumentationsstrukturen sichtbar.

Außerdem werden didaktische, technische und organisatorische Voraussetzungen für den Einsatz von KI in Prüfungen sowie Perspektiven für die weitere Digitalisierung des juristischen Prüfungswesens aufgezeigt. Ergänzend dazu werden auch generelle Fragen der Korrektur im juristischen Bereich, insbesondere zum Einsatz von Rohpunkteschemata, aufgegriffen. In diesem Zusammenhang werden offene Forschungsfelder herausgearbeitet, um eine weiterführende fachliche Diskussion anzustoßen. Zum Beitrag gelangen Sie hier.

DeepWrite zu Gast bei recode.law

In dieser Folge des recode.law-Podcasts sprechen Thorsten Hoffmann und Johannes Gohr mit den Gästen Simon Alexander Nonn (Rechtswissenschaft) und Alexandra Müller (DiLab) über das Forschungsprojekt DeepWrite der Universität Passau.

Das Projekt setzt KI bereits aktiv ein, um Studierende beim Schreiben und Korrigieren juristischer Texte zu unterstützen, und untersucht gleichzeitig die Möglichkeiten und Grenzen dieses Ansatzes. Die Gäste erläutern die interdisziplinäre Struktur von DeepWrite – das Projekt vereint Fachbereiche wie Jura, Didaktik und Künstliche Intelligenz – und berichten von ihren praktischen Erfahrungen. Während die KI bei kürzeren Lösungen bereits hilfreiches und nachvollziehbares Feedback liefert, zeigt sich bei umfangreicheren Gutachten, dass sie bei der Beurteilung komplexer Argumentationsgänge und inhaltlicher Tiefe noch an ihre Grenzen stößt, insbesondere wenn es um abweichende Lösungswege geht.

Zusammen mit Projektpartnern wie der FAU Erlangen-Nürnberg, der HföD Hof und der Universität Würzburg wird das KI-Feedback direkt bei studentischen Probeklausuren getestet und weiter optimiert.

Weitere Themen des Podcasts sind die Bedeutung präzise formulierter Prompts, die didaktische Einbettung von KI-Feedback sowie wichtige Learnings aus der bisherigen Projektarbeit. Darüber hinaus sprechen die Beteiligten auch über grundsätzliche Fragen der juristischen Ausbildung – etwa über die nach wie vor handschriftliche Examensrealität, strukturelle Hürden beim KI-Einsatz und die allgemeinen Chancen und Herausforderungen, die sich aus der Digitalisierung ergeben. Hier gelangen Sie zur Podcast-Folge.

Explorative Studie: KI-Feedback in der Rechtslehre

In diesem Beitrag in der ZDRW befassen sich Veronika Hackl, Christian Braun, Sarah Großkopf, Simon Alexander Nonn, Alexandra Elena Müller und Dr. Martin Zwickel mit dem Einsatz und der Einschätzung von KI-gestütztem Feedback in der juristischen Ausbildung.
Die explorative Studie „KI-Feedback in der Rechtslehre“ untersucht die Wahrnehmung und Bewertung von KI-generiertem Feedback im Vergleich zu menschlichem Tutor-Feedback durch Jura-Studierende im Wintersemester 2023/24.

Die quantitativ angelegte Studie mit ergänzenden qualitativen Elementen basiert auf 168 studentischen Bewertungen des KI-Feedbacks sowie 36 Bewertungen des Tutor-Feedbacks. Die Ergebnisse deuten auf eine Präferenz für das Tutor-Feedback hinsichtlich Verständlichkeit, Eindeutigkeit, Hilfestellung und Formulierung hin. Auch bei der Hilfestellung für die Textüberarbeitung und der motivationalen Wirkung schneidet das Tutor-Feedback tendenziell besser ab. Gleichzeitig werden Stärken des KI-Feedbacks deutlich, wie dessen Unmittelbarkeit und Anregung zu Diskussionen.

Herausforderungen für Jura-Studierende in Bezug auf individuelles Feedback

In dem RDi-Beitrag unter der Rubrik Tech & Tools von Nico Kuhlmann geht es unter anderem um die Herausforderungen, welche sich für Jurastudierende insbesondere in Bezug auf individuelles Feedback ergeben können. Sodann wird dargestellt, wie das Forschungsprojekt DeepWrite hier Abhilfe schaffen kann. Es wird sowohl die Funktionsweise des KI-basierten Assistenzsystems veranschaulicht als auch auf aktuelle Einsätze in der Lehrpraxis eingegangen.

Eignung großer Sprachmodelle zur Analyse und Bewertung von Rechtstexten

Diese Studie untersucht die Eignung großer vortrainierter Sprachmodelle für die Analyse und Bewertung von Rechtstexten in der Lehre und zeigt, dass sie in dieser Domäne noch nicht ausgereift sind.

Mehrsprachige lokale Modelle besitzen Vorwissen über Grundbegriffe des zu Lehrzwecken eingesetzten Gutachtenstils. Mit Rückgriff auf sorgsam ausgewählte Beispiele können sie die Bestandteile dieser Argumentationsweise zuordnen, bleiben jedoch hinter einfacheren nicht sprachbasierten Modellen zurück.

Große Sprachmodelle sind besonders gut zur Bewertung und Benotung von Freitexten geeignet, da sie bereits viel Domänenwissen beinhalten und nicht gesondert trainiert werden müssen. In unseren Experimenten übertreffen sie dabei bei englischsprachigen Texten einfachere Methoden. Diese Leistung ist jedoch noch nicht auf die Bewertung komplexer deutschsprachiger juristischer Hausarbeiten übertragbar.

DeepWrite – Der KI-Korrektor?

In diesem Beitrag von recode.law e.V. befassen sich Olesja Kaltenecker und Jeremias Forssman mit dem DeepWrite Projekt. Basierend auf einem Interview mit Christian Braun, Simon Alexander Nonn und Sarah Großkopf vom Forschungsprojekt DeepWrite der Universität Passau werden das Projekt selbst, seine Stärken und Möglichkeiten sowie die noch bestehenden Herausforderungen beleuchtet. Insbesondere bei kürzeren Lösungen kann die KI mit sorgfältiger Vorbereitung ordentliches Feedback liefern. Sowohl die inhaltliche Richtigkeit, als auch der (Gutachten-)Stil sowie grammatikalische und lexikalische Richtigkeit werden bewertet. Eine Herausforderung stellt jedoch die Bewertung langer Lösungen dar. Die Stringenz einer Argumentation über eine ganze Klausur hinweg kann bisher nur schwer bewertet werden.

Konzeptualisierung der Lernplattform DeepWrite für Künstliche Intelligenz im Bereich Recht in Deutschland - Fokussierung auf die Benutzeroberfläche auf Basis der Umfrageergebnisse

Der Artikel von Yujin Kang im Korean Design Forum (한국디자인포럼) basiert auf einer “Umfrage zur Ermittlung der UX-Bedürfnisse von Jurastudierenden“, die im Wintersemester 2023/24 im Fachbereich Rechtswissenschaft an der Universität Passau durchgeführt wurde. In dieser Studie wurden die Antworten der Umfrageteilnehmenden sowohl mit Blick auf die User Experience als auch im Hinblick auf die Integration von Künstlicher Intelligenz in eine solche Lernplattform ausgewertet. Bei der User Experience liegt der Fokus auf dem User Interface und dem Designsystem, welche die Anforderungen und die Präferenzen der zukünftigen Nutzenden berücksichtigen. Das positive Erscheinungsbild der Lernplattform erlaubt den Nutzenden, die Plattform über einen längeren Zeitraum zu nutzen und die Aufmerksamkeit der Nutzenden aufrecht zu erhalten. Darüber hinaus befasst sich der Artikel mit der theoretischen Betrachtung des KI- und Designprozesses und verdeutlicht die Bedeutung der Mensch-Computer-Interaktion (eng. Human-Computer-Interaction, HCI) aus Sicht des User Experience Designs, indem die Benutzeroberflächen des Großen Sprachmodells ChatGPT in den Versionen GPT-2 und GPT-3.5 verglichen wurden.

Phantastische Prompts und wo sie zu finden sind: Ein kleiner Guide für KI-generiertes Feedback für Schule und Hochschule

Die Projektmitarbeiterin Veronika Hackl beschreibt in ihrem Blogbeitrag bei fiete.ai die Grundlagen des Promptings für KI-generiertes Feedback im Bildungskontext. Der Feedback-Prompt-Prozess besteht aus drei Schritten: Zieldefinition, Prompt-Formulierung und Evaluation des Outputs. Der Text stellt verschiedene Prompting-Techniken vor: Zero-Shot Prompting für einfache Feedback-Generierung, Few-Shot Prompting für beispielbasiertes Lernen, Chain-of-Thought Prompting für nachvollziehbare Bewertungen und Tree-of-Thoughts Prompting für multiple Perspektiven. Zusätzlich werden fortgeschrittene Konzepte wie Hyperparameter Tuning und RAG-Systeme (Retrieval-Augmented Generation) erklärt. RAG ermöglicht die Integration eigener Dokumente wie Unterrichtsinhalte in den Feedback-Prozess. Der Text geht auch auf technische Aspekte ein, etwa die Einstellung von Hyper-Parametern wie Temperature. Die Ausführungen schließen mit einer Betrachtung aktueller Entwicklungen und Herausforderungen im Bereich KI-generiertes Feedback, darunter die Integration in Lernmanagementsysteme und der Umgang mit technischen Voraussetzungen.

Kann ChatGPT Lehrende an der Universität ersetzen?

In diesem Aufsatz in der JuS (Juristische Schulung) widmen sich die Wiss. Mitarbeiter Christian Braun, Sarah Großkopf und Simon A. Nonn der Frage, ob ChatGPT Lehrende an der Universität ersetzen kann – vor allem mit Blick auf die Vermittlung der juristischen Argumentationsfähigkeiten und speziell des Gutachtenstils anhand von KI-Feedback.

Die Corona-Pandemie und die damit einhergehenden immer rasanter werdenden Entwicklungen und Fortschritte im Bereich Digitalisierung haben in den letzten Jahren gezeigt, dass sich Didaktik im Hochschulbereich aktuell im Wandel befindet und dass dieser Prozess aktiv beeinflusst werden kann und sollte, um die Zukunfts- und Wettbewerbsfähigkeit der Universitäten zu erhalten. Ein großer Bestandteil dessen ist die Nutzung innovativer Technik und Tools, wie zB Künstliche Intelligenz (KI), insbesondere large language models (LLM) und natural language processing (NLP), um digitale Lehr- und Lernräume für Studierende zukünftiger Generationen zu schaffen.

Ist GPT-4 ein zuverlässiger Bewerter? Bewertung der Konsistenz der Textbewertungen von GPT-4

Diese Studie berichtet über die Intraclass-Korrelationskoeffizienten von Feedback-Bewertungen, die von OpenAIs GPT-4, einem großen Sprachmodell, über verschiedene Iterationen, Zeitrahmen und stilistische Variationen hinweg erzeugt wurden. Das Modell wurde verwendet, um Antworten auf Aufgaben im Zusammenhang mit der Makroökonomie in der Hochschulbildung auf der Grundlage ihres Inhalts und Stils zu bewerten. Es wurde eine statistische Analyse durchgeführt, um die absolute Übereinstimmung und Konsistenz der Bewertungen in allen Iterationen sowie die Korrelation zwischen den Bewertungen in Bezug auf Inhalt und Stil zu ermitteln. Die Ergebnisse zeigten eine hohe Interrater-Reliabilität mit ICC-Werten zwischen 0,94 und 0,99 für verschiedene Zeiträume, was darauf hindeutet, dass GPT-4 in der Lage ist, konsistente Bewertungen zu erstellen. Der in dieser Studie verwendete Prompt wird ebenfalls vorgestellt und erläutert.

Leistungsanalyse großer Sprachmodelle für Legal Argument Mining

In dieser Studie untersuchen wir (Abdullah Al Zubaer, Michael Granitzer und Jelena Mitrović) die Effektivität von GPT-3.5 und GPT-4 für das Argument-Mining im juristischen Bereich und konzentrieren uns dabei auf die Formulierung von Befehlen ("Prompts") und die Auswahl von Beispielen unter Verwendung von modernen Einbettungsmodellen von OpenAI und Satztransformatoren. Unsere Experimente zeigen, dass relativ kleine domänenspezifische Modelle GPT 3.5 und GPT-4 bei der Klassifizierung von Prämissen und Schlussfolgerungen übertreffen, was auf eine Lücke in der Leistung dieser Modelle bei komplexen Rechtstexten hinweist. Wir beobachten auch eine vergleichbare Leistung zwischen den beiden Einbettungsmodellen, mit einer leichten Verbesserung der Fähigkeit des lokalen Modells bei der Prompt-Auswahl. Unsere Ergebnisse deuten darauf hin, dass die Struktur von Prompts die Leistung von GPT-Modellen erheblich beeinflusst und bei der Entwicklung von Modellen berücksichtigt werden sollte.

Beitrag bei den Lightning Talks "Lehre über und mit KI" - U:FF 2023

So wird KI in der Hochschulbildung eingesetzt

In dieser Interviewreihe stellt die Bundeszentrale für politische Bildung drei vom Bundesministerium für Bildung, Wissenschaft und Forschung geförderte Projekte vor. Im Rahmen dieser Reihe durfte Veronika Hackl den Lesern das Projekt DeepWrite näherbringen.

Tagungsbericht zur Zweiten Passauer Junikonferenz

Vom 24.-26. Juni 2022 veranstaltete ELSA-Passau die zweite Junikonferenz unter dem Motto "Smart Law". Bei dieser Tagung sollte nichts Geringeres als die Zukunft der Rechtswissenschaften sowie die Digitalisierung der juristischen Berufe behandelt werden. Im anliegenden Tagungsbericht wird unter anderem das Projekt DeepWrite behandelt.

Vernetzungsveranstaltung des BMBF „KI in der Hochschulbildung"

22./23.06.2022

Informationen für...

Informationen für...

Studierende

Studieninteressierte

Wissenschaftlerinnen und Wissenschaftler

Nachwuchsförderung

Unternehmen

Netzwerke

Schülerinnen, Schüler und Lehrkräfte

Beschäftigte

Presse

Fakultäten & Einrichtungen

Verwaltung

Zentrale Einrichtungen

Fakultäten

Juristische Fakultät

Sozial- und Bildungswissenschaftliche Fakultät

Geistes- und Kulturwissenschaftliche Fakultät

Wirtschaftswissenschaftliche Fakultät

Fakultät für Informatik und Mathematik

Zentrale Einrichtungen

Heading

Vorstellung des Projekts – U:FF 2021

Kann Künstliche Intelligenz sinnvoll in die Bewertung juristischer Klausuren integriert werden?

DeepWrite zu Gast bei recode.law

Explorative Studie: KI-Feedback in der Rechtslehre

Herausforderungen für Jura-Studierende in Bezug auf individuelles Feedback

Eignung großer Sprachmodelle zur Analyse und Bewertung von Rechtstexten

DeepWrite – Der KI-Korrektor?

Konzeptualisierung der Lernplattform DeepWrite für Künstliche Intelligenz im Bereich Recht in Deutschland - Fokussierung auf die Benutzeroberfläche auf Basis der Umfrageergebnisse

Phantastische Prompts und wo sie zu finden sind: Ein kleiner Guide für KI-generiertes Feedback für Schule und Hochschule

Kann ChatGPT Lehrende an der Universität ersetzen?

Ist GPT-4 ein zuverlässiger Bewerter? Bewertung der Konsistenz der Textbewertungen von GPT-4

Leistungsanalyse großer Sprachmodelle für Legal Argument Mining

Beitrag bei den Lightning Talks "Lehre über und mit KI" - U:FF 2023

So wird KI in der Hochschulbildung eingesetzt

Tagungsbericht zur Zweiten Passauer Junikonferenz

Vernetzungsveranstaltung des BMBF „KI in der Hochschulbildung"

Informationen für...

Informationen für...

Studierende

Studien­interessierte

Wissen­schaftler­innen und Wissen­schaftler

Nachwuchs­förderung

Unternehmen

Netzwerke

Schülerinnen, Schüler und Lehrkräfte

Beschäftigte

Presse

Fakultäten & Einrichtungen

Verwaltung

Zentrale Einrichtungen

Fakultäten

Juristische Fakultät

Sozial- und Bildungs­wissen­schaft­liche Fakultät

Geistes- und Kultur­wissen­schaft­liche Fakultät

Wirtschafts­wissen­schaft­liche Fakultät

Fakultät für Informatik und Mathematik

Zentrale Einrichtungen

Veröffentlichungen

Studieninteressierte

Wissenschaftlerinnen und Wissenschaftler

Nachwuchsförderung

Sozial- und Bildungswissenschaftliche Fakultät

Geistes- und Kulturwissenschaftliche Fakultät

Wirtschaftswissenschaftliche Fakultät