Logo der Universität Passau

Finde den Bug - Was KI im Software Engineering wirklich kann

Finde den Bug - Was KI im Software Engineering wirklich kann

Können Sprachmodelle wie GPT wirklich verstehen, was ein „Bug“ ist? Unter anderem diese Frage untersucht ein Forschungsteam der Universität Passau in einem von der DFG geförderten Projekt.

Sprachmodelle wie GPT oder BERT haben in den vergangenen Jahren beeindruckende Fähigkeiten entwickelt. Sie übersetzen, fassen zusammen, schreiben Code oder Gedichte. Doch verstehen diese Modelle tatsächlich, was sie sagen – oder wiederholen sie lediglich Muster aus riesigen Textmengen? Besonders in Fachgebieten wie dem Software Engineering, in dem viele Begriffe mehrere Bedeutungen haben, geraten große KI-Modelle ins Straucheln.

„In unserer Forschung konnten wir zeigen, dass die Systeme mit mehrdeutigen Begriffen Probleme haben. ‚Bug‘ und ‚Root‘ etwa haben in der Informatik eine ganz andere Bedeutung als in der Botanik“, erklärt Prof. Dr. Steffen Herbold, Inhaber des Lehrstuhls für AI Engineering an der Universität Passau. In dem DFG-Projekt „SENLP - Wissen über Softwaretechnik in NLP Modellen“ schauen sich die Forschenden um Prof. Dr. Herbold genauer an, wie zuverlässig Sprachmodelle mit Fachwissen aus der Software-Entwicklung umgehen und wie sich ihre Grenzen besser verstehen lassen.

Wie KI-Modelle mit Unsinn umgehen

Dazu stellen die Forschenden die Kenntnisse großer Sprachmodelle auf den Prüfstand – und zwar buchstäblich. „Wir behandeln die KI-Modelle wie Prüfungskandidaten und testen, ob sie Fachfragen beantworten können“, erklärt Prof. Dr. Herbold. Erkennen sie etwa eine richtige Definition in einem Multiple-Choice-Test? Können sie ähnliche Konzepte korrekt voneinander unterscheiden und die Unterschiede erklären?

Ein weiteres Thema ist der Umgang mit Unsinn, was häufig auch als Halluzinationen des Modells bezeichnet wird. „Dass große Sprachmodelle Unsinn erzeugen, ist bekannt. Wir schauen uns an, wie ausgeprägt das Problem in der Software-Entwicklung ist.“ Dazu untersuchen die Forschenden nicht nur, inwiefern die Modelle selbst Unsinn generieren. Sie testen auch, wie die Systeme reagieren, wenn sie eine unsinnige Eingabe erhalten. „Wir wollen wissen, ob die Modelle Unsinn erkennen können.“

Sprachmodelle im Vergleich

Die Forschenden werten die Antworten systematisch aus und vergleichen dabei auch die Leistungen verschiedener Modellarchitekturen: wie schneiden kleinere, spezialisierte Modelle mit sogenannter Encoder-Only-Architektur wie BERT im Vergleich mit großen Decoder-Only-Modellen wie GPT ab? Das Passauer Team will hier wissen, ob Modelle, die auf allgemeinen Textmengen trainiert wurden, Fachwissen aus dem Software Engineering trotzdem verinnerlichen – oder ob domänenspezifisches Vortraining zwingend notwendig ist. Auf Basis dieser Erkenntnisse entwickeln die Forschenden methodische Grundlagen, um Fachwissen in großen KI-Modellen künftig gezielter prüfen und verbessern zu können.

Die Deutsche Forschungsgemeinschaft (DFG) fördert das Projekt über eine Laufzeit von drei Jahren.

Symbolbild: Adobe Stock

Projektleitung an der Universität Passau Prof. Dr. Steffen Herbold (Lehrstuhl für AI Engineering)
Laufzeit 01.04.2024 - 31.03.2027
Mittelgeber
DFG - Deutsche Forschungsgemeinschaft > DFG - Sachbeihilfe
DFG - Deutsche Forschungsgemeinschaft > DFG - Sachbeihilfe
Projektnummer 524228075
Ich bin damit einverstanden, dass beim Abspielen des Videos eine Verbindung zum Server von Vimeo hergestellt wird und dabei personenbezogenen Daten (z.B. Ihre IP-Adresse) übermittelt werden.
Ich bin damit einverstanden, dass beim Abspielen des Videos eine Verbindung zum Server von YouTube hergestellt wird und dabei personenbezogenen Daten (z.B. Ihre IP-Adresse) übermittelt werden.
Video anzeigen