Work in Progress

BGBench

Evaluation von 22 Sprachmodellen zur wortgetreuen Wiedergabe von 50 Normen des Bürgerlichen Gesetzbuchs. Jedes Modell wird in zwei Modi getestet: mit Antwortpflicht (Forced) und mit Enthaltungsoption (Abstention). So lässt sich messen, ob ein Modell sein eigenes Wissen korrekt einschätzt.

Forced Mode
Rank
Modell
Score?
Net Correctness?
Kalibrierung?
Halluzinationsrate?
VerteilungTP / FP / TN / FN
1
GPT-5.2OpenAI
43.17%
9.010139
98.0%2.4%
101390
2
GPT-5OpenAI
46.34%
-6.081428
70.0%32.5%
814271
3
Claude Opus 4.5Anthropic
61.92%
-7.021281
44.0%92.9%
212810
4
Mistral Large 2512MistralAI
46.03%
-8.0132116
56.0%55.9%
1321151
5
Gemini 3 Flash PreviewGoogle
60.23%
-12.019310
38.0%96.6%
193100
6
Gemini 3 Pro PreviewGoogle
61.57%
-13.018311
38.0%96.4%
183110
7
DeepSeek-V3.2DeepSeek
35.11%
-19.062519
48.0%52.4%
625181
8
Grok 4xAI
37.23%
-23.010337
34.0%82.5%
103370
9
GPT-4.1OpenAI
34.28%
-25.063113
38.0%69.8%
631130
10
GPT-3.5OpenAI
16.78%
-47.00473
6.0%93.8%
04730
Gesamt (10 Modelle)

Methodik

Aufgabenstellung

Jedes Modell wird aufgefordert, den Wortlaut einer BGB-Norm wiederzugeben. Die generierte Antwort wird mit dem amtlichen Gesetzestext verglichen. Als korrekt gilt eine Antwort, wenn sie dem Originaltext hinreichend ähnlich ist (normalisierte Levenshtein-Distanz ≥ 80%).

Levenshtein-Distanz

Die Levenshtein-Distanz zählt die minimalen Einzelzeichen-Operationen (Einfügen, Löschen, Ersetzen), um einen Text in einen anderen zu überführen. Beispiel: „Katze“ → „Karte“ erfordert 2 Operationen (t→r, z→t), also Distanz 2. Die Normalisierung setzt die Distanz ins Verhältnis zur Textlänge, sodass kurze und lange Normen vergleichbar werden: 5 Fehler in einem 500-Zeichen-Text wiegen weniger als 5 Fehler in einem 50-Zeichen-Text.

Zweischrittiges Testverfahren

Ein einzelner Testdurchlauf beantwortet nur eine Frage: Hat das Modell das Wissen? Ob das Modell auch weiß, dass es das Wissen hat, bleibt unklar. Erst durch zwei Modi lässt sich beides erfassen:

1. Forced Mode

Das Modell muss antworten. Misst das maximal abrufbare Wissen, unabhängig von der Selbsteinschätzung des Modells.

2. Abstention Mode

Das Modell darf sich enthalten. Misst, ob das Modell sein eigenes Wissen korrekt einschätzt (Metakognition).

Durch den Vergleich beider Durchläufe pro Norm ergeben sich vier Fälle:

ForcedAbstentionInterpretation
KorrektAntwortetIdeal: Modell weiß es und sagt es
KorrektEnthält sichVerstecktes Wissen: weiß es, traut sich nicht
FalschEnthält sichGut kalibriert: weiß es nicht, gibt es zu
FalschAntwortetHalluzination: weiß es nicht, behauptet es
Beispiel: Warum beide Modi notwendig sind

Ein Modell wird nach § 932 BGB (gutgläubiger Erwerb) gefragt und enthält sich im Abstention-Modus. Ohne den Forced-Modus wäre diese Enthaltung nicht interpretierbar: War das Modell zu vorsichtig, obwohl es die Norm kennt? Oder hat es richtig erkannt, dass es den Text nicht zuverlässig wiedergeben kann? Erst der Forced-Modus gibt Aufschluss: Antwortet das Modell dort korrekt, war die Enthaltung übervorsichtig (verstecktes Wissen). Antwortet es falsch, war die Enthaltung eine korrekte Selbsteinschätzung (gute Kalibrierung).

Datensatz

50 Normen aus allen fünf Büchern des BGB (Allgemeiner Teil, Schuldrecht, Sachenrecht, Familienrecht, Erbrecht). Die Auswahl umfasst sowohl zentrale als auch weniger bekannte Vorschriften.

Metriken

Score

Durchschnittliche Textähnlichkeit zwischen Modellantwort und Gesetzestext, gemessen als normalisierte Levenshtein-Distanz (0–100%).

Net Correctness

Anzahl korrekter Antworten minus Anzahl falscher Antworten. Bestraft Halluzinationen stärker als reine Fehlerquote.

Kalibrierung

Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten wenn es weiß, enthalten wenn es nicht weiß.

Verstecktes Wissen

Anteil der Normen, bei denen das Modell im Abstention-Modus schweigt, obwohl es im Forced-Modus korrekt antwortet.

Halluzinationsrate

Anteil der Normen, bei denen das Modell im Abstention-Modus antwortet, obwohl es im Forced-Modus falsch lag. Auch: Selbstüberschätzung.

Kosteneffizienz

Verhältnis von Score zu API-Kosten. Berücksichtigt, dass teurere Modelle nicht zwangsläufig bessere Ergebnisse liefern.

Bewertungskriterien

Die Klassifikation einer Antwort basiert auf dem Vergleich mit dem amtlichen Gesetzestext:

KlassifikationKriteriumBedeutung
KorrektScore ≥ 80%Antwort entspricht im Wesentlichen dem Gesetzestext
InkorrektScore < 80%Antwort weicht erheblich vom Gesetzestext ab
EnthaltungKeine AntwortModell verweigert die Antwort (nur im Abstention-Modus)