LLM BGB Benchmark
Wie gut verstehen KI-Modelle deutsches Recht? Ein Benchmark von 20 LLMs anhand von 50 BGB-Normen.
Score-Übersicht (Frontier-Modelle)
Forced ModeForced ModeScoreØ 48%
5 ModelleTop 3
95% KI (Bootstrap über Normen)
Was wird gemessen?
Aufgabe
Für jede BGB-Norm generieren die Modelle eine Antwort, die mit einer Musterlösung (goldText) verglichen wird.
Modi
Forced: Modell muss immer antworten.
Abstention: Modell darf bei Unsicherheit ablehnen.
Score
Die Textähnlichkeit zwischen Modellantwort und Musterlösung, berechnet über die normalisierte Levenshtein-Distanz (0-100%).
Dataset
50 handverlesene Normen aus allen Büchern des BGB mit je mehreren Testfällen pro Norm.