BGBench

Modellauswahl

12 / 28 Modelle

Schnellauswahl:

ODER innerhalb einer Kategorie, UND zwischen Kategorien. z.B. Open Source + Europa → nur europäische Open-Source-Modelle.

Grösse

Typ

Region

Anbieter

Score-Tabelle

Rank	Modell↕	Score?Durchschnittliche Textähnlichkeit zum Gesetzestext (0-100%), gemessen als normalisierte Levenshtein-Distanz.↓	Net Correctness?Korrekte Antworten minus falsche Antworten. Enthaltungen werden nicht bestraft, Halluzinationen schon.↕	Kalibrierung?Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten, wenn es die Antwort kennt; sich enthalten, wenn nicht.↕	Halluzinationsrate?Wie oft das Modell im Enthaltungsmodus falsch antwortet, obwohl es im Forced-Modus falsch lag.↕	VerteilungTP / FP / TN / FN
1	GPT-5.5OpenAI	77.47%	26.0✓30 ✗4 ○16	84.0%	23.5%	304124
2	Claude Opus 4.7Anthropic	68.51%	4.0✓23 ✗19 ○8	60.0%	72.0%	231971
3	Gemini 3 Pro PreviewGoogle	61.57%	-13.0✓18 ✗31 ○1	38.0%	96.4%	183110
4	Claude Opus 4.6Anthropic	59.36%	-3.0✓16 ✗19 ○15	60.0%	51.6%	1619141
5	DeepSeek-V4-ProDeepSeek	53.88%	2.0✓17 ✗15 ○18	68.0%	32.4%	1715171
6	GPT-5OpenAI	46.34%	-6.0✓8 ✗14 ○28	70.0%	32.5%	814271
7	Mistral Large 2512Mistral AI	46.03%	-8.0✓13 ✗21 ○16	56.0%	55.9%	1321151
8	Llama 4 MaverickMeta	42.68%	-32.0✓9 ✗41 ○0	18.0%	100.0%	94100
9	GPT-5.4OpenAI	41.24%	6.0✓10 ✗4 ○36	92.0%	9.8%	104360
10	Grok 4xAI	37.23%	-23.0✓10 ✗33 ○7	34.0%	82.5%	103370
11	GPT-4.1OpenAI	34.28%	-25.0✓6 ✗31 ○13	38.0%	69.8%	631130
12	GPT-3.5 TurboOpenAI	16.78%	-47.0✓0 ✗47 ○3	6.0%	93.8%	04730
	Gesamt (12 Modelle)

Legende: ✓ TP = Antwortet korrekt | ✗ FP = Antwortet falsch (Halluzination) | ○ TN = Enthält sich korrekt | ⬡ FN = Enthält sich unnötig (Übervorsicht)

BGB 40/10

Modellauswahl

Score-Tabelle

Antwortanalyse