BGBench

Modellauswahl

28 / 28 Modelle

Schnellauswahl:

ODER innerhalb einer Kategorie, UND zwischen Kategorien. z.B. Open Source + Europa → nur europäische Open-Source-Modelle.

Grösse

Typ

Region

Anbieter

Score-Tabelle

Rank	Modell↕	Score?Durchschnittliche Textähnlichkeit zum Gesetzestext (0-100%), gemessen als normalisierte Levenshtein-Distanz.↓	Net Correctness?Korrekte Antworten minus falsche Antworten. Enthaltungen werden nicht bestraft, Halluzinationen schon.↕	Kalibrierung?Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten, wenn es die Antwort kennt; sich enthalten, wenn nicht.↕	Halluzinationsrate?Wie oft das Modell im Enthaltungsmodus falsch antwortet, obwohl es im Forced-Modus falsch lag.↕	VerteilungTP / FP / TN / FN
1	GPT-5.5OpenAI	77.47%	26.0✓30 ✗4 ○16	84.0%	23.5%	304124
2	Claude Opus 4.7Anthropic	68.51%	4.0✓23 ✗19 ○8	60.0%	72.0%	231971
3	Claude Opus 4.5Anthropic	61.92%	-6.0✓21 ✗27 ○2	46.0%	89.3%	212720
4	Gemini 3 Pro PreviewGoogle	61.57%	-13.0✓18 ✗31 ○1	38.0%	96.4%	183110
5	Gemini 3 Flash PreviewGoogle	60.23%	-12.0✓19 ✗31 ○0	38.0%	96.6%	193100
6	Claude Opus 4.6Anthropic	59.36%	-3.0✓16 ✗19 ○15	60.0%	51.6%	1619141
7	DeepSeek-V4-ProDeepSeek	53.88%	2.0✓17 ✗15 ○18	68.0%	32.4%	1715171
8	Gemini 2.5 ProGoogle	51.39%	-15.0✓17 ✗32 ○1	36.0%	85.7%	173210
9	GPT-5.3 ChatOpenAI	50.24%	10.0✓12 ✗2 ○36	94.0%	5.3%	122351
10	GPT-5OpenAI	46.34%	-6.0✓8 ✗14 ○28	70.0%	32.5%	814271
11	Mistral Large 2512Mistral AI	46.03%	-8.0✓13 ✗21 ○16	56.0%	55.9%	1321151
12	GPT-5.1OpenAI	45.94%	8.0✓10 ✗2 ○38	94.0%	5.0%	102371
13	GPT-5.2OpenAI	45.33%	9.0✓11 ✗2 ○37	96.0%	4.9%	112370
14	o3OpenAI	45.28%	-13.0✓7 ✗20 ○23	58.0%	46.3%	720221
15	GPT-5.2 ChatOpenAI	45.21%	5.0✓10 ✗5 ○35	86.0%	12.5%	105332
16	Claude Opus 4.1Anthropic	45.18%	-14.0✓9 ✗23 ○18	54.0%	52.6%	923180
17	Claude Opus 4Anthropic	45.08%	-14.0✓8 ✗22 ○20	56.0%	45.9%	822200
18	Llama 4 MaverickMeta	42.68%	-32.0✓9 ✗41 ○0	18.0%	100.0%	94100
19	GPT-5.4OpenAI	41.24%	6.0✓10 ✗4 ○36	92.0%	9.8%	104360
20	Grok 4xAI	37.23%	-23.0✓10 ✗33 ○7	34.0%	82.5%	103370
21	Kimi K2.5Moonshot AI	36.59%	-18.0✓8 ✗26 ○16	48.0%	55.6%	826160
22	Kimi K2 ThinkingMoonshot AI	35.58%	-28.0✓8 ✗36 ○6	28.0%	81.8%	83660
23	DeepSeek-V3.2DeepSeek	35.11%	-19.0✓6 ✗25 ○19	48.0%	52.4%	625181
24	GPT-4.1OpenAI	34.28%	-25.0✓6 ✗31 ○13	38.0%	69.8%	631130
25	Gemini 2.5 FlashGoogle	33.65%	-29.0✓9 ✗38 ○3	24.0%	90.2%	93830
26	Qwen3 MaxAlibaba/Qwen	26.71%	-25.0✓5 ✗30 ○15	40.0%	66.7%	530150
27	Grok 4.1 FastxAI	21.61%	-44.0✓0 ✗44 ○6	12.0%	88.0%	04460
28	GPT-3.5 TurboOpenAI	16.78%	-47.0✓0 ✗47 ○3	6.0%	93.8%	04730
	Gesamt (28 Modelle)

Legende: ✓ TP = Antwortet korrekt | ✗ FP = Antwortet falsch (Halluzination) | ○ TN = Enthält sich korrekt | ⬡ FN = Enthält sich unnötig (Übervorsicht)

BGB 40/10

Modellauswahl

Score-Tabelle

Antwortanalyse