BGB 40/10
Exported from 17 run(s) (50 norms).
Modellauswahl
12 / 28 ModelleODER innerhalb einer Kategorie, UND zwischen Kategorien. z.B. Open Source + Europa → nur europäische Open-Source-Modelle.
Grösse
Typ
Region
Anbieter
Score-Tabelle
| Rank | Modell↕ | Score?Durchschnittliche Textähnlichkeit zum Gesetzestext (0-100%), gemessen als normalisierte Levenshtein-Distanz.↓ | Net Correctness?Korrekte Antworten minus falsche Antworten. Enthaltungen werden nicht bestraft, Halluzinationen schon.↕ | Kalibrierung?Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten, wenn es die Antwort kennt; sich enthalten, wenn nicht.↕ | Halluzinationsrate?Wie oft das Modell im Enthaltungsmodus falsch antwortet, obwohl es im Forced-Modus falsch lag.↕ | VerteilungTP / FP / TN / FN |
|---|---|---|---|---|---|---|
| 1 | GPT-5.5OpenAI | 77.47% | 26.0✓30 ✗4 ○16 | 84.0% | 23.5% | 304124 |
| 2 | Claude Opus 4.7Anthropic | 68.51% | 4.0✓23 ✗19 ○8 | 60.0% | 72.0% | 231971 |
| 3 | Gemini 3 Pro PreviewGoogle | 61.57% | -13.0✓18 ✗31 ○1 | 38.0% | 96.4% | 183110 |
| 4 | Claude Opus 4.6Anthropic | 59.36% | -3.0✓16 ✗19 ○15 | 60.0% | 51.6% | 1619141 |
| 5 | DeepSeek-V4-ProDeepSeek | 53.88% | 2.0✓17 ✗15 ○18 | 68.0% | 32.4% | 1715171 |
| 6 | GPT-5OpenAI | 46.34% | -6.0✓8 ✗14 ○28 | 70.0% | 32.5% | 814271 |
| 7 | Mistral Large 2512Mistral AI | 46.03% | -8.0✓13 ✗21 ○16 | 56.0% | 55.9% | 1321151 |
| 8 | Llama 4 MaverickMeta | 42.68% | -32.0✓9 ✗41 ○0 | 18.0% | 100.0% | 94100 |
| 9 | GPT-5.4OpenAI | 41.24% | 6.0✓10 ✗4 ○36 | 92.0% | 9.8% | 104360 |
| 10 | Grok 4xAI | 37.23% | -23.0✓10 ✗33 ○7 | 34.0% | 82.5% | 103370 |
| 11 | GPT-4.1OpenAI | 34.28% | -25.0✓6 ✗31 ○13 | 38.0% | 69.8% | 631130 |
| 12 | GPT-3.5 TurboOpenAI | 16.78% | -47.0✓0 ✗47 ○3 | 6.0% | 93.8% | 04730 |
| Gesamt (12 Modelle) |