Laden...
Exported from 10 run(s) (50 norms).
Innerhalb einer Kategorie gilt ODER, zwischen Kategorien gilt UND.
| Rank | Modell↕ | Score?Durchschnittliche Textähnlichkeit zur Musterlösung (0-100%), gemessen über normalisierte Levenshtein-Distanz.↓ | Net Correctness?korrekt - inkorrekt↕ | Kalibrierung?Wie oft das Modell die richtige Entscheidung trifft zu antworten vs. sich zu enthalten.↕ | Halluzinationsrate?Wenn forced=falsch ist, wie oft antwortet das Modell im Abstention-Modus trotzdem (statt sich zu enthalten)?↕ | VerteilungTP / FP / TN / FN |
|---|---|---|---|---|---|---|
| 1 | Claude Opus 4.5Anthropic | 61.92% | -7.0✓21 ✗28 ○1 | 44.0% | 92.9% | 212810 |
| 2 | Gemini 3 Pro PreviewGoogle | 61.57% | -13.0✓18 ✗31 ○1 | 38.0% | 96.4% | 183110 |
| 3 | Gemini 3 Flash PreviewGoogle | 60.23% | -12.0✓19 ✗31 ○0 | 38.0% | 96.6% | 193100 |
| 4 | GPT-5OpenAI | 46.34% | -6.0✓8 ✗14 ○28 | 70.0% | 32.5% | 814271 |
| 5 | Mistral Large 2512MistralAI | 46.03% | -8.0✓13 ✗21 ○16 | 56.0% | 55.9% | 1321151 |
| 6 | GPT-5.2OpenAI | 43.17% | 9.0✓10 ✗1 ○39 | 98.0% | 2.4% | 101390 |
| 7 | Grok 4xAI | 37.23% | -23.0✓10 ✗33 ○7 | 34.0% | 82.5% | 103370 |
| 8 | DeepSeek-V3.2DeepSeek | 35.11% | -19.0✓6 ✗25 ○19 | 48.0% | 52.4% | 625181 |
| 9 | GPT-4.1OpenAI | 34.28% | -25.0✓6 ✗31 ○13 | 38.0% | 69.8% | 631130 |
| 10 | GPT-3.5OpenAI | 16.78% | -47.0✓0 ✗47 ○3 | 6.0% | 93.8% | 04730 |
| Gesamt (10 Modelle) |