Wir benchmarken LLMs in Aufgaben zur Unternehmensintegration bereits seit anderthalb Jahren. Es erscheint nur passend, dass Ende 2024, genau zu dem Zeitpunkt, an dem wir Benchmark v2 planen, unsere alten Benchmarks übertroffen werden. Sie können vermutlich schon erraten, welches Modell den Sieg davontragen wird. Aber lassen wir uns nicht zu voreiligen Schlussfolgerungen hinreißen.
- Benchmarking Llama 3.3, Amazon Nova – nichts Herausragendes
- Google Gemini 1206, Gemini 2.0 Flash Experimental – TOP 10
- DeepSeek v3
- Manueller Benchmark von OpenAI o1 Pro – Goldstandard
- Base o1 (mittlerer Aufwand für logisches Denken) – 3. Platz
- Unsere Einschätzungen zu dem kürzlich angekündigten o3
- Unsere Prognosen für die Landschaft der LLMs im Bereich Unternehmensintegration im Jahr 2025
- Enterprise RAG Challenge r2 – findet am 27. Februar statt
LLM Benchmarks | Dezember 2024
Die Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.
☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz
Kann das Modell Code generieren und bei der Programmierung helfen?
Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.
Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?
Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?
Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?
Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?
Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?
Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.
Modell | Code | Crm | Docs | Integrate | Marketing | Reason | Ergebnis | Kosten | Speed |
---|---|---|---|---|---|---|---|---|---|
1. GPT o1 pro (manual) ☁️ | 100 | 100 | 97 | 100 | 95 | 87 | 97 | 200.00 € | 1.00 rps |
2. GPT o1-preview v1/2024-09-12 ☁️ | 95 | 92 | 94 | 95 | 88 | 87 | 92 | 52.32 € | 0.08 rps |
3. GPT o1 v1/2024-12-17 ☁️ | 100 | 95 | 94 | 91 | 82 | 83 | 91 | 30.63 € | 0.17 rps |
4. GPT o1-mini v1/2024-09-12 ☁️ | 93 | 96 | 94 | 83 | 82 | 87 | 89 | 8.15 € | 0.16 rps |
5. GPT-4o v3/2024-11-20 ☁️ | 86 | 97 | 94 | 95 | 88 | 72 | 89 | 0.63 € | 1.14 rps |
6. GPT-4o v1/2024-05-13 ☁️ | 90 | 96 | 100 | 92 | 78 | 74 | 88 | 1.21 € | 1.44 rps |
7. Google Gemini 1.5 Pro v2 ☁️ | 86 | 97 | 94 | 99 | 78 | 74 | 88 | 1.00 € | 1.18 rps |
8. X-AI Grok 2 v2/1212 ⚠️ | 66 | 95 | 97 | 97 | 88 | 78 | 87 | 0.58 € | 0.99 rps |
9. GPT-4 Turbo v5/2024-04-09 ☁️ | 86 | 99 | 98 | 96 | 88 | 43 | 85 | 2.45 € | 0.84 rps |
10. Google Gemini 2.0 Flash Exp ☁️ | 63 | 96 | 100 | 100 | 82 | 62 | 84 | 0.03 € | 0.85 rps |
11. Google Gemini Exp 1121 ☁️ | 70 | 97 | 97 | 95 | 72 | 72 | 84 | 0.89 € | 0.49 rps |
12. GPT-4o v2/2024-08-06 ☁️ | 90 | 84 | 97 | 86 | 82 | 59 | 83 | 0.63 € | 1.49 rps |
13. Google Gemini 1.5 Pro 0801 ☁️ | 84 | 92 | 79 | 100 | 70 | 74 | 83 | 0.90 € | 0.83 rps |
14. Qwen 2.5 72B Instruct ⚠️ | 79 | 92 | 94 | 97 | 71 | 59 | 82 | 0.10 € | 0.66 rps |
15. Llama 3.1 405B Hermes 3🦙 | 68 | 93 | 89 | 98 | 88 | 53 | 81 | 0.54 € | 0.49 rps |
16. Claude 3.5 Sonnet v2 ☁️ | 82 | 97 | 93 | 84 | 71 | 57 | 81 | 0.95 € | 0.09 rps |
17. GPT-4 v1/0314 ☁️ | 90 | 88 | 98 | 73 | 88 | 45 | 80 | 7.04 € | 1.31 rps |
18. X-AI Grok 2 v1/1012 ⚠️ | 63 | 93 | 87 | 90 | 88 | 58 | 80 | 1.03 € | 0.31 rps |
19. GPT-4 v2/0613 ☁️ | 90 | 83 | 95 | 73 | 88 | 45 | 79 | 7.04 € | 2.16 rps |
20. DeepSeek v3 671B ⚠️ | 62 | 95 | 97 | 85 | 75 | 55 | 78 | 0.03 € | 0.49 rps |
21. GPT-4o Mini ☁️ | 63 | 87 | 80 | 73 | 100 | 65 | 78 | 0.04 € | 1.46 rps |
22. Claude 3.5 Sonnet v1 ☁️ | 72 | 83 | 89 | 87 | 80 | 58 | 78 | 0.94 € | 0.09 rps |
23. Claude 3 Opus ☁️ | 69 | 88 | 100 | 74 | 76 | 58 | 77 | 4.69 € | 0.41 rps |
24. Meta Llama3.1 405B Instruct🦙 | 81 | 93 | 92 | 75 | 75 | 48 | 77 | 2.39 € | 1.16 rps |
25. GPT-4 Turbo v4/0125-preview ☁️ | 66 | 97 | 100 | 83 | 75 | 43 | 77 | 2.45 € | 0.84 rps |
26. Google LearnLM 1.5 Pro Experimental ⚠️ | 48 | 97 | 85 | 96 | 64 | 72 | 77 | 0.31 € | 0.83 rps |
27. GPT-4 Turbo v3/1106-preview ☁️ | 66 | 75 | 98 | 73 | 88 | 60 | 76 | 2.46 € | 0.68 rps |
28. Google Gemini Exp 1206 ☁️ | 52 | 100 | 85 | 77 | 75 | 69 | 76 | 0.88 € | 0.16 rps |
29. Qwen 2.5 32B Coder Instruct ⚠️ | 43 | 94 | 98 | 98 | 76 | 46 | 76 | 0.05 € | 0.82 rps |
30. DeepSeek v2.5 236B ⚠️ | 57 | 80 | 91 | 80 | 88 | 57 | 75 | 0.03 € | 0.42 rps |
31. Meta Llama 3.1 70B Instruct f16🦙 | 74 | 89 | 90 | 75 | 75 | 48 | 75 | 1.79 € | 0.90 rps |
32. Google Gemini 1.5 Flash v2 ☁️ | 64 | 96 | 89 | 76 | 81 | 44 | 75 | 0.06 € | 2.01 rps |
33. Google Gemini 1.5 Pro 0409 ☁️ | 68 | 97 | 96 | 80 | 75 | 26 | 74 | 0.95 € | 0.59 rps |
34. Meta Llama 3 70B Instruct🦙 | 81 | 83 | 84 | 67 | 81 | 45 | 73 | 0.06 € | 0.85 rps |
35. GPT-3.5 v2/0613 ☁️ | 68 | 81 | 73 | 87 | 81 | 50 | 73 | 0.34 € | 1.46 rps |
36. Amazon Nova Lite ⚠️ | 67 | 78 | 74 | 94 | 62 | 62 | 73 | 0.02 € | 2.19 rps |
37. Mistral Large 123B v2/2407 ☁️ | 68 | 79 | 68 | 75 | 75 | 70 | 72 | 0.57 € | 1.02 rps |
38. Google Gemini Flash 1.5 8B ☁️ | 70 | 93 | 78 | 67 | 76 | 48 | 72 | 0.01 € | 1.19 rps |
39. Google Gemini 1.5 Pro 0514 ☁️ | 73 | 96 | 79 | 100 | 25 | 60 | 72 | 1.07 € | 0.92 rps |
40. Google Gemini 1.5 Flash 0514 ☁️ | 32 | 97 | 100 | 76 | 72 | 52 | 72 | 0.06 € | 1.77 rps |
41. Google Gemini 1.0 Pro ☁️ | 66 | 86 | 83 | 79 | 88 | 28 | 71 | 0.37 € | 1.36 rps |
42. Meta Llama 3.2 90B Vision🦙 | 74 | 84 | 87 | 77 | 71 | 32 | 71 | 0.23 € | 1.10 rps |
43. GPT-3.5 v3/1106 ☁️ | 68 | 70 | 71 | 81 | 78 | 58 | 71 | 0.24 € | 2.33 rps |
44. Claude 3.5 Haiku ☁️ | 52 | 80 | 72 | 75 | 75 | 68 | 70 | 0.32 € | 1.24 rps |
45. Meta Llama 3.3 70B Instruct🦙 | 74 | 78 | 74 | 77 | 71 | 46 | 70 | 0.10 € | 0.71 rps |
46. GPT-3.5 v4/0125 ☁️ | 63 | 87 | 71 | 77 | 78 | 43 | 70 | 0.12 € | 1.43 rps |
47. Cohere Command R+ ☁️ | 63 | 80 | 76 | 72 | 70 | 58 | 70 | 0.83 € | 1.90 rps |
48. Mistral Large 123B v3/2411 ☁️ | 68 | 75 | 64 | 76 | 82 | 51 | 70 | 0.56 € | 0.66 rps |
49. Qwen1.5 32B Chat f16 ⚠️ | 70 | 90 | 82 | 76 | 78 | 20 | 69 | 0.97 € | 1.66 rps |
50. Gemma 2 27B IT ⚠️ | 61 | 72 | 87 | 74 | 89 | 32 | 69 | 0.07 € | 0.90 rps |
51. Mistral 7B OpenChat-3.5 v3 0106 f16 ✅ | 68 | 87 | 67 | 74 | 88 | 25 | 68 | 0.32 € | 3.39 rps |
52. Meta Llama 3 8B Instruct f16🦙 | 79 | 62 | 68 | 70 | 80 | 41 | 67 | 0.32 € | 3.33 rps |
53. Gemma 7B OpenChat-3.5 v3 0106 f16 ✅ | 63 | 67 | 84 | 58 | 81 | 46 | 67 | 0.21 € | 5.09 rps |
54. GPT-3.5-instruct 0914 ☁️ | 47 | 92 | 69 | 69 | 88 | 33 | 66 | 0.35 € | 2.15 rps |
55. Amazon Nova Pro ⚠️ | 64 | 78 | 82 | 79 | 52 | 41 | 66 | 0.22 € | 1.34 rps |
56. GPT-3.5 v1/0301 ☁️ | 55 | 82 | 69 | 81 | 82 | 26 | 66 | 0.35 € | 4.12 rps |
57. Llama 3 8B OpenChat-3.6 20240522 f16 ✅ | 76 | 51 | 76 | 65 | 88 | 38 | 66 | 0.28 € | 3.79 rps |
58. Mistral 7B OpenChat-3.5 v1 f16 ✅ | 58 | 72 | 72 | 71 | 88 | 33 | 66 | 0.49 € | 2.20 rps |
59. Mistral 7B OpenChat-3.5 v2 1210 f16 ✅ | 63 | 73 | 72 | 66 | 88 | 30 | 65 | 0.32 € | 3.40 rps |
60. Qwen 2.5 7B Instruct ⚠️ | 48 | 77 | 80 | 68 | 69 | 47 | 65 | 0.07 € | 1.25 rps |
61. Starling 7B-alpha f16 ⚠️ | 58 | 66 | 67 | 73 | 88 | 34 | 64 | 0.58 € | 1.85 rps |
62. Mistral Nemo 12B v1/2407 ☁️ | 54 | 58 | 51 | 99 | 75 | 49 | 64 | 0.03 € | 1.22 rps |
63. Meta Llama 3.2 11B Vision🦙 | 70 | 71 | 65 | 70 | 71 | 36 | 64 | 0.04 € | 1.49 rps |
64. Llama 3 8B Hermes 2 Theta🦙 | 61 | 73 | 74 | 74 | 85 | 16 | 64 | 0.05 € | 0.55 rps |
65. Claude 3 Haiku ☁️ | 64 | 69 | 64 | 75 | 75 | 35 | 64 | 0.08 € | 0.52 rps |
66. Yi 1.5 34B Chat f16 ⚠️ | 47 | 78 | 70 | 74 | 86 | 26 | 64 | 1.18 € | 1.37 rps |
67. Liquid: LFM 40B MoE ⚠️ | 72 | 69 | 65 | 63 | 82 | 24 | 63 | 0.00 € | 1.45 rps |
68. Meta Llama 3.1 8B Instruct f16🦙 | 57 | 74 | 62 | 74 | 74 | 32 | 62 | 0.45 € | 2.41 rps |
69. Qwen2 7B Instruct f32 ⚠️ | 50 | 81 | 81 | 61 | 66 | 31 | 62 | 0.46 € | 2.36 rps |
70. Claude 3 Sonnet ☁️ | 72 | 41 | 74 | 74 | 78 | 28 | 61 | 0.95 € | 0.85 rps |
71. Mistral Small v3/2409 ☁️ | 43 | 75 | 71 | 74 | 75 | 26 | 61 | 0.06 € | 0.81 rps |
72. Mistral Pixtral 12B ✅ | 53 | 69 | 73 | 63 | 64 | 40 | 60 | 0.03 € | 0.83 rps |
73. Mixtral 8x22B API (Instruct) ☁️ | 53 | 62 | 62 | 97 | 75 | 7 | 59 | 0.17 € | 3.12 rps |
74. Anthropic Claude Instant v1.2 ☁️ | 58 | 75 | 65 | 77 | 65 | 16 | 59 | 2.10 € | 1.49 rps |
75. Codestral Mamba 7B v1 ✅ | 53 | 66 | 51 | 97 | 71 | 17 | 59 | 0.30 € | 2.82 rps |
76. Inflection 3 Productivity ⚠️ | 46 | 59 | 39 | 70 | 79 | 61 | 59 | 0.92 € | 0.17 rps |
77. Anthropic Claude v2.0 ☁️ | 63 | 52 | 55 | 67 | 84 | 34 | 59 | 2.19 € | 0.40 rps |
78. Cohere Command R ☁️ | 45 | 66 | 57 | 74 | 84 | 27 | 59 | 0.13 € | 2.50 rps |
79. Amazon Nova Micro ⚠️ | 58 | 68 | 64 | 71 | 59 | 31 | 59 | 0.01 € | 2.41 rps |
80. Qwen1.5 7B Chat f16 ⚠️ | 56 | 81 | 60 | 56 | 60 | 36 | 58 | 0.29 € | 3.76 rps |
81. Mistral Large v1/2402 ☁️ | 37 | 49 | 70 | 83 | 84 | 25 | 58 | 0.58 € | 2.11 rps |
82. Microsoft WizardLM 2 8x22B ⚠️ | 48 | 76 | 79 | 59 | 62 | 22 | 58 | 0.13 € | 0.70 rps |
83. Qwen1.5 14B Chat f16 ⚠️ | 50 | 58 | 51 | 72 | 84 | 22 | 56 | 0.36 € | 3.03 rps |
84. MistralAI Ministral 8B ✅ | 56 | 55 | 41 | 82 | 68 | 30 | 55 | 0.02 € | 1.02 rps |
85. Anthropic Claude v2.1 ☁️ | 29 | 58 | 59 | 78 | 75 | 32 | 55 | 2.25 € | 0.35 rps |
86. Mistral 7B OpenOrca f16 ☁️ | 54 | 57 | 76 | 36 | 78 | 27 | 55 | 0.41 € | 2.65 rps |
87. MistralAI Ministral 3B ✅ | 50 | 48 | 39 | 89 | 60 | 41 | 54 | 0.01 € | 1.02 rps |
88. Llama2 13B Vicuna-1.5 f16🦙 | 50 | 37 | 55 | 62 | 82 | 37 | 54 | 0.99 € | 1.09 rps |
89. Mistral 7B Instruct v0.1 f16 ☁️ | 34 | 71 | 69 | 63 | 62 | 23 | 54 | 0.75 € | 1.43 rps |
90. Meta Llama 3.2 3B🦙 | 52 | 71 | 66 | 71 | 44 | 14 | 53 | 0.01 € | 1.25 rps |
91. Google Recurrent Gemma 9B IT f16 ⚠️ | 58 | 27 | 71 | 64 | 56 | 23 | 50 | 0.89 € | 1.21 rps |
92. Codestral 22B v1 ✅ | 38 | 47 | 44 | 84 | 66 | 13 | 49 | 0.06 € | 4.03 rps |
93. Qwen: QwQ 32B Preview ⚠️ | 43 | 32 | 74 | 52 | 48 | 40 | 48 | 0.05 € | 0.63 rps |
94. Llama2 13B Hermes f16🦙 | 50 | 24 | 37 | 75 | 60 | 42 | 48 | 1.00 € | 1.07 rps |
95. IBM Granite 34B Code Instruct f16 ☁️ | 63 | 49 | 34 | 67 | 57 | 7 | 46 | 1.07 € | 1.51 rps |
96. Meta Llama 3.2 1B🦙 | 32 | 40 | 33 | 53 | 68 | 51 | 46 | 0.02 € | 1.69 rps |
97. Mistral Small v2/2402 ☁️ | 33 | 42 | 45 | 88 | 56 | 8 | 46 | 0.06 € | 3.21 rps |
98. Mistral Small v1/2312 (Mixtral) ☁️ | 10 | 67 | 63 | 65 | 56 | 8 | 45 | 0.06 € | 2.21 rps |
99. DBRX 132B Instruct ⚠️ | 43 | 39 | 43 | 74 | 59 | 10 | 45 | 0.26 € | 1.31 rps |
100. NVIDIA Llama 3.1 Nemotron 70B Instruct🦙 | 68 | 54 | 25 | 72 | 28 | 21 | 45 | 0.09 € | 0.53 rps |
101. Mistral Medium v1/2312 ☁️ | 41 | 43 | 44 | 59 | 62 | 12 | 44 | 0.81 € | 0.35 rps |
102. Microsoft WizardLM 2 7B ⚠️ | 53 | 34 | 42 | 66 | 53 | 13 | 43 | 0.02 € | 0.89 rps |
103. Llama2 13B Puffin f16🦙 | 37 | 15 | 44 | 67 | 56 | 39 | 43 | 4.70 € | 0.23 rps |
104. Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️ | 22 | 47 | 59 | 53 | 62 | 8 | 42 | 0.05 € | 2.39 rps |
105. Gemma 2 9B IT ⚠️ | 45 | 25 | 47 | 36 | 68 | 13 | 39 | 0.02 € | 0.88 rps |
106. Meta Llama2 13B chat f16🦙 | 22 | 38 | 17 | 65 | 75 | 6 | 37 | 0.75 € | 1.44 rps |
107. Mistral 7B Zephyr-β f16 ✅ | 37 | 34 | 46 | 62 | 29 | 4 | 35 | 0.46 € | 2.34 rps |
108. Meta Llama2 7B chat f16🦙 | 22 | 33 | 20 | 62 | 50 | 18 | 34 | 0.56 € | 1.93 rps |
109. Mistral 7B Notus-v1 f16 ⚠️ | 10 | 54 | 25 | 60 | 48 | 4 | 33 | 0.75 € | 1.43 rps |
110. Orca 2 13B f16 ⚠️ | 18 | 22 | 32 | 29 | 67 | 20 | 31 | 0.95 € | 1.14 rps |
111. Mistral 7B Instruct v0.2 f16 ☁️ | 11 | 30 | 54 | 25 | 58 | 8 | 31 | 0.96 € | 1.12 rps |
112. Mistral 7B v0.1 f16 ☁️ | 0 | 9 | 48 | 63 | 52 | 12 | 31 | 0.87 € | 1.23 rps |
113. Google Gemma 2B IT f16 ⚠️ | 33 | 28 | 16 | 47 | 15 | 20 | 27 | 0.30 € | 3.54 rps |
114. Microsoft Phi 3 Medium 4K Instruct 14B f16 ⚠️ | 5 | 34 | 30 | 32 | 47 | 8 | 26 | 0.82 € | 1.32 rps |
115. Orca 2 7B f16 ⚠️ | 22 | 0 | 26 | 26 | 52 | 4 | 22 | 0.78 € | 1.38 rps |
116. Google Gemma 7B IT f16 ⚠️ | 0 | 0 | 0 | 6 | 62 | 0 | 11 | 0.99 € | 1.08 rps |
117. Meta Llama2 7B f16🦙 | 0 | 5 | 22 | 3 | 28 | 2 | 10 | 0.95 € | 1.13 rps |
118. Yi 1.5 9B Chat f16 ⚠️ | 0 | 4 | 29 | 17 | 0 | 8 | 10 | 1.41 € | 0.76 rps |
Benchmarking Llama 3.3, Amazon Nova, Gemini 1206
Wir behandeln diese Modelle zusammen.
Meta Llama 3.3 70B Instruct – Platz 45.
Das Modell Llama 3.3 70B Instruct belegte zum Zeitpunkt seiner Veröffentlichung den 40. Platz. Seitdem wurden jedoch einige bessere Modelle vorgestellt, wodurch es weiter nach unten gerutscht ist. Dies ist ein typisches Muster: Wenn ein Unternehmen keine verbesserten Modelle veröffentlicht, wird es von der Konkurrenz schnell überholt.
Llama 3.3 70B verfügt über eine ordentliche Fähigkeit zur logischen Schlussfolgerung, knapp unterhalb von Llama 405B und dem älteren Llama 3.1 70B. Allerdings folgt es Anweisungen bei geschäftlichen Aufgaben nicht besonders gut – ein typisches Problem für Llama-Modelle. Normalerweise könnte dies durch gute Fine-Tunings behoben werden, doch der Markt beginnt zunehmend zu erkennen, dass der ROI von Fine-Tunings in der Praxis geringer ausfällt, als ursprünglich angenommen. Daher erwarten wir in absehbarer Zeit keine Veränderung seiner Platzierung.
Amazon Nova – enttäuschend
Amazon hat eigene Versionen von LLMs veröffentlicht: Amazon Nova Micro, Lite und Pro. Diese Modelle sind äußerst kostengünstig im Betrieb, aber leider auch weitgehend unbrauchbar, mit Platzierungen auf den Rängen 36, 55 und 79.
Gibt es dennoch einen Silberstreif am Horizont? Ja: Diese schwachen Modelle erreichen die Qualität von GPT-3.5, das seinerzeit als bahnbrechend galt. Die Modelle sind also nicht per se schlecht – der Fortschritt ist schlicht so rasant, dass wir die Maßstäbe immer schneller verschieben, ohne es wirklich zu bemerken.
Google Gemini Experimental 1206 und 2.0 Flash Experimental
Google Gemini Experimental 1206 – nicht so überzeugend
Das Modell Google Gemini Experimental belegte den 28. Platz, was deutlich schlechter ist als das leistungsstarke Google Gemini 1.5 Pro v2. Letzteres liefert hervorragende Ergebnisse, wenn man sich mit den typischen Google-Eigenheiten arrangieren kann.
Das ist jedoch akzeptabel, da 1206 nur ein experimentelles Modell und keine offizielle Veröffentlichung ist.
Bemerkenswert ist jedoch, dass es die Qualitätsstufe einiger Versionen von GPT-4 Turbo erreicht!
Google Gemini 2.0 Flash Experimental – ein spannenderes Modell
Das Modell Google Gemini 2.0 Flash Experimental ist zwar ebenfalls experimentell, hat es aber in die TOP 10 unseres Benchmarks geschafft!
Im Vergleich zur vorherigen Version Flash (Gemini 1.5 Flash) hat dieses experimentelle Modell seine Fähigkeiten im logischen Denken von 44 auf 62 verbessert und den Gesamtscore von 75 auf 84 gesteigert.
Besonders beeindruckend ist, dass Google Gemini 2.0 Flash großen Wert auf Anweisungen legt – ein entscheidender Faktor für Structured Output- und Custom Chain of Thought-Muster. Es hat als erstes Modell überhaupt eine perfekte 100-Punkte-Wertung in den Kategorien Docs und Integrate erreicht.
Google DeepMind über Google Gemini 2.0 Flash Experimental
Google DeepMind schreibt, dass das Modell für Automatisierung und agentische Erfahrungen entwickelt wurde – was auch immer das genau bedeuten mag. Es verfügt über einen beeindruckenden Input-Kontext von 1 Million Token.
Ein weiteres Highlight: Dieses Modell hat potenziell die niedrigsten Nutzungskosten unter den Top-19-Modellen. Das 20. Modell, DeepSeek v3 671B, ist ein weiterer Anwärter auf Kosteneffizienz.
„Potenziell“, da der Preis für Google Gemini 2.0 Flash aktuell noch nicht bekannt ist. Wir nehmen daher an, dass er ähnlich wie bei Flash 1.5 liegt.
Google überrascht uns weiterhin positiv, indem regelmäßig neue Modelle veröffentlicht werden, die es in die TOP 10 schaffen. Das hat jedoch den Nebeneffekt, dass ältere Favoriten wie Mistral und Anthropic etwas aus dem Rampenlicht gedrängt werden. Das bedeutet jedoch keineswegs, dass diese Modelle schlechter geworden sind – im Gegenteil: Die Vielfalt wächst, und wir haben mehr Auswahlmöglichkeiten als je zuvor!
DeepSeek v3
DeepSeek v3 ist ein kürzlich veröffentlichtes Mixture-of-Experts (MoE)-Sprachmodell mit insgesamt 671 Milliarden Parametern. Es wurde entwickelt, um besonders effizient in der Inferenz zu sein – für jeden Token werden lediglich 37 Milliarden Parameter aktiviert. Dies spiegelt sich in den niedrigen Betriebskosten des Modells wider.
Ein weiterer Vorteil: Das Modell ist lokal einsetzbar. Es kann heruntergeladen und auf eigenen Servern betrieben werden, vorausgesetzt, es stehen genügend GPUs zur Verfügung, um die Gewichte zu hosten.
DeepSeek v3 – Fortschritte und Herausforderungen
Verbesserte Leistungen:
DeepSeek v3 hat die Punktzahlen seines Vorgängers DeepSeek v2.5 (derzeit in den TOP 30) deutlich verbessert. Im Bereich Geschäftsautomatisierung (CRM-Kategorie) stieg die Punktzahl von 80 auf 97. Auch die Fähigkeit, Softwareentwicklungsaufgaben zu lösen, verbesserte sich von 57 auf 62. Dennoch bleibt das Modell hinter dem bewährten Sonnet 3.5 Claude v2 zurück, das hier eine Punktzahl von 82 erreicht.
Lokale Nutzung – nicht ohne Hürden:
Obwohl DeepSeek v3 nur 37 Milliarden Parameter pro Token aktiviert, macht dies den lokalen Einsatz nicht einfacher. Das Mixture-of-Experts (MoE)-Design sorgt zwar für eine schnellere Inferenz, senkt jedoch nicht die VRAM-Anforderungen. Um die Inferenz lokal auszuführen, wären etwa 8x H200 GPUs erforderlich, was das Modell für den lokalen Einsatz weniger geeignet macht.
Innovatives Training:
Eine bemerkenswerte Besonderheit von DeepSeek v3 ist die Einführung des FP8-Mixed-Precision-Training-Frameworks. Diese Methode ermöglicht es, neue LLM-Modelle schneller, kostengünstiger und mit geringeren VRAM-Anforderungen zu trainieren. Zudem könnte diese Technik eine bessere Out-of-the-Box-Quantisierung bei der Inferenz ermöglichen.
Es bleibt abzuwarten, ob dieser Ansatz dazu beitragen wird, kleinere und leistungsstarke lokale Modelle effizienter zu entwickeln.
Manueller Benchmark von OpenAI o1 Pro – Der Goldstandard
Lassen Sie uns zum Helden dieses LLM-Benchmarks kommen: o1 pro von OpenAI. Vorab jedoch ein wichtiger Hinweis: Es gibt 6 verschiedene Varianten des OpenAI o1-Modells, die leicht verwechselt werden können:
- o1-mini: Das kleinste und günstigste Modell für logisches Denken. Verfügbar sowohl in der ChatGPT-Benutzeroberfläche als auch über die API.
- o1-preview: Eine sehr leistungsfähige Version, die früher in der ChatGPT-Benutzeroberfläche verfügbar war. Diese wurde durch o1 base ersetzt, ist aber weiterhin direkt über die API verfügbar.
- o1: Dieses Modell ersetzt o1-preview in der ChatGPT-Benutzeroberfläche. Es hat standardmäßig eine eingeschränktere logische Denkfähigkeit in der UI, ist aber mit höheren Konfigurationen leistungsfähiger. Über die API ist o1 nur für Tier-5-Konten verfügbar und bietet drei Konfigurationen für logisches Denken: hoch, mittel und niedrig.
- o1-pro: Das leistungsstärkste Modell. Es ist in der ChatGPT-Benutzeroberfläche für 200 $ pro Monat verfügbar, jedoch noch nicht über die API zugänglich.
Zusätzlich gibt es also 4 Hauptversionen des o1-Modells sowie 2 zusätzliche Konfigurationen (hoch und niedrig) für das Modell o1.
Fokus auf o1 pro
Dieser Abschnitt konzentriert sich ausschließlich auf o1 pro, das als Ausnahme nicht über die API getestet wurde, da es dort noch nicht verfügbar ist. Stattdessen wurden die Tests manuell über die ChatGPT-Benutzeroberfläche durchgeführt.
Vorgehen beim Benchmark
Auswahl der Aufgaben:
Die Ergebnisse des Benchmarks von o1-mini wurden als Basis verwendet. Nur die Aufgaben, bei denen o1-mini Fehler gemacht hatte, wurden erneut getestet. Da o1 pro deutlich leistungsfähiger ist, wurde angenommen, dass es Aufgaben, die o1-mini korrekt gelöst hat, ebenfalls richtig beantworten würde. So musste nur ein Bruchteil des Benchmarks manuell durchgeführt werden.Einstellungen:
- Benutzerdefinierte Anweisungen wurden in der ChatGPT-Benutzeroberfläche deaktiviert.
- Lokaler Speicher war ebenfalls deaktiviert.
- Benchmark-Anfragen im API-Format wurden in ein Textformat umgewandelt und manuell durch Copy-Paste ausgeführt.
Erste Herausforderungen
Während des Tests traten einige unerwartete Probleme auf:
Formatierungsprobleme:
o1 pro ist tief in die ChatGPT-Benutzeroberfläche integriert, die auf Benutzerfreundlichkeit ausgelegt ist. Wenn beispielsweise eine Aufgabe eine YAML-Antwort erfordert, wird diese als Markdown formatiert, wodurch die Antwort unbrauchbar wird. Solche Antworten mussten manuell korrigiert werden.Few-Shot-Beispiele:
Historisch wurden Few-Shot-Beispiele in folgendem Format strukturiert:
(Das Format der Few-Shot-Beispiele wird im nächsten Schritt beschrieben.)
System: Task explanation
User: sample request 1
Assistant: sample response 1
User: sample request 2
Assistant: sample response 2
User: real request
Wir können in der ChatGPT-Benutzeroberfläche kein rollenbasiertes Prompting durchführen. Außerdem ist der System-Prompt in den o1-Modellen nicht zugänglich, um zu verhindern, dass Reasoning-Tokens zu den Endnutzern gelangen (diese werden von den Modellen ohne Alignment und Sicherheitsmechanismen generiert). Das Modell ist nicht nur darauf ausgelegt, seinen System-Prompt zu schützen (in der neuesten Dokumentation auch als Platform-Prompt bezeichnet), sondern versucht auch, über den Dialog mit dem Nutzer zu arbeiten.
Dies führte zu einem interessanten Ergebnis: Das Modell gab den Systemanweisungen eine geringere Priorität und versuchte, Muster aus früheren Gesprächen mit dem Nutzer zu finden. Gelegentlich gelang ihm das, es kam jedoch zu falschen Schlussfolgerungen, was zu niedrigen Integrate-Scores führte.
Daher mussten wir beginnen, die Aufgaben für o1 pro wie folgt zu formatieren:
# Task
Task explanation
## Example
User: sample request 1
Assistant: sample response 1
## Example
User: sample request 2
Assistant: sample response 2
# Request
real request
Damit gesagt, wie fielen die Ergebnisse aus?
o1 pro erreichte die absolute Spitze unseres Benchmarks mit einem nahezu perfekten Score von 97 (die verbleibenden 3 Punkte sind auf mehrdeutige Aufgaben in unserem Benchmark zurückzuführen).
In unserem Benchmark, der die Fähigkeiten von LLM-Modellen in Aufgaben der Geschäftsautomatisierung misst, ist o1 pro wie ein Goldbarren: perfekt und teuer. Es ist überdimensioniert für viele Anforderungen.
Wie immer sind dies gute Nachrichten aus zwei Gründen:
Wir haben einen Punkt erreicht, an dem LLMs alle Aufgaben in unseren Geschäftsautomatisierungs-Herausforderungen (von vor 18 Monaten) problemlos lösen können. Jetzt müssen wir nur auf vergleichbare Modelle warten, die kostengünstiger im Betrieb sind.
Während wir die zweite Version des LLM-Benchmarks entwickeln, können wir die aktuellen Fähigkeiten von o1 pro im Blick behalten und neue Aufgaben formulieren, die selbst dieses Modell herausfordern. Dadurch wird die Komplexitätskurve der Bewertung glatter, und der gesamte Benchmark wird repräsentativer für die Anforderungen der Geschäftsautomatisierung.
Benchmark von o1 (base) – 🥉TOP-3
Erinnern Sie sich an den Hinweis zu den verschiedenen Varianten der o1-Modelle oben?
Dieser Benchmark konzentriert sich auf das o1 (base)-Modell, das über die API mit einem reasoning_effort von medium getestet wurde. Es handelt sich dabei nicht zwangsläufig um die gleiche Modellkonfiguration wie die, die über die ChatGPT-Benutzeroberfläche verfügbar ist.
Unterschiede in der Konfiguration
Die Abweichungen liegen nicht nur in den unterschiedlichen Rechenbeschränkungen, sondern auch in einer neuen Befehlskette (den sogenannten rules of robotics, implementiert von OpenAI für die Reasoning-Modelle):
Platform > Developer > User > Tool.
Testergebnisse
Das o1 base-Modell wurde automatisch über die API getestet, wie die meisten anderen Modelle (mit Ausnahme von o1 pro). Es erreichte den 3. Platz im Benchmark – leicht besser als o1-mini, aber etwas schlechter als o1-preview.
- reasoning_effort: medium (Standardwert)
- max_tokens: 25.000 (gemäß der Empfehlung von OpenAI)
Interessanterweise belegt o1 base sowohl bei den Fähigkeiten als auch bei den Kosten den 3. Platz. Das ergibt eine faszinierende Kurve: An der Spitze ist die Fähigkeit zu logischem Denken eine Funktion der Kosten.
- o1-preview schneidet besser ab als o1 base, da es mehr Tokens generiert – und das Ergebnis dadurch insgesamt besser ist.
- o1 pro denkt generell tiefer und gründlicher, was seine Spitzenleistung erklärt.
Dieser Verlauf unterstützt auch jüngste Forschungsergebnisse von Hugging Face zum Thema Scaling Test-time Compute. Dabei geht es darum, die Qualität eines 3B-Modells durch erhöhten Aufwand beim logischen Denken (und bei der Generierung möglicher Antworten) auf das Niveau eines 70B-Modells zu heben.
Wir können wahrscheinlich damit rechnen, dass immer mehr LLM-Anbieter "intelligentere" Modelle gegen einen Aufpreis anbieten werden (man bezahlt für die Reasoning-Tokens). Gleichzeitig könnten sich neue Wege entwickeln, intensive logische Schlussfolgerungen auch lokal durchzuführen – ähnlich wie bei der lokalen Generierung strukturierter Outputs.
Was ist mit dem kürzlich angekündigten o3?
OpenAI hat kürzlich sein neues Modell o3 vorgestellt, das Aufgaben aus dem ARC-AGI-Datensatz außergewöhnlich gut löst.
Warum gibt es o1 und o3, aber kein o2?
Ein Namenskonflikt mit dem Telekommunikationsunternehmen O2 könnte der Grund sein.
Was ist ARC-AGI?
Der ARC-AGI-Datensatz enthält Herausforderungen, die darauf abzielen, menschliche Intelligenz mit maschineller Intelligenz zu vergleichen. Die offizielle Website behauptet, dass das Lösen des ARC-AGI-Datensatzes sogar eine größere Errungenschaft wäre als die Erfindung der Transformer-Architektur.
Um eine Aufgabe aus dem ARC-AGI-Datensatz zu lösen, muss eine Maschine die Regeln erkennen und eine pixelgenaue Antwort erstellen.
Die Leistung von o3 – ein neuer Maßstab?
Laut Berichten konnte o3 nahezu alle Aufgaben aus dem ARC-AGI-Datensatz lösen – etwas, das bisher als unmöglich galt.
Damit ist o3 theoretisch das beste LLM-Modell. Dennoch gehen wir davon aus, dass es in absehbarer Zeit keinen spürbaren Einfluss auf Geschäftsautomatisierungsaufgaben in Unternehmen haben wird. Der Knackpunkt: die Kosten.
Ein Blick auf das Diagramm aus der ARC-AGI-Ankündigung zeigt die Leistung verschiedener Modelle im Verhältnis zu den Kosten, die für das Lösen einer einzelnen Aufgabe anfallen. Dieses Verhältnis verdeutlicht, warum Modelle wie o3 aktuell für Unternehmen nur schwer umsetzbar sind: Die Kosten sind signifikant höher als bei bestehenden, bereits leistungsstarken Modellen.
Kostenfrage und Nutzen von o3
Die Kostenskala ist logarithmisch, und die Kosten für die Lösung einer einzigen Aufgabe mit o3 HIGH (Tuned) belaufen sich auf etwa 3200 USD pro pixelgenaue Antwort.
Wir haben bereits erwähnt, dass o1 der Goldstandard für Geschäftsautomatisierung ist – perfekt, aber oft zu teuer für den praktischen Einsatz. o3 geht noch einen Schritt weiter und setzt neue Maßstäbe, ist jedoch weit außerhalb der Reichweite für viele Anwendungsfälle.
Die Einführung von LLM-Modellen gelingt vor allem dort, wo der Automatisierungsgewinn groß ist. Der geschäftliche Mehrwert wird aktuell in alltäglichen, leicht überprüfbaren Aufgaben erzielt, bei denen LLMs kostengünstiger, geduldiger und präziser sind als Menschen. Beispiele dafür sind:
- Datenextraktion aus Dokumenten
- Kategorisierung von Anfragen
- Code-Generierung
- Überprüfung von Standardverträgen
Das Problem bei o3 liegt in seiner Kosten-Effizienz. Es ist bei weitem nicht billig, daher wird es keinen großen Einfluss auf alltägliche Geschäftsautomatisierung haben.
Trotz seiner begrenzten unmittelbaren Nutzbarkeit könnte o3 einen wichtigen Beitrag leisten:
- Verbesserung der Modellqualität anderer LLMs, etwa durch die Generierung hochwertiger synthetischer Daten, die für das Training verwendet werden könnten.
Dieser Fortschritt könnte langfristig die Kosten senken und die Effizienz der nächsten Generation von Modellen steigern.
Unsere Prognosen für 2025
Das sind unsere Vorhersagen, basierend auf den Mustern, die wir in unseren KI-Projekten beobachtet haben.
Der Hype um das Fine-Tuning von LLMs wird abflauen
Das Fine-Tuning von LLMs wurde häufig als Methode erwähnt, um „ein LLM mit Ihren Unternehmensdaten zu trainieren“ oder „LLM neue Fähigkeiten beizubringen“. Selbst OpenAI bietet Fine-Tuning als Dienstleistung an.
In der Theorie klingt alles ganz einfach: Man gibt dem LLM viele Dokumente, und es „lernt“ daraus. In der Praxis zeigt sich jedoch oft das Gegenteil: Statt einer besseren Genauigkeit enden viele Teams mit Modellen, die deutlich mehr Halluzinationen erzeugen. Meist wird die Komplexität der Datenaufbereitung und des Trainingsprozesses unterschätzt.
Unter unseren KI-Projekten gab es nur ein einziges erfolgreiches Fine-Tuning eines LLMs (Embedding-Modelle sind hier nicht mitgezählt). Dieses Projekt verfügte über eine große Menge sorgfältig vorbereiteter Daten und benötigte dennoch zahlreiche Iterationen.
Wir gehen davon aus, dass Unternehmen und Softwaredienstleister/-anbieter im Jahr 2025 die tatsächliche Komplexität und die Kosten des Fine-Tunings von LLMs zunehmend erkennen werden. Gleichzeitig werden sie den Mehrwert eines guten, vortrainierten LLMs „out of the box“ schätzen lernen – insbesondere, wenn leistungsstarke Inferenzmethoden wie strukturierte Outputs und benutzerdefinierte Chain-of-Thought-Ansätze genutzt werden.
Der Hype um autonome Agenten wird nachlassen
Wir behaupten nicht, dass autonome Agenten unmöglich sind. Mit ausreichend Aufwand ist es durchaus möglich, ein solches System zu realisieren.
Allerdings ist das Konzept eines autonomen Agenten wenig praktikabel. Es ist extrem komplex, ein solches Produkt zu entwerfen, zu entwickeln und zu integrieren, während gleichzeitig eine vorhersehbare Qualität sichergestellt wird.
Hier möchten wir einen Punkt betonen: Agenten sind technisch gesehen nicht besonders komplex. Im Kern handelt es sich nur um eine Reihe von Prompts, die Kontrolle und Kontext aneinander weitergeben und dabei externe Tools nutzen. Dennoch ist es aufgrund der Struktur des Produkts schwierig, einen kosteneffizienten Prozess für die Erstellung vertrauenswürdiger agentenbasierter Lösungen zu etablieren. In der Praxis scheitern viele Projekte daran, dass Budgets ausgeschöpft sind, bevor die Systeme fehlerfrei funktionieren.
Im Jahr 2025 werden Anbieter weiterhin über Agenten sprechen und „unternehmensfertige Agenten-Frameworks“ verkaufen (sie müssen ihre Investitionen amortisieren). Dennoch glauben wir, dass der Hype langsam abnehmen wird.
Wird es 2025 eine AGI geben? Und was ist mit LLM-Trends?
Es wird 2025 keine AGI (Artificial General Intelligence) geben. AGI ist eine noch schwierigere Herausforderung, insbesondere da wir immer besser darin werden, die Anforderungen an „was eine AGI ist“ zu verschieben. Wie die Schöpfer von ARC-AGI schreiben: „Man wird wissen, dass AGI erreicht ist, wenn es unmöglich wird, Aufgaben zu erstellen, die für Menschen leicht, aber für KI schwierig sind.“ Und selbst sie arbeiten erst an Version 2 ihres Benchmarks.
Dennoch werden viele Unternehmen weiterhin versuchen, mit OpenAI um den Titel des intelligentesten Modells zu konkurrieren. Es besteht sogar die Möglichkeit, dass Google OpenAI schließlich vom Thron stoßen wird.
Betrachten Sie nur die Qualitätstrends der Modelle im Jahr 2024 (von verschiedenen Anbietern und in unterschiedlichen Preiskategorien):
Ein neuer Ansatz zur Verbesserung des Modell-Denkvermögens
Wir gehen davon aus, dass mehr KI-Anbieter in Zukunft ähnliche Denkfähigkeiten wie o1-Modelle bereitstellen werden. Dies wird ein temporärer Workaround sein, um die Modellgenauigkeit schnell und ohne große Investitionen zu steigern: einfach mehr Rechenleistung einsetzen, das Modell vor der Antwort länger „nachdenken“ lassen und höhere API-Gebühren verlangen.
Wir glauben jedoch auch, dass der kommende Hype um „intelligente Denkmodelle“, die extrem teuer sind, ebenfalls nachlassen wird. Es ist schlicht nicht besonders praktikabel.
Mehr erweiterte Funktionen in LLMs erwartet
Wir erwarten, dass KI-Anbieter beginnen werden, fortschrittlichere Funktionen in ihre LLMs zu integrieren. Während große Kontexte und Prompt Caching mittlerweile Standard sind (was dedizierte RAG-Lösungen in vielen Fällen überflüssig macht), gibt es immer noch mächtige Funktionen, die bislang nicht weit verbreitet sind:
Strukturierte Outputs (Constrained Decoding):
Ein effektiver Ansatz zur Verbesserung der Qualität von LLM-Antworten in komplexen Szenarien, insbesondere in Kombination mit benutzerdefinierten Chain-of-Thoughts. Derzeit bietet nur OpenAI eine brauchbare Implementierung an. Google hinkt noch hinterher mit seiner begrenzt nutzbaren kontrollierten Generierung, die auf dem VertexAI API-Format basiert.Dokumentenverständnis mit VLMs:
Moderne LLMs sind nicht mehr ausschließlich textbasiert; sie können auch Bilder oder Audio verarbeiten. Dadurch wird die Bearbeitung komplexer Dokumente mit Tabellen und Diagrammen möglich. Anthropic bietet bereits eine Variante dieser Fähigkeit an, indem Dokumente sowohl als Text als auch als Bild an das Modell Sonnet 3.5 gesendet werden, das als Vision-Language-Modell (VLM) agiert.Native Integration von LLMs mit anderen Tools:
Ähnlich wie OpenAI mit seinen Assistant APIs, die es LLMs ermöglichen, lokale RAGs und eine Code-Ausführungs-Sandbox zu nutzen. Auch Anthropic arbeitet an der Einführung eines Modells namens Model Context Protocol, einem Standard zur Verbindung von LLMs mit Datenquellen und externen Tools, inspiriert vom Language Server Protocol.
Ein Konkurrenzkampf ähnlich den „Browser-Kriegen“
Wir erwarten, dass KI-Anbieter versuchen werden, ihre LLM-APIs durch einzigartige Funktionen attraktiver zu machen. Es wird dabei sowohl zu Standardisierungen kommen (z. B. testet Google derzeit den Zugriff auf VertexAI über OpenAI-Bibliotheken) als auch zu Inkompatibilitäten (z. B. unterschiedliche Implementierungen von Prompt Caching bei Google, OpenAI und Anthropic).
Die gesamte Situation wird an die „Browser-Kriege“ erinnern. Schließlich werden sich Standards herausbilden, doch bis dahin ist mit vielen Eigenheiten, häufigen Migrationsproblemen und sich weiterentwickelnden Funktionen zu rechnen.
Blick auf größere Muster zur Risikominderung
Glücklicherweise lassen sich über einzelne Anbieter hinaus größere Muster im Markt erkennen. Indem wir uns auf generische Trends des KI-Marktes konzentrieren, können wir das Risiko kostspieliger Fehlentscheidungen minimieren und vermeiden, in Sackgassen zu geraten.
Die Enterprise RAG Challenge ist ein freundlicher Wettbewerb, bei dem wir vergleichen, wie unterschiedliche RAG-Architekturen Fragen zu Geschäftsdokumenten beantworten.
Die erste Runde dieses Wettbewerbs fand letzten Sommer statt – mit beeindruckenden Ergebnissen. Bereits mit nur 16 teilnehmenden Teams konnten wir verschiedene RAG-Architekturen vergleichen und das Potenzial strukturierter Outputs für geschäftliche Aufgaben entdecken.
Die zweite Runde ist für den 27. Februar geplant. Merken Sie sich den Termin vor!
Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!
Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.
Martin WarnungSales Consultant
martin.warnung@timetoact.at