CHATGPT UND CO IM VERGLEICH

Die besten Sprachmodelle im Dezember 2024

Die LLM-Benchmarks der TIMETOACT GROUP präsentieren die leistungsstärksten KI-Sprachmodelle für die digitale Produktentwicklung. Entdecken Sie, welche Sprachmodelle im Dezember 2024 die besten Ergebnisse erzielt haben.

Wir benchmarken LLMs in Aufgaben zur Unternehmensintegration bereits seit anderthalb Jahren. Es erscheint nur passend, dass Ende 2024, genau zu dem Zeitpunkt, an dem wir Benchmark v2 planen, unsere alten Benchmarks übertroffen werden. Sie können vermutlich schon erraten, welches Modell den Sieg davontragen wird. Aber lassen wir uns nicht zu voreiligen Schlussfolgerungen hinreißen.

  • Benchmarking Llama 3.3, Amazon Nova – nichts Herausragendes
  • Google Gemini 1206, Gemini 2.0 Flash Experimental – TOP 10
  • DeepSeek v3
  • Manueller Benchmark von OpenAI o1 Pro – Goldstandard
  • Base o1 (mittlerer Aufwand für logisches Denken) – 3. Platz
  • Unsere Einschätzungen zu dem kürzlich angekündigten o3
  • Unsere Prognosen für die Landschaft der LLMs im Bereich Unternehmensintegration im Jahr 2025
  • Enterprise RAG Challenge r2 – findet am 27. Februar statt

LLM Benchmarks | Dezember 2024

Die Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz

Kann das Modell Code generieren und bei der Programmierung helfen?

Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.

Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.

ModellCodeCrmDocsIntegrateMarketingReasonErgebnisKostenSpeed
1. GPT o1 pro (manual) ☁️10010097100958797200.00 €1.00 rps
2. GPT o1-preview v1/2024-09-12 ☁️9592949588879252.32 €0.08 rps
3. GPT o1 v1/2024-12-17 ☁️10095949182839130.63 €0.17 rps
4. GPT o1-mini v1/2024-09-12 ☁️939694838287898.15 €0.16 rps
5. GPT-4o v3/2024-11-20 ☁️869794958872890.63 €1.14 rps
6. GPT-4o v1/2024-05-13 ☁️9096100927874881.21 €1.44 rps
7. Google Gemini 1.5 Pro v2 ☁️869794997874881.00 €1.18 rps
8. X-AI Grok 2 v2/1212 ⚠️669597978878870.58 €0.99 rps
9. GPT-4 Turbo v5/2024-04-09 ☁️869998968843852.45 €0.84 rps
10. Google Gemini 2.0 Flash Exp ☁️63961001008262840.03 €0.85 rps
11. Google Gemini Exp 1121 ☁️709797957272840.89 €0.49 rps
12. GPT-4o v2/2024-08-06 ☁️908497868259830.63 €1.49 rps
13. Google Gemini 1.5 Pro 0801 ☁️8492791007074830.90 €0.83 rps
14. Qwen 2.5 72B Instruct ⚠️799294977159820.10 €0.66 rps
15. Llama 3.1 405B Hermes 3🦙689389988853810.54 €0.49 rps
16. Claude 3.5 Sonnet v2 ☁️829793847157810.95 €0.09 rps
17. GPT-4 v1/0314 ☁️908898738845807.04 €1.31 rps
18. X-AI Grok 2 v1/1012 ⚠️639387908858801.03 €0.31 rps
19. GPT-4 v2/0613 ☁️908395738845797.04 €2.16 rps
20. DeepSeek v3 671B ⚠️629597857555780.03 €0.49 rps
21. GPT-4o Mini ☁️6387807310065780.04 €1.46 rps
22. Claude 3.5 Sonnet v1 ☁️728389878058780.94 €0.09 rps
23. Claude 3 Opus ☁️6988100747658774.69 €0.41 rps
24. Meta Llama3.1 405B Instruct🦙819392757548772.39 €1.16 rps
25. GPT-4 Turbo v4/0125-preview ☁️6697100837543772.45 €0.84 rps
26. Google LearnLM 1.5 Pro Experimental ⚠️489785966472770.31 €0.83 rps
27. GPT-4 Turbo v3/1106-preview ☁️667598738860762.46 €0.68 rps
28. Google Gemini Exp 1206 ☁️5210085777569760.88 €0.16 rps
29. Qwen 2.5 32B Coder Instruct ⚠️439498987646760.05 €0.82 rps
30. DeepSeek v2.5 236B ⚠️578091808857750.03 €0.42 rps
31. Meta Llama 3.1 70B Instruct f16🦙748990757548751.79 €0.90 rps
32. Google Gemini 1.5 Flash v2 ☁️649689768144750.06 €2.01 rps
33. Google Gemini 1.5 Pro 0409 ☁️689796807526740.95 €0.59 rps
34. Meta Llama 3 70B Instruct🦙818384678145730.06 €0.85 rps
35. GPT-3.5 v2/0613 ☁️688173878150730.34 €1.46 rps
36. Amazon Nova Lite ⚠️677874946262730.02 €2.19 rps
37. Mistral Large 123B v2/2407 ☁️687968757570720.57 €1.02 rps
38. Google Gemini Flash 1.5 8B ☁️709378677648720.01 €1.19 rps
39. Google Gemini 1.5 Pro 0514 ☁️7396791002560721.07 €0.92 rps
40. Google Gemini 1.5 Flash 0514 ☁️3297100767252720.06 €1.77 rps
41. Google Gemini 1.0 Pro ☁️668683798828710.37 €1.36 rps
42. Meta Llama 3.2 90B Vision🦙748487777132710.23 €1.10 rps
43. GPT-3.5 v3/1106 ☁️687071817858710.24 €2.33 rps
44. Claude 3.5 Haiku ☁️528072757568700.32 €1.24 rps
45. Meta Llama 3.3 70B Instruct🦙747874777146700.10 €0.71 rps
46. GPT-3.5 v4/0125 ☁️638771777843700.12 €1.43 rps
47. Cohere Command R+ ☁️638076727058700.83 €1.90 rps
48. Mistral Large 123B v3/2411 ☁️687564768251700.56 €0.66 rps
49. Qwen1.5 32B Chat f16 ⚠️709082767820690.97 €1.66 rps
50. Gemma 2 27B IT ⚠️617287748932690.07 €0.90 rps
51. Mistral 7B OpenChat-3.5 v3 0106 f16 ✅688767748825680.32 €3.39 rps
52. Meta Llama 3 8B Instruct f16🦙796268708041670.32 €3.33 rps
53. Gemma 7B OpenChat-3.5 v3 0106 f16 ✅636784588146670.21 €5.09 rps
54. GPT-3.5-instruct 0914 ☁️479269698833660.35 €2.15 rps
55. Amazon Nova Pro ⚠️647882795241660.22 €1.34 rps
56. GPT-3.5 v1/0301 ☁️558269818226660.35 €4.12 rps
57. Llama 3 8B OpenChat-3.6 20240522 f16 ✅765176658838660.28 €3.79 rps
58. Mistral 7B OpenChat-3.5 v1 f16 ✅587272718833660.49 €2.20 rps
59. Mistral 7B OpenChat-3.5 v2 1210 f16 ✅637372668830650.32 €3.40 rps
60. Qwen 2.5 7B Instruct ⚠️487780686947650.07 €1.25 rps
61. Starling 7B-alpha f16 ⚠️586667738834640.58 €1.85 rps
62. Mistral Nemo 12B v1/2407 ☁️545851997549640.03 €1.22 rps
63. Meta Llama 3.2 11B Vision🦙707165707136640.04 €1.49 rps
64. Llama 3 8B Hermes 2 Theta🦙617374748516640.05 €0.55 rps
65. Claude 3 Haiku ☁️646964757535640.08 €0.52 rps
66. Yi 1.5 34B Chat f16 ⚠️477870748626641.18 €1.37 rps
67. Liquid: LFM 40B MoE ⚠️726965638224630.00 €1.45 rps
68. Meta Llama 3.1 8B Instruct f16🦙577462747432620.45 €2.41 rps
69. Qwen2 7B Instruct f32 ⚠️508181616631620.46 €2.36 rps
70. Claude 3 Sonnet ☁️724174747828610.95 €0.85 rps
71. Mistral Small v3/2409 ☁️437571747526610.06 €0.81 rps
72. Mistral Pixtral 12B ✅536973636440600.03 €0.83 rps
73. Mixtral 8x22B API (Instruct) ☁️53626297757590.17 €3.12 rps
74. Anthropic Claude Instant v1.2 ☁️587565776516592.10 €1.49 rps
75. Codestral Mamba 7B v1 ✅536651977117590.30 €2.82 rps
76. Inflection 3 Productivity ⚠️465939707961590.92 €0.17 rps
77. Anthropic Claude v2.0 ☁️635255678434592.19 €0.40 rps
78. Cohere Command R ☁️456657748427590.13 €2.50 rps
79. Amazon Nova Micro ⚠️586864715931590.01 €2.41 rps
80. Qwen1.5 7B Chat f16 ⚠️568160566036580.29 €3.76 rps
81. Mistral Large v1/2402 ☁️374970838425580.58 €2.11 rps
82. Microsoft WizardLM 2 8x22B ⚠️487679596222580.13 €0.70 rps
83. Qwen1.5 14B Chat f16 ⚠️505851728422560.36 €3.03 rps
84. MistralAI Ministral 8B ✅565541826830550.02 €1.02 rps
85. Anthropic Claude v2.1 ☁️295859787532552.25 €0.35 rps
86. Mistral 7B OpenOrca f16 ☁️545776367827550.41 €2.65 rps
87. MistralAI Ministral 3B ✅504839896041540.01 €1.02 rps
88. Llama2 13B Vicuna-1.5 f16🦙503755628237540.99 €1.09 rps
89. Mistral 7B Instruct v0.1 f16 ☁️347169636223540.75 €1.43 rps
90. Meta Llama 3.2 3B🦙527166714414530.01 €1.25 rps
91. Google Recurrent Gemma 9B IT f16 ⚠️582771645623500.89 €1.21 rps
92. Codestral 22B v1 ✅384744846613490.06 €4.03 rps
93. Qwen: QwQ 32B Preview ⚠️433274524840480.05 €0.63 rps
94. Llama2 13B Hermes f16🦙502437756042481.00 €1.07 rps
95. IBM Granite 34B Code Instruct f16 ☁️63493467577461.07 €1.51 rps
96. Meta Llama 3.2 1B🦙324033536851460.02 €1.69 rps
97. Mistral Small v2/2402 ☁️33424588568460.06 €3.21 rps
98. Mistral Small v1/2312 (Mixtral) ☁️10676365568450.06 €2.21 rps
99. DBRX 132B Instruct ⚠️433943745910450.26 €1.31 rps
100. NVIDIA Llama 3.1 Nemotron 70B Instruct🦙685425722821450.09 €0.53 rps
101. Mistral Medium v1/2312 ☁️414344596212440.81 €0.35 rps
102. Microsoft WizardLM 2 7B ⚠️533442665313430.02 €0.89 rps
103. Llama2 13B Puffin f16🦙371544675639434.70 €0.23 rps
104. Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️22475953628420.05 €2.39 rps
105. Gemma 2 9B IT ⚠️452547366813390.02 €0.88 rps
106. Meta Llama2 13B chat f16🦙22381765756370.75 €1.44 rps
107. Mistral 7B Zephyr-β f16 ✅37344662294350.46 €2.34 rps
108. Meta Llama2 7B chat f16🦙223320625018340.56 €1.93 rps
109. Mistral 7B Notus-v1 f16 ⚠️10542560484330.75 €1.43 rps
110. Orca 2 13B f16 ⚠️182232296720310.95 €1.14 rps
111. Mistral 7B Instruct v0.2 f16 ☁️11305425588310.96 €1.12 rps
112. Mistral 7B v0.1 f16 ☁️0948635212310.87 €1.23 rps
113. Google Gemma 2B IT f16 ⚠️332816471520270.30 €3.54 rps
114. Microsoft Phi 3 Medium 4K Instruct 14B f16 ⚠️5343032478260.82 €1.32 rps
115. Orca 2 7B f16 ⚠️2202626524220.78 €1.38 rps
116. Google Gemma 7B IT f16 ⚠️0006620110.99 €1.08 rps
117. Meta Llama2 7B f16🦙05223282100.95 €1.13 rps
118. Yi 1.5 9B Chat f16 ⚠️04291708101.41 €0.76 rps

Benchmarking Llama 3.3, Amazon Nova, Gemini 1206

Wir behandeln diese Modelle zusammen.

Meta Llama 3.3 70B Instruct – Platz 45.

Das Modell Llama 3.3 70B Instruct belegte zum Zeitpunkt seiner Veröffentlichung den 40. Platz. Seitdem wurden jedoch einige bessere Modelle vorgestellt, wodurch es weiter nach unten gerutscht ist. Dies ist ein typisches Muster: Wenn ein Unternehmen keine verbesserten Modelle veröffentlicht, wird es von der Konkurrenz schnell überholt.

 

Llama 3.3 70B verfügt über eine ordentliche Fähigkeit zur logischen Schlussfolgerung, knapp unterhalb von Llama 405B und dem älteren Llama 3.1 70B. Allerdings folgt es Anweisungen bei geschäftlichen Aufgaben nicht besonders gut – ein typisches Problem für Llama-Modelle. Normalerweise könnte dies durch gute Fine-Tunings behoben werden, doch der Markt beginnt zunehmend zu erkennen, dass der ROI von Fine-Tunings in der Praxis geringer ausfällt, als ursprünglich angenommen. Daher erwarten wir in absehbarer Zeit keine Veränderung seiner Platzierung.

Amazon Nova – enttäuschend
Amazon hat eigene Versionen von LLMs veröffentlicht: Amazon Nova Micro, Lite und Pro. Diese Modelle sind äußerst kostengünstig im Betrieb, aber leider auch weitgehend unbrauchbar, mit Platzierungen auf den Rängen 36, 55 und 79.

Gibt es dennoch einen Silberstreif am Horizont? Ja: Diese schwachen Modelle erreichen die Qualität von GPT-3.5, das seinerzeit als bahnbrechend galt. Die Modelle sind also nicht per se schlecht – der Fortschritt ist schlicht so rasant, dass wir die Maßstäbe immer schneller verschieben, ohne es wirklich zu bemerken.

Google Gemini Experimental 1206 und 2.0 Flash Experimental

Google Gemini Experimental 1206 – nicht so überzeugend

Das Modell Google Gemini Experimental belegte den 28. Platz, was deutlich schlechter ist als das leistungsstarke Google Gemini 1.5 Pro v2. Letzteres liefert hervorragende Ergebnisse, wenn man sich mit den typischen Google-Eigenheiten arrangieren kann.

Das ist jedoch akzeptabel, da 1206 nur ein experimentelles Modell und keine offizielle Veröffentlichung ist.

Bemerkenswert ist jedoch, dass es die Qualitätsstufe einiger Versionen von GPT-4 Turbo erreicht!

Google Gemini 2.0 Flash Experimental – ein spannenderes Modell

Das Modell Google Gemini 2.0 Flash Experimental ist zwar ebenfalls experimentell, hat es aber in die TOP 10 unseres Benchmarks geschafft!

Im Vergleich zur vorherigen Version Flash (Gemini 1.5 Flash) hat dieses experimentelle Modell seine Fähigkeiten im logischen Denken von 44 auf 62 verbessert und den Gesamtscore von 75 auf 84 gesteigert.

Besonders beeindruckend ist, dass Google Gemini 2.0 Flash großen Wert auf Anweisungen legt – ein entscheidender Faktor für Structured Output- und Custom Chain of Thought-Muster. Es hat als erstes Modell überhaupt eine perfekte 100-Punkte-Wertung in den Kategorien Docs und Integrate erreicht.

Google DeepMind über Google Gemini 2.0 Flash Experimental

Google DeepMind schreibt, dass das Modell für Automatisierung und agentische Erfahrungen entwickelt wurde – was auch immer das genau bedeuten mag. Es verfügt über einen beeindruckenden Input-Kontext von 1 Million Token.

Ein weiteres Highlight: Dieses Modell hat potenziell die niedrigsten Nutzungskosten unter den Top-19-Modellen. Das 20. Modell, DeepSeek v3 671B, ist ein weiterer Anwärter auf Kosteneffizienz.

„Potenziell“, da der Preis für Google Gemini 2.0 Flash aktuell noch nicht bekannt ist. Wir nehmen daher an, dass er ähnlich wie bei Flash 1.5 liegt.

Google überrascht uns weiterhin positiv, indem regelmäßig neue Modelle veröffentlicht werden, die es in die TOP 10 schaffen. Das hat jedoch den Nebeneffekt, dass ältere Favoriten wie Mistral und Anthropic etwas aus dem Rampenlicht gedrängt werden. Das bedeutet jedoch keineswegs, dass diese Modelle schlechter geworden sind – im Gegenteil: Die Vielfalt wächst, und wir haben mehr Auswahlmöglichkeiten als je zuvor!

DeepSeek v3

DeepSeek v3 ist ein kürzlich veröffentlichtes Mixture-of-Experts (MoE)-Sprachmodell mit insgesamt 671 Milliarden Parametern. Es wurde entwickelt, um besonders effizient in der Inferenz zu sein – für jeden Token werden lediglich 37 Milliarden Parameter aktiviert. Dies spiegelt sich in den niedrigen Betriebskosten des Modells wider.

Ein weiterer Vorteil: Das Modell ist lokal einsetzbar. Es kann heruntergeladen und auf eigenen Servern betrieben werden, vorausgesetzt, es stehen genügend GPUs zur Verfügung, um die Gewichte zu hosten.

 

DeepSeek v3 – Fortschritte und Herausforderungen

Verbesserte Leistungen:
DeepSeek v3 hat die Punktzahlen seines Vorgängers DeepSeek v2.5 (derzeit in den TOP 30) deutlich verbessert. Im Bereich Geschäftsautomatisierung (CRM-Kategorie) stieg die Punktzahl von 80 auf 97. Auch die Fähigkeit, Softwareentwicklungsaufgaben zu lösen, verbesserte sich von 57 auf 62. Dennoch bleibt das Modell hinter dem bewährten Sonnet 3.5 Claude v2 zurück, das hier eine Punktzahl von 82 erreicht.

Lokale Nutzung – nicht ohne Hürden:
Obwohl DeepSeek v3 nur 37 Milliarden Parameter pro Token aktiviert, macht dies den lokalen Einsatz nicht einfacher. Das Mixture-of-Experts (MoE)-Design sorgt zwar für eine schnellere Inferenz, senkt jedoch nicht die VRAM-Anforderungen. Um die Inferenz lokal auszuführen, wären etwa 8x H200 GPUs erforderlich, was das Modell für den lokalen Einsatz weniger geeignet macht.

Innovatives Training:
Eine bemerkenswerte Besonderheit von DeepSeek v3 ist die Einführung des FP8-Mixed-Precision-Training-Frameworks. Diese Methode ermöglicht es, neue LLM-Modelle schneller, kostengünstiger und mit geringeren VRAM-Anforderungen zu trainieren. Zudem könnte diese Technik eine bessere Out-of-the-Box-Quantisierung bei der Inferenz ermöglichen.

Es bleibt abzuwarten, ob dieser Ansatz dazu beitragen wird, kleinere und leistungsstarke lokale Modelle effizienter zu entwickeln.

Manueller Benchmark von OpenAI o1 Pro – Der Goldstandard

Lassen Sie uns zum Helden dieses LLM-Benchmarks kommen: o1 pro von OpenAI. Vorab jedoch ein wichtiger Hinweis: Es gibt 6 verschiedene Varianten des OpenAI o1-Modells, die leicht verwechselt werden können:

  • o1-mini: Das kleinste und günstigste Modell für logisches Denken. Verfügbar sowohl in der ChatGPT-Benutzeroberfläche als auch über die API.
  • o1-preview: Eine sehr leistungsfähige Version, die früher in der ChatGPT-Benutzeroberfläche verfügbar war. Diese wurde durch o1 base ersetzt, ist aber weiterhin direkt über die API verfügbar.
  • o1: Dieses Modell ersetzt o1-preview in der ChatGPT-Benutzeroberfläche. Es hat standardmäßig eine eingeschränktere logische Denkfähigkeit in der UI, ist aber mit höheren Konfigurationen leistungsfähiger. Über die API ist o1 nur für Tier-5-Konten verfügbar und bietet drei Konfigurationen für logisches Denken: hoch, mittel und niedrig.
  • o1-pro: Das leistungsstärkste Modell. Es ist in der ChatGPT-Benutzeroberfläche für 200 $ pro Monat verfügbar, jedoch noch nicht über die API zugänglich.

Zusätzlich gibt es also 4 Hauptversionen des o1-Modells sowie 2 zusätzliche Konfigurationen (hoch und niedrig) für das Modell o1.

Fokus auf o1 pro

Dieser Abschnitt konzentriert sich ausschließlich auf o1 pro, das als Ausnahme nicht über die API getestet wurde, da es dort noch nicht verfügbar ist. Stattdessen wurden die Tests manuell über die ChatGPT-Benutzeroberfläche durchgeführt.

Vorgehen beim Benchmark

  1. Auswahl der Aufgaben:
    Die Ergebnisse des Benchmarks von o1-mini wurden als Basis verwendet. Nur die Aufgaben, bei denen o1-mini Fehler gemacht hatte, wurden erneut getestet. Da o1 pro deutlich leistungsfähiger ist, wurde angenommen, dass es Aufgaben, die o1-mini korrekt gelöst hat, ebenfalls richtig beantworten würde. So musste nur ein Bruchteil des Benchmarks manuell durchgeführt werden.

  2. Einstellungen:

    • Benutzerdefinierte Anweisungen wurden in der ChatGPT-Benutzeroberfläche deaktiviert.
    • Lokaler Speicher war ebenfalls deaktiviert.
    • Benchmark-Anfragen im API-Format wurden in ein Textformat umgewandelt und manuell durch Copy-Paste ausgeführt.

Erste Herausforderungen

Während des Tests traten einige unerwartete Probleme auf:

  1. Formatierungsprobleme:
    o1 pro ist tief in die ChatGPT-Benutzeroberfläche integriert, die auf Benutzerfreundlichkeit ausgelegt ist. Wenn beispielsweise eine Aufgabe eine YAML-Antwort erfordert, wird diese als Markdown formatiert, wodurch die Antwort unbrauchbar wird. Solche Antworten mussten manuell korrigiert werden.

  2. Few-Shot-Beispiele:
    Historisch wurden Few-Shot-Beispiele in folgendem Format strukturiert:
    (Das Format der Few-Shot-Beispiele wird im nächsten Schritt beschrieben.)

System: Task explanation
User: sample request 1
Assistant: sample response 1
User: sample request 2
Assistant: sample response 2 
User: real request

Wir können in der ChatGPT-Benutzeroberfläche kein rollenbasiertes Prompting durchführen. Außerdem ist der System-Prompt in den o1-Modellen nicht zugänglich, um zu verhindern, dass Reasoning-Tokens zu den Endnutzern gelangen (diese werden von den Modellen ohne Alignment und Sicherheitsmechanismen generiert). Das Modell ist nicht nur darauf ausgelegt, seinen System-Prompt zu schützen (in der neuesten Dokumentation auch als Platform-Prompt bezeichnet), sondern versucht auch, über den Dialog mit dem Nutzer zu arbeiten.

Dies führte zu einem interessanten Ergebnis: Das Modell gab den Systemanweisungen eine geringere Priorität und versuchte, Muster aus früheren Gesprächen mit dem Nutzer zu finden. Gelegentlich gelang ihm das, es kam jedoch zu falschen Schlussfolgerungen, was zu niedrigen Integrate-Scores führte.

Daher mussten wir beginnen, die Aufgaben für o1 pro wie folgt zu formatieren:

# Task
Task explanation
## Example
User: sample request 1
Assistant: sample response 1
## Example
User: sample request 2
Assistant: sample response 2
# Request
real request

Damit gesagt, wie fielen die Ergebnisse aus?

o1 pro erreichte die absolute Spitze unseres Benchmarks mit einem nahezu perfekten Score von 97 (die verbleibenden 3 Punkte sind auf mehrdeutige Aufgaben in unserem Benchmark zurückzuführen).

In unserem Benchmark, der die Fähigkeiten von LLM-Modellen in Aufgaben der Geschäftsautomatisierung misst, ist o1 pro wie ein Goldbarren: perfekt und teuer. Es ist überdimensioniert für viele Anforderungen.

Wie immer sind dies gute Nachrichten aus zwei Gründen:

  1. Wir haben einen Punkt erreicht, an dem LLMs alle Aufgaben in unseren Geschäftsautomatisierungs-Herausforderungen (von vor 18 Monaten) problemlos lösen können. Jetzt müssen wir nur auf vergleichbare Modelle warten, die kostengünstiger im Betrieb sind.

  2. Während wir die zweite Version des LLM-Benchmarks entwickeln, können wir die aktuellen Fähigkeiten von o1 pro im Blick behalten und neue Aufgaben formulieren, die selbst dieses Modell herausfordern. Dadurch wird die Komplexitätskurve der Bewertung glatter, und der gesamte Benchmark wird repräsentativer für die Anforderungen der Geschäftsautomatisierung.

Benchmark von o1 (base) – 🥉TOP-3

Erinnern Sie sich an den Hinweis zu den verschiedenen Varianten der o1-Modelle oben?

Dieser Benchmark konzentriert sich auf das o1 (base)-Modell, das über die API mit einem reasoning_effort von medium getestet wurde. Es handelt sich dabei nicht zwangsläufig um die gleiche Modellkonfiguration wie die, die über die ChatGPT-Benutzeroberfläche verfügbar ist.

Unterschiede in der Konfiguration

Die Abweichungen liegen nicht nur in den unterschiedlichen Rechenbeschränkungen, sondern auch in einer neuen Befehlskette (den sogenannten rules of robotics, implementiert von OpenAI für die Reasoning-Modelle):
Platform > Developer > User > Tool.

Testergebnisse

Das o1 base-Modell wurde automatisch über die API getestet, wie die meisten anderen Modelle (mit Ausnahme von o1 pro). Es erreichte den 3. Platz im Benchmark – leicht besser als o1-mini, aber etwas schlechter als o1-preview.

  • reasoning_effort: medium (Standardwert)
  • max_tokens: 25.000 (gemäß der Empfehlung von OpenAI)

Interessanterweise belegt o1 base sowohl bei den Fähigkeiten als auch bei den Kosten den 3. Platz. Das ergibt eine faszinierende Kurve: An der Spitze ist die Fähigkeit zu logischem Denken eine Funktion der Kosten.

  • o1-preview schneidet besser ab als o1 base, da es mehr Tokens generiert – und das Ergebnis dadurch insgesamt besser ist.
  • o1 pro denkt generell tiefer und gründlicher, was seine Spitzenleistung erklärt.

Dieser Verlauf unterstützt auch jüngste Forschungsergebnisse von Hugging Face zum Thema Scaling Test-time Compute. Dabei geht es darum, die Qualität eines 3B-Modells durch erhöhten Aufwand beim logischen Denken (und bei der Generierung möglicher Antworten) auf das Niveau eines 70B-Modells zu heben.

Wir können wahrscheinlich damit rechnen, dass immer mehr LLM-Anbieter "intelligentere" Modelle gegen einen Aufpreis anbieten werden (man bezahlt für die Reasoning-Tokens). Gleichzeitig könnten sich neue Wege entwickeln, intensive logische Schlussfolgerungen auch lokal durchzuführen – ähnlich wie bei der lokalen Generierung strukturierter Outputs.

Was ist mit dem kürzlich angekündigten o3?

OpenAI hat kürzlich sein neues Modell o3 vorgestellt, das Aufgaben aus dem ARC-AGI-Datensatz außergewöhnlich gut löst.

Warum gibt es o1 und o3, aber kein o2?

Ein Namenskonflikt mit dem Telekommunikationsunternehmen O2 könnte der Grund sein.

Was ist ARC-AGI?

Der ARC-AGI-Datensatz enthält Herausforderungen, die darauf abzielen, menschliche Intelligenz mit maschineller Intelligenz zu vergleichen. Die offizielle Website behauptet, dass das Lösen des ARC-AGI-Datensatzes sogar eine größere Errungenschaft wäre als die Erfindung der Transformer-Architektur.

Um eine Aufgabe aus dem ARC-AGI-Datensatz zu lösen, muss eine Maschine die Regeln erkennen und eine pixelgenaue Antwort erstellen.

Die Leistung von o3 – ein neuer Maßstab?

Laut Berichten konnte o3 nahezu alle Aufgaben aus dem ARC-AGI-Datensatz lösen – etwas, das bisher als unmöglich galt.

Damit ist o3 theoretisch das beste LLM-Modell. Dennoch gehen wir davon aus, dass es in absehbarer Zeit keinen spürbaren Einfluss auf Geschäftsautomatisierungsaufgaben in Unternehmen haben wird. Der Knackpunkt: die Kosten.

Ein Blick auf das Diagramm aus der ARC-AGI-Ankündigung zeigt die Leistung verschiedener Modelle im Verhältnis zu den Kosten, die für das Lösen einer einzelnen Aufgabe anfallen. Dieses Verhältnis verdeutlicht, warum Modelle wie o3 aktuell für Unternehmen nur schwer umsetzbar sind: Die Kosten sind signifikant höher als bei bestehenden, bereits leistungsstarken Modellen.

Kostenfrage und Nutzen von o3

Die Kostenskala ist logarithmisch, und die Kosten für die Lösung einer einzigen Aufgabe mit o3 HIGH (Tuned) belaufen sich auf etwa 3200 USD pro pixelgenaue Antwort.

Wir haben bereits erwähnt, dass o1 der Goldstandard für Geschäftsautomatisierung ist – perfekt, aber oft zu teuer für den praktischen Einsatz. o3 geht noch einen Schritt weiter und setzt neue Maßstäbe, ist jedoch weit außerhalb der Reichweite für viele Anwendungsfälle.

Die Einführung von LLM-Modellen gelingt vor allem dort, wo der Automatisierungsgewinn groß ist. Der geschäftliche Mehrwert wird aktuell in alltäglichen, leicht überprüfbaren Aufgaben erzielt, bei denen LLMs kostengünstiger, geduldiger und präziser sind als Menschen. Beispiele dafür sind:

  • Datenextraktion aus Dokumenten
  • Kategorisierung von Anfragen
  • Code-Generierung
  • Überprüfung von Standardverträgen

Das Problem bei o3 liegt in seiner Kosten-Effizienz. Es ist bei weitem nicht billig, daher wird es keinen großen Einfluss auf alltägliche Geschäftsautomatisierung haben.

Trotz seiner begrenzten unmittelbaren Nutzbarkeit könnte o3 einen wichtigen Beitrag leisten:

  • Verbesserung der Modellqualität anderer LLMs, etwa durch die Generierung hochwertiger synthetischer Daten, die für das Training verwendet werden könnten.

Dieser Fortschritt könnte langfristig die Kosten senken und die Effizienz der nächsten Generation von Modellen steigern.

Unsere Prognosen für 2025

Das sind unsere Vorhersagen, basierend auf den Mustern, die wir in unseren KI-Projekten beobachtet haben.


Der Hype um das Fine-Tuning von LLMs wird abflauen

Das Fine-Tuning von LLMs wurde häufig als Methode erwähnt, um „ein LLM mit Ihren Unternehmensdaten zu trainieren“ oder „LLM neue Fähigkeiten beizubringen“. Selbst OpenAI bietet Fine-Tuning als Dienstleistung an.

In der Theorie klingt alles ganz einfach: Man gibt dem LLM viele Dokumente, und es „lernt“ daraus. In der Praxis zeigt sich jedoch oft das Gegenteil: Statt einer besseren Genauigkeit enden viele Teams mit Modellen, die deutlich mehr Halluzinationen erzeugen. Meist wird die Komplexität der Datenaufbereitung und des Trainingsprozesses unterschätzt.

Unter unseren KI-Projekten gab es nur ein einziges erfolgreiches Fine-Tuning eines LLMs (Embedding-Modelle sind hier nicht mitgezählt). Dieses Projekt verfügte über eine große Menge sorgfältig vorbereiteter Daten und benötigte dennoch zahlreiche Iterationen.

Wir gehen davon aus, dass Unternehmen und Softwaredienstleister/-anbieter im Jahr 2025 die tatsächliche Komplexität und die Kosten des Fine-Tunings von LLMs zunehmend erkennen werden. Gleichzeitig werden sie den Mehrwert eines guten, vortrainierten LLMs „out of the box“ schätzen lernen – insbesondere, wenn leistungsstarke Inferenzmethoden wie strukturierte Outputs und benutzerdefinierte Chain-of-Thought-Ansätze genutzt werden.


Der Hype um autonome Agenten wird nachlassen

Wir behaupten nicht, dass autonome Agenten unmöglich sind. Mit ausreichend Aufwand ist es durchaus möglich, ein solches System zu realisieren.

Allerdings ist das Konzept eines autonomen Agenten wenig praktikabel. Es ist extrem komplex, ein solches Produkt zu entwerfen, zu entwickeln und zu integrieren, während gleichzeitig eine vorhersehbare Qualität sichergestellt wird.

Hier möchten wir einen Punkt betonen: Agenten sind technisch gesehen nicht besonders komplex. Im Kern handelt es sich nur um eine Reihe von Prompts, die Kontrolle und Kontext aneinander weitergeben und dabei externe Tools nutzen. Dennoch ist es aufgrund der Struktur des Produkts schwierig, einen kosteneffizienten Prozess für die Erstellung vertrauenswürdiger agentenbasierter Lösungen zu etablieren. In der Praxis scheitern viele Projekte daran, dass Budgets ausgeschöpft sind, bevor die Systeme fehlerfrei funktionieren.

Im Jahr 2025 werden Anbieter weiterhin über Agenten sprechen und „unternehmensfertige Agenten-Frameworks“ verkaufen (sie müssen ihre Investitionen amortisieren). Dennoch glauben wir, dass der Hype langsam abnehmen wird.


Wird es 2025 eine AGI geben? Und was ist mit LLM-Trends?

Es wird 2025 keine AGI (Artificial General Intelligence) geben. AGI ist eine noch schwierigere Herausforderung, insbesondere da wir immer besser darin werden, die Anforderungen an „was eine AGI ist“ zu verschieben. Wie die Schöpfer von ARC-AGI schreiben: „Man wird wissen, dass AGI erreicht ist, wenn es unmöglich wird, Aufgaben zu erstellen, die für Menschen leicht, aber für KI schwierig sind.“ Und selbst sie arbeiten erst an Version 2 ihres Benchmarks.

Dennoch werden viele Unternehmen weiterhin versuchen, mit OpenAI um den Titel des intelligentesten Modells zu konkurrieren. Es besteht sogar die Möglichkeit, dass Google OpenAI schließlich vom Thron stoßen wird.

Betrachten Sie nur die Qualitätstrends der Modelle im Jahr 2024 (von verschiedenen Anbietern und in unterschiedlichen Preiskategorien):

Ein neuer Ansatz zur Verbesserung des Modell-Denkvermögens

Wir gehen davon aus, dass mehr KI-Anbieter in Zukunft ähnliche Denkfähigkeiten wie o1-Modelle bereitstellen werden. Dies wird ein temporärer Workaround sein, um die Modellgenauigkeit schnell und ohne große Investitionen zu steigern: einfach mehr Rechenleistung einsetzen, das Modell vor der Antwort länger „nachdenken“ lassen und höhere API-Gebühren verlangen.

Wir glauben jedoch auch, dass der kommende Hype um „intelligente Denkmodelle“, die extrem teuer sind, ebenfalls nachlassen wird. Es ist schlicht nicht besonders praktikabel.


Mehr erweiterte Funktionen in LLMs erwartet

Wir erwarten, dass KI-Anbieter beginnen werden, fortschrittlichere Funktionen in ihre LLMs zu integrieren. Während große Kontexte und Prompt Caching mittlerweile Standard sind (was dedizierte RAG-Lösungen in vielen Fällen überflüssig macht), gibt es immer noch mächtige Funktionen, die bislang nicht weit verbreitet sind:

  • Strukturierte Outputs (Constrained Decoding):
    Ein effektiver Ansatz zur Verbesserung der Qualität von LLM-Antworten in komplexen Szenarien, insbesondere in Kombination mit benutzerdefinierten Chain-of-Thoughts. Derzeit bietet nur OpenAI eine brauchbare Implementierung an. Google hinkt noch hinterher mit seiner begrenzt nutzbaren kontrollierten Generierung, die auf dem VertexAI API-Format basiert.

  • Dokumentenverständnis mit VLMs:
    Moderne LLMs sind nicht mehr ausschließlich textbasiert; sie können auch Bilder oder Audio verarbeiten. Dadurch wird die Bearbeitung komplexer Dokumente mit Tabellen und Diagrammen möglich. Anthropic bietet bereits eine Variante dieser Fähigkeit an, indem Dokumente sowohl als Text als auch als Bild an das Modell Sonnet 3.5 gesendet werden, das als Vision-Language-Modell (VLM) agiert.

  • Native Integration von LLMs mit anderen Tools:
    Ähnlich wie OpenAI mit seinen Assistant APIs, die es LLMs ermöglichen, lokale RAGs und eine Code-Ausführungs-Sandbox zu nutzen. Auch Anthropic arbeitet an der Einführung eines Modells namens Model Context Protocol, einem Standard zur Verbindung von LLMs mit Datenquellen und externen Tools, inspiriert vom Language Server Protocol.


Ein Konkurrenzkampf ähnlich den „Browser-Kriegen“

Wir erwarten, dass KI-Anbieter versuchen werden, ihre LLM-APIs durch einzigartige Funktionen attraktiver zu machen. Es wird dabei sowohl zu Standardisierungen kommen (z. B. testet Google derzeit den Zugriff auf VertexAI über OpenAI-Bibliotheken) als auch zu Inkompatibilitäten (z. B. unterschiedliche Implementierungen von Prompt Caching bei Google, OpenAI und Anthropic).

Die gesamte Situation wird an die „Browser-Kriege“ erinnern. Schließlich werden sich Standards herausbilden, doch bis dahin ist mit vielen Eigenheiten, häufigen Migrationsproblemen und sich weiterentwickelnden Funktionen zu rechnen.


Blick auf größere Muster zur Risikominderung

Glücklicherweise lassen sich über einzelne Anbieter hinaus größere Muster im Markt erkennen. Indem wir uns auf generische Trends des KI-Marktes konzentrieren, können wir das Risiko kostspieliger Fehlentscheidungen minimieren und vermeiden, in Sackgassen zu geraten.

Die Enterprise RAG Challenge ist ein freundlicher Wettbewerb, bei dem wir vergleichen, wie unterschiedliche RAG-Architekturen Fragen zu Geschäftsdokumenten beantworten.

Die erste Runde dieses Wettbewerbs fand letzten Sommer statt – mit beeindruckenden Ergebnissen. Bereits mit nur 16 teilnehmenden Teams konnten wir verschiedene RAG-Architekturen vergleichen und das Potenzial strukturierter Outputs für geschäftliche Aufgaben entdecken.

Die zweite Runde ist für den 27. Februar geplant. Merken Sie sich den Termin vor!

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Martin WarnungSales Consultant

martin.warnung@timetoact.at

Blog
Blog

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog
Blog

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog
Blog

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Jörg EgretzbergerJörg EgretzbergerBlog
Blog

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten für Unternehmen sind ein Hype, und viele Teams arbeiteten bereits eifrig und voller Tatendrang an ihrer Implementierung. Leider konnten wir allerdings sehen, dass viele Teams, welche wir in Europa und den USA beobachten konnten, an der Aufgabe gescheitert sind. Wir bieten Ihnen 8 Tipps, damit Ihnen nicht dasselbe passiert.

Martin WarnungMartin WarnungBlog
Blog

Fehler in der Entwicklung von AI-Assistenten

Wie gut, dass es Fehler gibt: Denn aus ihnen können wir lernen und besser werden. Wir haben genau hingesehen, wie Unternehmen in den letzten Monaten weltweit AI-Assistenten implementiert haben, und haben sie, leider, vielfach beim Scheitern beobachtet. Wie es zum Scheitern kam und was man daraus für künftige Projekte lernen kann, das möchten wir mit Ihnen teilen: Damit AI-Assistenten in Zukunft erfolgreicher umgesetzt werden können!

Blog
Blog

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz hat sich von einem bloßen Schlagwort zu einem entscheidenden Werkzeug entwickelt, Business Value in Unternehmen zu generieren. Wir verfolgen einen achtstufigen Ansatz, um Unternehmen den Weg zur effektiven Nutzung von AI zu ermöglichen.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Microsoft Azure-Ressourcen automatisch skalieren

Im Blog stellen wir Ihnen Autoscale in Azure vor und zeigen, warum es sich lohnt, diese mit der automatischen Skalierung mit IBM Turbonomics zu kombinieren.

TIMETOACT
Marc BastienMarc BastienBlog
Header Blogbeitrag Artificial Intelligence
Blog

Artificial Intelligence (AI) mit Spurhalteassistent im Griff

Die Transparenz und Nachvollziehbarkeit von AI ist die größte Herausforderung für die Nutzung von AI. Im Zusammenhang mit fairer Beurteilung von Menschen oder menschlichem Verhalten sowieso. Im Zusammenhang mit anderen Daten würden wir konsequenterweise in absehbarer Zeit komplett den Durchblick über Zusammenhänge in den Daten verlieren, wenn wir der AI allein das Feld überließen.

Matthias BauerMatthias BauerBlog
Blog

Deep Learning: Ein Beispiel aus dem öffentlichen Dienst

Automatische Bilderkennung hat das Potenzial, Wasserwirtschaftsverbände spürbar zu entlasten – und so beim Hochwasserschutz zu unterstützen. Ein Fallbeispiel.

TIMETOACT GROUP
Matthias BauerMatthias BauerBlog
Blog

Artificial Intelligence – No more experiments?!

Artificial Intelligence (AI) ist in aller Munde. Nach unserer Einschätzung – und damit deckungsgleich mit Prognosen von TechTarget, IDG und anderen Analysten – wird sich das auch im Jahr 2024 nicht ändern.

IPG
Claudio FuchsClaudio FuchsBlog
Teaser Expertenbericht KI und IAM
Blog

Braucht KI eine digitale Identität?

KI wird zunehmend autonom und übernimmt wichtige Aufgaben in Unternehmen. Wie bleibt die Kontrolle über sensible Daten gewährleistet? Wir beleuchten die Notwendigkeit einer digitalen Identität für KI.

Blog
Blog

Krisenbewältigung & Aufbau einer nachhaltigen Zukunft mit KI

Non-Profit-Organisationen entwickeln KI-Modelle, um globale Herausforderungen zu bewältigen - und ziehen daraus Lehren für Unternehmen weltweit

TIMETOACT GROUP
Jan HachenbergerJan HachenbergerBlog
Blog

Business Innovation und Digitale Transformation mit AI

Die Implementierung von AI bietet enormes Potenzial für Unternehmen – von Effizienzsteigerungen bis hin zu völlig neuen Geschäftsmodellen. Doch wie jede technologische Revolution birgt sie auch Risiken und Fallstricke. In diesem Blogbeitrag werfen wir einen Blick auf die Potenziale von AI für Unternehmen und auf die häufigsten Fehler, die Sie bei der Einführung vermeiden sollten.

Workshop
Workshop

KI Workshops für Unternehmen

Ob Grundlagen der KI, Prompt-Engineering oder Potenzial-Scouting: Unser vielfältiges KI-Workshop Angebot bietet für jeden Wunsch die passenden Inhalte.

novaCapta
Blog
Hackathon der Business Unit Application & Data der novaCapta im Kölner Büro im September 2024: Gruppenfoto
Blog

Insights: Hackathon von „Applications & Data“

Ende September trafen sich Kolleg:innen aus unserer Business Unit „Applications & Data“ zu einem internen Hackathon im Kölner Büro. Zwei Tage mit intensiver Zusammenarbeit und jeder Menge neuer Erkenntnisse zu „Semantic Kernel“ standen auf dem Plan.

Blog
Blog

Der Leitfaden für Führungskräfte für generative KI

Du weißt nicht, wo Du mit generativer KI anfangen sollst? Starte Deine generative KI-Reise mit dem 10-Schritte-Plan !

Blog
Blog

AI for social good

Erfahre alle relevanten Kennzahlen zur Generativen KI und lerne von den führenden Unternehmen, wie sie bereits signifikante Zuwächse bei Jahresumsatz und ROI verzeichnen können dank Gen AI.

Blog
Blog

The ROI of Gen AI

Erfahre alle relevanten Kennzahlen zur Generativen KI und lerne von den führenden Unternehmen, wie sie bereits signifikante Zuwächse bei Jahresumsatz und ROI verzeichnen können dank Gen AI.

Referenz
Referenz

Galuba & Tofote: KI-basierte Marktanalyse-Lösung swarmsoft

Ein ARS Team aus den Bereichen Softwareentwicklung und Künstliche Intelligenz unterstützte die Galuba & Tofote Consulting PartG bei der Entwicklung der KI-basierten Marktanalyselösung swarmsoft®

Referenz
Referenz

Miyu – die zentrale Sprachintelligenz

Unterstützung des Customer Service-Centers durch KI-gestützte Automatisierungsprozesse.

Webinar
Webinar

Webinar: Effiziente Kundenkommunikation durch KI

Erfahren Sie, wie Audi durch den Einsatz von IBM Watsonx einen Voicebot entwickelt hat, der täglich tausende Anfragen automatisiert bearbeitet. Sie erhalten praxisnahe Einblicke in die Funktionsweise und erfahren, wie KI im Kundenservice eine spürbare Entlastung und Effizienzsteigerung bringt. Melden Sie sich jetzt an.

novaCapta
Event
novaCapta: Ihr Partner für die digitale Transformation mit Microsoft Technologien
Event

Webinar: Microsoft Fabric: Was kann die All-in-One-Plattform

Daten sind das Fundament für Geschäftsprozesse, Analysen, Entscheidungen, KI-Nutzung und vielem mehr. Microsoft Fabric ist der Ausgangspunkt für die Handhabe der vielen wertvollen Unternehmensdaten. Was kann die Datenplattform? Jetzt zum Webinar anmelden!

TIMETOACT
Martin LangeMartin LangeBlog
Checkliste als Symbol für die verschiedenen To Dos im Bereich Lizenzmanagement
Blog

Lizenzmanagement fest im Griff - Das sollten Sie wissen!

Lizenzmanagement hat nicht nur Relevanz für das Thema Compliance, sondern kann auch Kosten und Risiken minimieren. Mehr dazu im Beitrag.

TIMETOACT
Blog
Blog

In 6 Schritten zur passenden Data Analytics-Lösung

Um Innovation im Unternehmen voranzutreiben, braucht es eine state-of-the-art Data Analytics-Lösung. Oftmals ist hier eine Modernisierung von Nöten. Erfahren Sie in sechs Schritten, wie Sie die für Sie passende Lösung finden!

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Azure Cloud: Kosten mit IBM Turbonomic optimieren!

Im Blog erfahren Sie, wie Sie Ihre Microsoft Azure Kosten senken und dabei die bestmögliche Performance sichern. Und: wie IBM Turbonomic dabei unterstützen kann.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

AWS Cloud: So optimieren Sie Ihre Kosten mit IBM Turbonomic!

Wir geben Ihnen einen Überblick über die verschiedenen Methoden des AWS-Cloud-Kostenmanagements.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Amazon EC2: Performance richtig messen und optimieren!

Im Blog zeigen wir Ansätze zum Messen und Verwalten der Leistung von EC2-Instanzen. Zudem erfahren Sie, wie Sie mit IBM Turbonomic die Performance der darauf betriebenen Anwendungen optimieren.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Elastic Block Storage: Performance und Kosten optimieren

Wir geben Ihnen einen Überblick zu EBS. Und: zeigen Ihnen, wie IBM Turbonomic Sie bei Performance und Kosten unterstützt.

TIMETOACT
Service
Service

Eventreihe: KI Governance

Die EU hat sich auf schärfere Regeln zur Nutzung von Künstlicher Intelligenz geeinigt. Ihre Auswirkungen und weitere wichtige Aspekte von "KI Governance" beleuchten wir in unserer Eventserie.

novaCapta
Blog
Smile, work and a businessman with a laptop for an email, communication or online coding. Happy, programming and a male programmer typing on a computer for web or software development in an office
Blog

Mit Microsoft Copilot in die Zukunft des Arbeitens

Microsoft Copilot in aller Munde. Auch wir werden in letzter Zeit häufig nach Copilot und Künstlicher Intelligenz im Allgemeinen gefragt. Deshalb beantworten wir in diesem Blogbeitrag die häufigsten Fragen und Bedenken kompakt und einfach!

novaCapta
Blog
African American Business woman hard working, debtor, deferred debt, Times Interest Earned, Subsidiary Ledger, Special Journal, Shareholders Equity, Scrap value, Price Index, Profitability Ratios
Blog

Dokumentenmanagement mit GPT optimieren

KI und GPT sind in aller Munde. Doch welche konkreten Use Cases sind möglich? Wie sieht die Einführung aus? Wir zeigen Ihnen, wie einer unserer Kunden Dokumentenmanagement durch den Einsatz von GPT revolutioniert hat.

novaCapta
Blog
Cropped shot of an african-american young woman using smart phone at home. Smiling african american woman using smartphone at home, messaging or browsing social networks while relaxing on couch
Blog

Best Practices für Copilot for Microsoft 365

Copilot for Microsoft 365 verspricht mehr Effizienz, Schnelligkeit und Produktivität im Arbeitsalltag. Doch hält Copilot, was es verspricht? Welche Dos & Don’ts sollte man beachten? Vier Kolleg:innen teilen ihre Erfahrungswerte und Best Practices!

novaCapta
Blog
Frau arbeitet remote mit Smartphone und Laptop
Blog

Was Sie von Copilot erwarten können – und was nicht

Der Hype um Copilot for Microsoft 365 ist groß. Wie so oft in solchen Fällen, folgt bei vielen Usern schnell Ernüchterung. Daher ist ein realistisches Erwartungsmanagement wichtig. Wir zeigen Ihnen anhand von vier Mythen, was Copilot kann – und was nicht.

Kompetenz
Kompetenz

Graphentechnologie

Wir helfen Ihnen, das volle Potential der Graphen zu nutzen, um Ihr Unternehmen zu transformieren. Unser Fachwissen reicht von der Modellierung von Graphdatenbanken und Graph Data Science bis hin zu generativer KI.

TIMETOACT
Marc BastienMarc BastienBlog
Blog

ESG-Tagebuch | Wissenstransfer & Kommunikation | Teil 2

In diesem Teil unseres ESG-Tagebuchs berichten wir wieder über die Implementierung der IBM Envizi ESG Suite bei einem Industriekunden. Lesen Sie diesmal, vor welchen aktuellen Herausforderungen, Frage- und Problemstellungen wir bei der Bestimmung und Dokumentation fachlicher Aspekte stehen.

IPG
Florian Di MaggioFlorian Di MaggioBlog
Teaserbild nDSG CH
Blog

Neues Datenschutzgesetz – Schutz vor Sanktionen dank IAM

Ab September 2023 gilt in der Schweiz das totalrevidierte Datenschutzgesetz (nDSG). Was bedeutet es für Unternehmen und wie kann ein effektives IAM Unternehmen unterstützen, das neue Gesetz einzuhalten? Mit diesem Expertenbericht erhalten Sie einen detaillierten Überblick.

Blog
Blog

Google Threat Intelligence

Bedrohungsinformationen in höchster Google-Qualität für Dich und Dein Unternehmen!

Blog
Blog

KI - Was Deutschland tun muss, um den Tech-Turbo zu zünden

Mit Philipp Klöckner haben wir uns auf der BE.INSIDE über die Zukunft von AI und deren Rolle in Europa unterhalten. Eine zentrale Erkenntnis: Microsoft verbraucht allein so viel Strom verbraucht wie drei abgeschaltete deutsche Kernkraftwerke!

Blog
Blog

Responsible AI: Ein Leitfaden für ethische KI-Entwicklung

Responsible AI ist ein entscheidendes Gebot bei der Entwicklung und dem Einsatz von KI-Technologien. Alles, was du dazu wissen musst, findest du hier!

Philipp SchebitzPhilipp SchebitzBlog
Blog

Given/When/Then und ATDD - Eine Win-Win-Win-Situation!?

Erfahren Sie, wie die Methode Given, When, Then (GWT) und Acceptance Test-Driven Development (ATDD) in agilen Projekten angewendet werden können, um Akzeptanzkriterien frühzeitig zu beschreiben. Entdecken Sie die Vorteile und Herausforderungen dieser Testmethode und wie sie die Zusammenarbeit zwischen Fachbereichen, Entwicklern und Testern verbessert. Eine Win-Win-Win-Situation für alle Projektbeteiligten!

novaCapta
Andy KurzBlog
novaCapta: Ihr Partner für die digitale Transformation mit Microsoft Technologien
Blog

Warum ist Inline-CSS und JavaScript-Code so schlecht?

Warum der Einsatz von Inline-CSS bzw. JavaScript-Code schlecht ist, da Dinge wie Caching, DRY-Prinzip, Wartbarkeit und Media-Queries gänzlich außer Acht gelassen werden.

Blog
Blog

8 Tipps für ein erfolgreiches Automatisierungsprojekt

Was sind die Regeln, die man bei der Planung und Umsetzung eines Automatisierungsprojektes in Betracht ziehen soll? Und woran scheitert es?

TIMETOACT
Technologie
Headerbild zu IBM Cloud Pak for Data Accelerator
Technologie

IBM Cloud Pak for Data Accelerator

Zum schnellen Einstieg in bestimmte Use Cases, konkret für bestimmte Geschäftsbereiche oder Branchen, bietet IBM auf Basis der Lösung „Cloud Pak for Data“ sogenannte Akzeleratoren, die als Vorlage für die Projektentwicklung dienen, und dadurch die Umsetzung dieser Use Cases deutlich beschleunigen können. Die Plattform selbst bringt alle notwendigen Funktionen für alle Arten von Analyticsprojekten mit, die Akzeleratoren den entsprechenden Inhalt.

TIMETOACT GROUP
Service
Navigationsbild zu Data Science
Service

AI & Data Science

Die Datenmenge, die Unternehmen täglich produzieren und verarbeiten, wächst stetig an. Diese Daten enthalten wertvolle Informationen über Kunden, Märkte, Geschäftsprozesse und vieles mehr. Doch wie können Unternehmen diese Daten effektiv nutzen, um bessere Entscheidungen zu treffen, ihre Produkte und Dienstleistungen zu verbessern und neue Geschäftsmöglichkeiten zu erschließen?

novaCapta
Referenz
Launch (ESA)
Referenz

ESA: Data Factory, die Single Source of Truth

Mit der Data Factory hat die European Space Agency (ESA) eine Single Source of Truth geschaffen, die ihre Daten- & Projektlage transparent, ihre Prozesse effizienter macht und Entscheidungen nachhaltig fundiert.

TIMETOACT
Service
Service

KI Governance

Die EU hat sich auf schärfere Regeln zur Nutzung von Künstlicher Intelligenz geeinigt. Ihre Auswirkungen und weitere wichtige Aspekte von "KI Governance" erfahren Sie hier.

Referenz
Referenz

Esprit – auf dem Weg zur Data-driven-Company

Eine datengetriebene Kultur zu entwickeln und zu leben, ist Grundstein des Transformationsprozesses.

Referenz
Referenz

Portfoliomanagement und Projektbudgetplanung/-kontrolle

Diebold Nixdorf ist weltweit tätig und produziert Hardware und Software für Banking- und Retail-Systeme. Als Controlling-Tool wurde zuletzt Excel genutzt, das zunehmend Schwächen aufwies. Die Einführung von Jira zeigte schnelle Verbesserungen bei der Abbildung der Portfolioplanung und des Forecasting.

Referenz
Referenz

VYSYO – Zeit- & Kostenersparnisse dank neuester Technologien

Einsatz neuester Technologien verhilft dem Unternehmen VYSYO, Ressourcen effizient einzusetzen und die Qualität datengetriebener Arbeit zu erhöhen.

TIMETOACT
Referenz
Referenz

Interaktives Onlineportal identifiziert passende Mitarbeiter

TIMETOACT digitalisiert für KI.TEST mehrere Testverfahren zur Bestimmung der beruflichen Intelligenz und Persönlichkeit.

Referenz
Referenz

Bosch – Advanced Web Analytics für den globalen Mischkonzern

Von der Beratung bis zur technischen Umsetzung – professionelle Web-Analyse für alle weltweiten Business Units.

TIMETOACT
Referenz
Referenz

Managed Service Support für optimales Lizenzmanagement

Zur Sicherstellung der Software Compliance unterstützt TIMETOACT die FUNKE Mediengruppe im Rahmen eines SAM Managed Services für Microsoft, Adobe, Oracle und IBM.

TIMETOACT
Referenz
Referenz

TIMETOACT unterstützt KC Risk bei Benchmarking & Reporting

TIMETOACT unterstützte die KC Risk AG bei der Integration, Aufbereitung und Visualisierung ihrer Kundendaten. Alle Informationen stehen nun zentral zur Verfügung, sind per Knopfdruck abrufbar und Berechnungen erfolgen automatisiert.

TIMETOACT
Referenz
Referenz

IAV erreicht ISO/IEC 5230 Zertifizierung

IAV hat ihr Open Source Compliance Programm nach ISO/IEC 5230 zertifizieren lassen und damit die Transparenz im Umgang mit Open Source Software, insbesondere im Software-Entwicklungsprozess erhöht. Durch die Zertifizierung nach ISO/IEC 5230 kann IAV in Zukunft potenzielle Risiken im Umgang mit Open-Source-Software verringern. Darüber hinaus wird durch die Zertifizierung das Vertrauen von Kunden und Partnern in die Lieferkette erheblich gestärkt. Begleitet wurde das Zertifizierungsverfahren von der TIMETOACT GROUP. Die Softwareberatung unterstützte bei der Reifegradanalyse, der Nachverfolgung von Befunden und bei der finalen Auditierung und Zertifizierung durch ARS – einem Unternehmen der TIMETOACT GROUP.

TIMETOACT
Webinar
Webinar

Webinar: KI-Lösungen in Rekordzeit umsetzen und einsetzen

Erfahren Sie, wie Sie mit Mendix und AWS Bedrock nicht nur IT-Engpässe überwinden, sondern auch fortschrittliche KI-Anwendungen umsetzen. Anhand realer Beispiele, Best Practices und konkreter Handlungsempfehlungen geben wir Ihnen das nötige Know-how, um KI gewinnbringend in Ihre Prozesse zu integrieren.

TIMETOACT
Referenz
Referenz

Standardisiertes Datenmanagement bei TRUMPF

Die effiziente Verwaltung und zentrale, nachvollziehbare und qualitätsgesicherte Bereitstellung von Unternehmensdaten ist wichtiger denn je, um Entscheidungen zu treffen und die Datenverwendung zu optimieren – ganz besonders, wenn täglich bis zu 2 Terabyte an Daten bewegt werden. TIMETOACT implementiert für TRUMPF Photonic Components ein übergeordnetes Datenmodell in einem Data Warehouse und sorgt mit Talend für die notwendige Datenintegrationsanbindung und Katalogisierung. Mit diesem standardisierten Datenmanagement erhält TRUMPF künftig Reportings auf Basis verlässlicher Daten - mit der Option, Vorgehen und Modell zukünftig auch auf andere Fachabteilungen übertragen.

novaCapta
Blog
Erstellung einer Mitarbeiter-App
Blog

Wer benötigt ein Intranet?

Welche Unternehmen brauchen ein Intranet und warum benötigen sie es? Um diese Frage sinnvoll zu beantworten, lohnt es sich, die Bedeutung und Funktionen eines Intranets zu verstehen.

Blog
Blog

Gemini Prompting Guide 101

Gemini ist das KI-gestützte Tool von Google, das Euch hilft, Eure Arbeit in Google Workspace effizienter zu erledigen. Mit dem Prompting Guide holt ihr nun das meiste aus Gemini for Workspace heraus!

novaCapta
Blog
KPI Dashboard Data Analytics
Blog

Microsoft Fabric: Für wen sich der Einstieg lohnt

Eine Data Plattform ist für Unternehmen im heutigen digitalen Zeitalter unverzichtbar. Wir zeigen Ihnen, warum und für wen Microsoft Fabric die passende Technologie für Ihre Data Analytics Strategie ist.

Branche
Branche

Künstliche Intelligenz im Treasury Management

Optimieren Sie Treasury-Prozesse durch KI: Automatisierte Berichte, Vorhersagen und Risikomanagement.

Referenz
Referenz

Rodenstock: Moderne Technologien und KI für Beratersoftware

ARS entwickelte im Rahmen einer Machbarkeitsstudie für die Rodenstock GmbH ein Konzept einer Beratungssoftware mit modernen Technologien und KI, die die Benutzerfreundlichkeit und den Kundenservice verbessert.

Referenz
Referenz

HEAD – Racquet Finder

AI-Algorithmen für den Tennisspieler? Der perfekte Schläger für dein Spiel via Smart Learning Recommendation Engine.

Referenz
Referenz

Großhandelskooperation – Aufbau eines Data Lake & Analytics

Konsolidierung und Analyse von komplexen Unternehmens- und Kundendaten.

Referenz
Referenz

Home Market – Advanced Analytics für die Fachmarktgruppe

Association Rule Learning und weitere statistische Verfahren zur Analyse von Zusammenhängen und Abhängigkeiten

TIMETOACT
Referenz
Referenz

Standardisiertes Datenmanagement schafft Basis für Reporting

TIMETOACT implementiert für TRUMPF Photonic Components ein übergeordnetes Datenmodell in einem Data Warehouse und sorgt mit Talend für die notwendige Datenintegrationsanbindung. Mit diesem standardisierten Datenmanagement erhält TRUMPF künftig Reportings auf Basis verlässlicher Daten und kann das Modell auch auf andere Fachabteilungen übertragen.

TIMETOACT
Referenz
Referenz

Flexibilität bei der Datenauswertung eines Freizeitparks

Mit Unterstützung der TIMETOACT setzt ein Freizeitpark in Deutschland TM1 bereits seit vielen Jahren in unterschiedlichen Unternehmensbereichen ein, um einfach und flexibel Reportings-, Analyse- und Planungsprozesse durchzuführen.

novaCapta
Event
Happy woman working with laptop
Event

Webinar: IT-Trends 2025 – Künstliche Intelligenz im Fokus

2025 geht es bei KI nicht mehr nur um die Tools und Technologien, sondern um das große „Wie“, auf das Unternehmen Antworten finden müssen. In knackigen 30 Minuten geben wir Ihnen Antworten auf folgende Fragen - für Ihren KI-Wissensvorsprung in 2025.

TIMETOACT
Referenz
Referenz

Automatisierter Rechnungseingang bei Kapsch

TIMETOACT unterstützt Kapsch BusinessCom bei der Durchführung des automatisierten Rechnungseingangs durch den Einsatz einer umfassenden Dokumenten-Management- und Workflow-Lösung.

Referenz
Referenz

MAIN adaptiert automatisierte Rechnungseingangslösung

Um Zeit und Kosten bei der Rechnungsverarbeitung zu ersparen, setzt main auf eine umfassende Rechnungseingangslösung von TIMETOACT.

Referenz
Referenz

Automatisierte Eingangrechnungsverarbeitung mit JobRouter®

Schnelle Durchlaufzeiten und Ersparnisse im fünfstelligen Bereich durch automatisierten Rechnungsfreigabeprozess in der Buchhaltung bei der ISS.

Referenz
Referenz

Mit IBM FileNet zum modernen Dokumentenarchiv

Ein kompetenter Kundensupport ist einer der wichtigsten KPIs für Mobilanbieter. In dieser schnelllebigen Branche ist es eine Herausforderung, alle für einen Bestandsvertrag relevanten Dokumente schnell am Schirm zu haben, von AGBs über Zahlungsinformationen zu Vertragsanpassungen. TIMETOACT unterstützt einen frührenden Telekommunikationsanbieter bei der Archivmigration und Anbindung von modernen Applikationen an IBM FileNet P8 für das Handling von Millionen von Dokumenten.

Whitepaper
Whitepaper

Whitepaper: Eine Einführung ins API Management

Was genau sind APIs, welche Use Cases gibt es und wie können sie unterschiedliche Geschäftsziele unterstützen? Erfahren Sie in unserem kostenlosem Whitepaper.

Referenz
Referenz

Automatisierte Planung von Transportwegen

Effiziente Transportroutenplanung durch Automatisierung und einfache Integration.

novaCapta
Blog
Detailaufnahme eines Fingers, dessen Fingerabdruck zur Identifizierung am Laptop genutzt wird. Daben sieht man ein Sicherheitsschloss.
Blog

NIS2 kommt: So bereiten Sie sich optimal vor

NIS2 kommt. Wie bereiten Unternehmen sich optimal vor? In unserem Blogbeitrag inkl. Video geben unsere Experten konkrete Tipps - und zeigen, welche Vorteile es hat, die Maßnahmen umzusetzen!

Offering
Google Workspace macht glücklich
Offering

Advanced Admin Trial

Über den Marketplace kann jeder, der sich für Advanced Admin interessiert, dieses 14 Tage lang kostenfrei testen.

TIMETOACT GROUP
Matthias QuaisserMatthias QuaisserBlog
Blog

Versicherung 2020 – was prägte das Jahr?

Das 2020 beherrschende Thema ist natürlich Corona – auch für Versicherer. Ziehen wir ein Resümee aus der Zusammenarbeit mit unseren Kunden aus der Versicherungsbranche.