CHATGPT UND CO IM VERGLEICH

LLM Benchmarks

Februar 2025

In den vergangenen Monaten lag unser Fokus auf der Enterprise RAG Challenge, sodass dieser Benchmark nicht so große Fortschritte gemacht hat, wie wir es erwartet hatten. Die Arbeit an einer interaktiven Tabelle sowie an weiteren Testfällen wird in den kommenden Releases vorangetrieben.

Dennoch gibt es eine ganze Reihe von Themen, die wir behandeln möchten:

AI-Coding-Tests in den Benchmark integriert
OpenAI: o3-mini und GPT-4.5
Anthropic: Claude 3.7 mit und ohne erweiterte Schlussfolgerungsfähigkeiten
Qwen: QwQ 32B, Qwen Max, Qwen Plus
Krise des OpenAI SDK als gemeinsamer Standard für LLM-APIs
Erkenntnisse aus der Enterprise RAG Challenge

So sieht der Benchmark aktuell aus. Er testet die Fähigkeit von LLMs, geschäftliche und unternehmensbezogene Aufgaben zu bewältigen, die wir aus realen Industrieanwendungen extrahiert haben. Die Modelle werden mit komplexen Aufgaben konfrontiert, erhalten jedoch auch die Möglichkeit, durch gezielte Reasoning-Methoden wie Chain-of-Thought-Routinen innerhalb des Prompts ihre Leistung zu verbessern.

Aktuell führt OpenAI das Ranking an, dicht gefolgt von den Anthropic- und DeepSeek-Modellen. Besonders beeindruckend ist, dass lokal lauffähige Modelle in den Top 5 vertreten sind.

Noch bemerkenswerter ist, dass sich ein 70B-Modell auf Platz 5 befindet. Falls die Gerüchte über die NVIDIA RTX PRO 6000 Blackwell stimmen, würde eine einzelne GPU-Karte ausreichen, um dieses Modell in nativer fp8-Quantisierung für GPUs auszuführen, während noch genügend Speicherplatz für KV-Caches und größere parallele Kontexte übrig bliebe.

Neue AI-Coding-Aufgaben in den Benchmark importiert

Wie bereits erwähnt, ist dieser Benchmark noch nicht vollständig. Wir befinden uns weiterhin im Prozess der Überprüfung von AI-Anwendungsfällen in unserem Portfolio und importieren diese als neue Tests in den Benchmark.

Hier ist ein Beispiel für einen Fintech-Codeverständnis-Benchmark. Dieser Test (einer von vielen weiteren) lautet wie folgt:

Which specs would fail, if I add a new feature: after authorizing any transaction larger than 3000, the system automatically blocks the card due to “Large Transaction Risk.” We do not add new event type, just extend the existing command handler. 

Source code: %SOURCE CODE%

Übrigens: Beachte, dass wir die Frage im Prompt vor den kontextuellen Daten platzieren. Dies zerstört zwar die Caching-Semantik vollständig, erleichtert aber die Arbeit der Modelle und verbessert die Gesamtgenauigkeit.

Der Quellcode für diese spezifische Aufgabe ist eine Klasse, die das Zustandsmanagement für Kreditkarten implementiert. Sie enthält eine Liste ausführbarer, ereignisgesteuerter Spezifikationen, die alle Verhaltensweisen überprüfen. Die gesamte Datei umfasst 1100 Zeilen dichten Python-Codes.

Allen Modellen steht eine benutzerdefinierte Chain-of-Thought-Routine zur Verfügung, die sie innerhalb ihrer Antwort nutzen können. Hier ist ein Beispiel dafür, wie o1 diese knifflige Frage korrekt löst:

{
  "short_thought_steps": [
    "Check specs that authorizeTransaction with amounts > 3000",
    "No spec has an authorization > 3000",
    "Hence no test scenario triggers the new block logic",
    "No spec fails"
  ],
  "failing_spec_names": []
}

Und so wird die Anfrage von Sonnet 3.7 (ohne Reasoning) verarbeitet:

{
    "short_thought_steps": [
        "1. The new feature will automatically block a card when a transaction over 3000 is authorized",
        "2. This means the authorize_transaction method will now have a side effect of blocking the card",
        "3. Need to check all specs that authorize transactions over 3000",
        "4. Also need to check specs that expect certain events after authorization",
        "5. The spec 'authorize_transaction_success' authorizes a transaction of 2000, which is below the threshold",
        "6. No other specs explicitly authorize transactions over 3000",
        "7. However, any spec that expects only a TransactionAuthorized event after authorizing a large transaction would fail",
        "8. Let me create a test case in my mind: if we authorize a 4000 transaction, we'd expect both TransactionAuthorized and CardBlocked events",
        "9. No existing specs test this scenario directly"
    ],
    "failing_spec_names": []
}

Solche Coding-Aufgaben sind ein guter Indikator, um die Fähigkeiten von Modellen im Bereich Softwareentwicklung zu bewerten. Wir werden weiterhin AI-Anwendungsfälle in diesen Benchmark integrieren, um ihn relevanter und repräsentativer zu machen.

Nun kommen wir zur Bewertung aktueller Modelle:

OpenAI: o3-mini und GPT-4.5

Das o3-mini-Modell von OpenAI hat den ersten Platz in unserem Benchmark erreicht (Reasoning-Aufwand: mittel). Es ist derzeit das beste verfügbare Modell. In unserem aktuellen Coding-Benchmark erzielte es eine perfekte Punktzahl von 100 %, erreichte 45 % im BI-Benchmark und 70 % im Compliance-Benchmark.

Das kürzlich veröffentlichte GPT-4.5-Modell verfügt über kein explizites Reasoning. Es ist sehr präzise und versteht feine Nuancen gut, konnte jedoch nicht so hoch punkten und erreichte eine aggregierte Punktzahl von 51 %.

Hier ist ein Beispiel dafür, wie dieses Modell die oben beschriebene Coding-Aufgabe falsch gelöst hat. Es hat den Gedankengang einfach nicht vollständig zu Ende geführt:

{
  "short_thought_steps": [
    "Identify specs involving transaction authorization.",
    "Check if transaction amounts exceed 3000.",
    "List specs that would fail due to the new blocking rule."
  ],
  "failing_spec_names": [
    "authorize_transaction_success"
  ]
}

Anthropic: Claude 3.7 Sonnet mit und ohne Reasoning

Anthropic-Modelle werden von Entwickler:innen und Nutzer:innen oft für ihr angenehmes und produktives Dialogformat gelobt. Allerdings hatte Anthropic in letzter Zeit nicht viel Erfolg mit fortgeschrittenen Modellen (erinnert sich noch jemand an Opus?) – bis jetzt.

Das neue Claude 3.7 Sonnet mit integriertem Reasoning erreichte in unserem Benchmark 70 % und erzielte eine perfekte 100 %-Wertung im Coding-Bereich, womit es den 2. Platz belegte. Das Schwestermodell ohne Reasoning landete auf Platz 8.

Wir haben Claude 3.7 Sonnet im Reasoning-Modus mit einem Budget von 25.000 Tokens ausgeführt, wobei 80 % davon für das Reasoning reserviert waren. Zusätzlich hatte das Modell einige Reasoning-Slots innerhalb des Antwortbudgets.

Was den Erfolg für Anthropic noch bemerkenswerter macht: Ihre Modelle verfügen noch immer nicht über einen echten Structured Output Mode, bei dem das Schema durch constrained decoding in 100 % der Fälle garantiert wird. Dennoch gelang es ihnen, in jedem einzelnen Testfall dieses Benchmarks ein korrekt parsebares JSON-Schema zu liefern.

Beachte, dass die Ergebnisse mit Anthropic-Modellen variieren können. In einigen Produktionsfällen beobachten wir beispielsweise Fehlerraten bei JSON-Schemata von etwa 5–10 %, was in der Regel eine nachträgliche Schema-Reparatur erforderlich macht.

Qwen-Modelle

Wir haben eine Reihe neuer Qwen-Modelle in unseren Benchmark aufgenommen, konzentrieren uns aber auf die beiden herausragenden: Qwen Max und QwQ 32B.

Qwen Max ist ein groß angelegtes MoE-Modell (Mixture of Experts). Es erzielte solide Ergebnisse und erreichte den 12. Platz. In seiner Leistung ist es vergleichbar mit Microsoft Phi-4 und Claude 3.5 Sonnet.

Qwen QwQ-32B ist ein lokal lauffähiges Modell, das den Stand der Technik in unserem Benchmark weiter vorantreibt. Es setzt eine neue Bestmarke für die Genauigkeit, die mit 32B-Modellen erreicht werden kann. Der bisherige Rekordhalter war ebenfalls ein Qwen-Modell (qwen-2.5-32B instruct), doch das neue Modell bringt echtes Reasoning mit.

Wir haben das QwQ-32B-Modell getestet, indem wir es über OpenRouter vom Fireworks-Provider ausgeführt haben – eine bewusste Wahl, da Fireworks Structured Outputs unterstützt. Diese Erfahrung hat uns jedoch einige Tage voller Frustration gekostet und ein grundlegendes Problem im Ökosystem der Reasoning-Modelle deutlich gemacht.

Krise des OpenAI SDK als gemeinsamer Standard für LLM-APIs

Zum Zeitpunkt des Schreibens sind die OpenAI-API und das Python-SDK de facto der Standard für die Anbindung verschiedener Modelle. Es ist nicht unbedingt der beste Standard, aber es hat sich bislang nichts anderes durchgesetzt. Innerhalb dieses Ökosystems kann man eine einzige Bibliothek nutzen, um auf verschiedene Server zuzugreifen, etwa vLLM oder ollama. Nvidia entwickelt eine OpenAI-kompatible Frontend-Schnittstelle für den Triton Inference Server. Selbst Google hat nach langer Überlegung angekündigt, OpenAI-kompatibel zu werden.

Meistens funktioniert alles – bis es das nicht mehr tut.

Ein Beispiel: Beim Aufruf des QwQ-32B-Modells über die OpenAI-SDK-Bibliothek (die laut OpenRouter garantiert funktionieren sollte) erhielten wir den Error: 'NoneType' object is not iterable – tief aus dem Inneren des OpenAI-SDK.

Die eigentliche Ursache war etwas komplexer.

Moderne Reasoning-Modelle verbrauchen mehr Tokens, um über ein Problem nachzudenken, bevor sie eine Antwort liefern. OpenAI-Modelle verbergen diesen Denkprozess, während Open-Source-Modelle ihn explizit kennzeichnen, indem sie in der Antwort -Tags verwenden.

Vermutlich wollte OpenRouter hier besonders intelligent und benutzerfreundlich sein. Es platziert automatisch die Denk-Tokens in ein spezielles „reasoning“-Feld der Antwort, während die eigentliche Antwort in „content“ abgelegt wird. Das allein reicht aus, um Probleme zu verursachen, insbesondere wenn das Modell mit StructuredOutput und constrained decoding arbeitet. Bemerkenswert ist, dass das Reasoning-Feld eine korrekte JSON-Antwort enthält, während das Content-Feld leer bleibt:

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "",
        "reasoning": "{ \"chain_of_thought\": [ \"To determine how many ...",
        "refusal": null,
        "role": "assistant"
      },
      "native_finish_reason": "stop"
    }
  ],

Es hat einige Zeit gedauert, die eigentliche Ursache zu identifizieren und einen eigenen Client zu implementieren, um das Problem kurzfristig zu beheben – nur um dann auf das nächste Sonderfallproblem zu stoßen.

In wenigen Prozent der Fälle lieferte das Modell Qwen QwQ-32B, wenn es über OpenRouter von Fireworks abgefragt wurde, eine Antwort, bei der sowohl der Thinking-Output als auch der finale Content als reiner Text vorlagen – ohne jeglichen Structured Output:

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "```json\n{\n  \"short_thought_steps...```",
        "reasoning": "Okay, let me figure...",
        "refusal": null,
        "role": "assistant"
      },
      "native_finish_reason": "stop"
    }
  ],

Kurz gesagt: Das Ökosystem rund um die standardisierte Abfrage von Reasoning-Modellen ist derzeit ein Chaos. Es gibt zu viele Unklarheiten, die den Implementierungspartnern Spielraum für Interpretationen lassen. Das führt zwangsläufig zu unerwarteten Sonderfällen.

Zufällig hat OpenAI gerade seine neue Response API vorgestellt. Sie soll die Completions API ersetzen und könnte möglicherweise einen besseren Standard für den Umgang mit Reasoning-LLMs etablieren.

Die spannendsten Erkenntnisse aus der Enterprise RAG Challenge

Wie bereits bekannt, haben wir gerade die zweite Runde der Enterprise RAG Challenge abgeschlossen. Vor dem Start hatten sich über 350 KI-Enthusiast:innen aus der ganzen Welt registriert.

Die Herausforderung: Ein RAG-System für Geschäftsberichte
Die Herausforderung bestand darin, ein RAG-System zu entwickeln, das 100 Fragen zu 100 verschiedenen Geschäftsberichten beantworten kann. Der umfangreichste Bericht umfasste mehr als 1000 Seiten! Wir haben zahlreiche Einsendungen erhalten und über 100 ausgefüllte AI-Umfragen, in denen die Teams ihre Ansätze und Architekturen detailliert erklärten.

Ein kollaboratives Forschungsexperiment
Dadurch wurde ERCr2 zu einem groß angelegten, kollaborativen Forschungsexperiment für präzise Enterprise-RAG-Systeme. Hier sind einige der wichtigsten Erkenntnisse, die wir gemeinsam mit der Community gewonnen haben:

Die Qualität der Datenauslese ist entscheidend für die Gesamtgenauigkeit. Die besten RAG-Lösungen nutzten die Docling-Dokumentenextraktionsbibliothek.
Eine gute Architektur ermöglicht hochwertige Ergebnisse – selbst mit einem kleinen lokalen LLM!

Ein Blick auf die Architektur der Gewinnerlösung: PDF-Parsing mit stark modifizierter Docling-Bibliothek Dense Retrieval Router Parent Document Retrieval Structured Output Chain-of-Thought (SO CoT) Structured Output Reparser (SO Reparser) Diese Architektur wurde mit verschiedenen LLM-Modellen evaluiert und erzielte folgende Ergebnisse:

o3-mini        R: 83.8 │ G: 81.8 
llama3.3-70b   R: 83.9 │ G: 72.8 
llama-3.1 8b   R: 81.1 │ G: 68.7 

R - Retrieval score
G - Generation score

Wie man sehen kann: Je weniger leistungsfähig ein Modell ist, desto niedriger sind die Ergebnisse. Aber dank der hohen Qualität des Retrievals fällt die Generationsbewertung nicht so stark ab, wie wir es erwartet hätten!

Mit einer guten Gesamtarchitektur und Llama-3.1 8B liegt die Antwortgenauigkeit beispielsweise bei 68,7 %. Ersetzen wir dieses Modell durch ein 70B-Modell, steigt die Genauigkeit nur um 4 %. Und wenn wir das lokale 70B-Modell durch das beste Reasoning-Modell ersetzen, verbessert sich die Enterprise RAG Accuracy lediglich um 9 %.

Diese Bewertung wurde aus unseren Benchmarks abgeleitet und auf die Enterprise RAG Challenge angewendet. Sie erwies sich als ein guter Indikator für die potenzielle Qualität, die mit einer bestimmten RAG-Architektur erreicht werden kann. Die RAG-Genauigkeit hängt stark von der Qualität der Retrieval-Komponente ab. Ist die endgültige RAG-Bewertung jedoch deutlich niedriger als die Qualität des Retrievals, gibt es oft einfach umsetzbare Verbesserungen, um die Präzision zu erhöhen.

Unsere dritte Erkenntnis: Reasoning-Patterns auf Basis von Structured Outputs und Custom Chains of Thought wurden von allen Top-Lösungen genutzt. Sie funktionieren selbst dann, wenn Structured Outputs vom LLM-Serving nicht direkt unterstützt werden (z. B. durch constrained decoding) und das Schema erst repariert werden muss.

Unsere vierte Erkenntnis: Vektorsuche ist noch nicht komplett tot. Ein hochwertiger Dense Retrieval-Mechanismus war die Basis für die beste Lösung. Interessanterweise nutzte die zweitplatzierte Lösung im Preis-Leaderboard jedoch keine Vektoren.

Insgesamt haben wir gelernt: Kleine, lokal lauffähige Modelle sind leistungsfähiger als ursprünglich gedacht. Open-Source-LLMs bieten bereits eine starke Konkurrenz zu proprietären Modellen, insbesondere wenn sie mit SO/CoT-Patterns an ihre Grenzen gebracht werden.

Vielleicht sehen wir im Jahr 2025 eine breitere Akzeptanz von KI-gestützten Geschäftssystemen, die lokal ausgeführt werden und dabei keine Qualitätskompromisse zugunsten der Sicherheit mehr eingehen müssen.

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

Vorname

Nachname *

Unternehmen *

E-Mail *

Telefonnummer

Ihre Nachricht *

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Martin Warnung

Sales Consultant TIMETOACT GROUP Österreich GmbH +43 664 881 788 80

Kontakt

Blog 20.02.25

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 01.10.24

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Insights 17.03.25

LLM Benchmarks: February 2025

Discover the latest insights from our independent LLM benchmarks for February 2025. Find out which large language models performed best.

Wissen 30.04.24

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Welche LLM-Modelle meistern Ihre Herausforderungen am besten? Werfen Sie einen Blick auf die Ergebnisse und finden Sie Ihr ideales Sprachmodell!

Puzzleteil zur Visualisierung von Integration

Wissen

Februar Update von Blueworks Live

IBM hat Blueworks Live im Februar das erste der vier jährlichen Updates spendiert. Blueworks Live ermöglicht gemeinsame Prozessmodellierung und setzt den Fokus auf eine einfache und intuitive Handhabung. Damit werden insbesondere Business Anwender adressiert.

Monthly Update

Monthly Update Februar 2024

Heute freuen wir uns, Sie über spannende Entwicklungen und Neuigkeiten aus unserem Unternehmen zu informieren. Im Mittelpunkt dieses Updates stehen aufregende Veränderungen, spannende...

Blog 20.07.23

Wie ChatGPT die Spielregeln ändert

ChatGPT ist in aller Munde. Diese fortschrittliche KI-Technologie verändert die Art und Weise, wie wir Informationen suchen, Entscheidungen treffen und uns mit Verkäufern austauschen – auch im B2B. In der neuesten insights!-Folge erfährst du, wie der Einsatz von ChatGPT den Kaufprozess im B2B-Bereich revolutioniert und was du tun musst, um nicht den Anschluss zu verlieren.

Schulung

Domino REST & Co

Schulung

Domino REST & Co

Wissen 03.05.23

ChatGPT: Häufige Fragen und Antworten

Der Launch von ChatGPT, dem intelligenten Chatbot von OpenAI, hat große Wellen geschlagen. Wir haben im Blog häufige Fragen und Antworten zusammengefasst.

News 17.01.25

Preisanpassungen bei Atlassian Data Center ab Februar 2025

Ab Februar 2025 stehen bei Atlassian Data Center wichtige Preisänderungen an. Neben einer Anpassung der Tarife werden neue Benutzerstufen eingeführt, um die Preisstruktur besser an die Cloud-Produkte anzupassen. Erfahren Sie, was sich konkret ändert und wie Sie sich darauf vorbereiten können.

Insights

LLM Benchmarks März 2025

Was gibt’s Neues in der Welt der LLMs? Finden Sie es heraus – und lesen Sie, warum Google DeepMind uns im vergangenen Monat gleich mehrfach überrascht hat.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.07.24

LLM-Benchmarks Juli 2024

Unser LLM Leaderboard aus Juli 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.08.24

LLM-Benchmarks August 2024

Anstelle unserer allgemeinen LLM Benchmarks, präsentieren wir Ihnen im August den ersten Benchmark verschiedener KI-Architekturen.

Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

LLM Benchmarks

Februar 2025

Neue AI-Coding-Aufgaben in den Benchmark importiert

OpenAI: o3-mini und GPT-4.5

Anthropic: Claude 3.7 Sonnet mit und ohne Reasoning

Qwen-Modelle

Krise des OpenAI SDK als gemeinsamer Standard für LLM-APIs

Die spannendsten Erkenntnisse aus der Enterprise RAG Challenge

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Bitte Captcha lösen!

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

ChatGPT & Co: September-Benchmarks für Sprachmodelle

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

ChatGPT & Co: November-Benchmarks für Sprachmodelle

LLM Benchmarks: February 2025

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Februar Update von Blueworks Live

Monthly Update Februar 2024

Wie ChatGPT die Spielregeln ändert

Domino REST & Co

Domino REST & Co

ChatGPT: Häufige Fragen und Antworten

Preisanpassungen bei Atlassian Data Center ab Februar 2025

LLM Benchmarks März 2025

LLM-Benchmarks Mai 2024

LLM-Benchmarks Juni 2024

LLM-Benchmarks Juli 2024

LLM-Benchmarks August 2024

LLM-Benchmarks April 2024

Bleiben Sie mit dem TIMETOACT GROUP Newsletter auf dem Laufenden!

LLM Benchmarks

Februar 2025

Neue AI-Coding-Aufgaben in den Benchmark importiert

OpenAI: o3-mini und GPT-4.5

Anthropic: Claude 3.7 Sonnet mit und ohne Reasoning

Qwen-Modelle

Krise des OpenAI SDK als gemeinsamer Standard für LLM-APIs

Die spannendsten Erkenntnisse aus der Enterprise RAG Challenge

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Erfahren Sie mehr

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

ChatGPT & Co: September-Benchmarks für Sprachmodelle

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

ChatGPT & Co: November-Benchmarks für Sprachmodelle

LLM Benchmarks: February 2025

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Februar Update von Blueworks Live

Monthly Update Februar 2024

Wie ChatGPT die Spielregeln ändert

Domino REST & Co

Domino REST & Co

ChatGPT: Häufige Fragen und Antworten

Preisanpassungen bei Atlassian Data Center ab Februar 2025

LLM Benchmarks März 2025

LLM-Benchmarks Mai 2024

LLM-Benchmarks Juni 2024

LLM-Benchmarks Juli 2024

LLM-Benchmarks August 2024

LLM-Benchmarks April 2024

Bleiben Sie mit dem TIMETOACT GROUP Newsletter auf dem Laufenden!