ERGEBNISSE DER ENTERPRISE RAG CHALLENGE 2025

Das IBM watsonx Leaderboard

Crowd-Sourced AI research

Der IBM watsonx Track der Enterprise RAG Challenge ist eingebettet in ein weltweites Innovationsprojekt, das neue Maßstäbe für Retrieval-Augmented Generation setzt: ein praxisnahes, crowdgesourctes KI-Forschungsformat auf Basis der IBM watsonx Plattform – mit maximaler Relevanz und Wirkung.

Unterschiedliche Teams nutzten IBM watsonx mit vielfältigen technischen Ansätzen, um das volle Potenzial der Plattform auszuschöpfen – jedes auf seine eigene Weise. So entstanden innovative Lösungen, die eindrucksvoll zeigen, wie flexibel und leistungsfähig watsonx im RAG-Kontext eingesetzt werden kann.

Das IBM watsonx Leaderboard

Das ist das Leaderboard aller Beiträge, die RAG-Systeme mithilfe der IBM watsonx AI API entwickelt haben.

Jedes Team hatte die Möglichkeit, eine ihrer Lösungen für den Wettbewerb um die Spitzenplätze auf diesem Leaderboard zu nominieren. Die hier aufgeführten Einreichungen sind jeweils die nominierten Lösungen.

Ein Klick auf eine Tabellenzeile führt zu weiteren Details zur jeweiligen Lösung sowie zum vollständigen Experiment-Log des Teams.

Was bedeuten die Spalten? Alle Werte im Überblick

"R&D" – kennzeichnet Teams, die an Forschungs- und Entwicklungsaktivitäten in unseren Communities teilnehmen. Treten Sie unserem Discord-Kanal bei, um über neue Initiativen auf dem Laufenden zu bleiben!
"Time" – wie viel Zeit seit dem Zeitpunkt vergangen ist, als wir die Fragen für die Challenge generiert haben.
"R Score" – die Qualität des Retrieval-Teils von RAG. Er wurde ermittelt, indem die angegebenen Referenzen mit den Ground-Truth-Seitennummern verglichen wurden.
"G Score" – die Qualität des Generation-Teils von RAG. Er wird berechnet, indem die generierten Antworten mit dem Ground-Truth-Datensatz verglichen werden.
"Score" – die endgültige Punktzahl: R/3 + G. Das theoretische Maximum lag bei 133,3.
"Local" – zeigt an, ob sich die Lösung vollständig offline ausführen lässt.

Zeige nur lokale Modelle 🏠
Schränke den Zeitraum der Einreichung ein auf Stunden |

#	Team	Experiment	Time	R&D	Local	R	G	Score
1	Ilia Ris	▶ Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b	33 hours	🤝		81.3	79.7	120.3
Ilia Ris Best experiment: Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b Signature: `25fabf` Summary: Dense retrieval combined with LLM reranking, Self-Consistency and Schema Repair. Article: How I Won the Enterprise RAG Challenge Source code: Github Models used: llama-3.3 70b Architecture Ilia Ris solved the problem by making it easy to run numerous experiments before the competition has even started. He created an evaluation pipeline that let him quickly evaluate different architectural solutions. The best solution was also among the fastest ones. This solution used IBM WatsonX AI API. It had the following configuration: PDF Analysis: Documents are processed using a highly modified Docling Library from IBM. Modifications were needed to preserve page references. Router Pattern: First step in question answering flow picks the most suitable agent. Dense Retrieval: The system searches for relevant information based on semantic similarity (FAISS library and OpenAI vector embeddings). Parent Document Retrieval: Instead of retrieving only the chunk, full page is loaded to preserve relevant context. LLM Reranking: Retrieved information is re-evaluated and reordered by the LLM. Reasoning Patterns: Improve LLM accuracy within a single prompt by controlling its thinking process with Custom Chain-of-Thought and Structured Outputs. Final Answer generation: The optimized result was generated using llama-3.3 70b via WatsonX AI API. Since Structured Outputs were not supported by this API, an additional Schema Repair step was needed. Self-Consistency with Majority Vote: Multiple answer variations are generated, compared, and the most consistent one is selected. R&D Experiments Total experiments submitted: 11 Other approaches: Dense Retrieval; LLM Reranking; Router; SO CoT; o3-mini Dense Retrieval; Router; SO CoT; llama3.3-70b Dense Retrieval; Tables serialization; Router; LLM reranking; o3-mini Dense Retrieval; llama-3.3 70b Dense Retrieval; llama-3.1 8b Full Context; gemini-2.0 thinking Dense Retrieval; Router; LLM reranking; Self-Consistency; o3-mini Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b What didn't work? Using llama-3.1 8b for reranking Incorporating Full Context with gemini-2.0 thinking Future experiments: Evaluating various local embedding models for fully offline solutions Experiment journal: 16 min → R: 83.9, G: 72.8, Score: 114.8 ▲ - Dense Retrieval; LLM Reranking; Router; SO CoT; o3-mini 23 min → R: 81.4, G: 74.7, Score: 115.4 ▲ - Dense Retrieval; llama-3.3 70b 49 min → R: 83.8, G: 81.8, Score: 123.7 ▲ - Dense Retrieval; Router; LLM reranking; o3-mini 50 min → R: 81.1, G: 68.7, Score: 109.3 - Dense Retrieval; llama-3.1 8b 51 min → R: 75.5, G: 75.0, Score: 112.8 - Full Context; gemini-2.0 thinking 66 min → R: 83.0, G: 78.8, Score: 120.3 - Dense Retrieval; Tables serialization; Router; LLM reranking; o3-mini 22 hours → R: 83.5, G: 81.8, Score: 123.6 - Dense Retrieval; Router; LLM reranking; o3-mini 22 hours → R: 80.8, G: 75.7, Score: 116.1 - Dense Retrieval; llama-3.3 70b 33 hours → R: 83.4, G: 79.8, Score: 121.6 - Dense Retrieval; Router; LLM reranking; Self-Consistency; o3-mini 33 hours → R: 81.3, G: 79.7, Score: 120.3 - Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b 👈
2	A.Rasskazov/V.Kalesnikau	▶ pjatk_team_002	7 days			82.5	64.0	105.2
A.Rasskazov/V.Kalesnikau Experiment: ibm/granite-embedding-107m-multilingual + deepseek/deepseek-r1-distill-llama-70b Signature: `28a3dc` Summary: A multi-agent system leveraging LLMs for question answering using similarity-based retrieval. Models used: ibm/granite-embedding-107m-multilingual deepseek/deepseek-r1-distill-llama-70b Architecture The system preprocesses questions to extract key metrics and synonyms, retrieves relevant PDF pages via a multi-embedding vector database, and then uses an LLM to verify and extract the answer with its corresponding page reference. R&D Experiments Total experiments submitted: 2 Other approaches: pjatk_team_002: A system that preprocesses questions, retrieves relevant PDF pages using a vector database, and extracts answers with page references using LLMs. What didn't work? Alternative embedding models for retrieval. Different strategies for key metric extraction. Experiment journal: 30 hours → R: 84.0, G: 67.2, Score: 109.3 ▲ - multi_agent_ibm_openai 7 days → R: 82.5, G: 64.0, Score: 105.2 - pjatk_team_002 👈
3	nightwalkers	▶ nightwalkers-baseline	6 hours		🔒	72.9	60.2	96.7
nightwalkers Best experiment: nightwalkers-baseline Signature: `356ef4` Summary: Utilized a vector database for efficient document retrieval and LLM for response generation. Models used: deepseek-r1-distill-llama-70b Architecture The team implemented vector database search using embeddings from all-MiniLM-L6-v2 and ibm/granite-embedding-107m-multilingual models. This facilitated the retrieval of the most relevant page and document based on the query. The retrieved information was then processed by the deepseek-r1-distill-llama-70b LLM to generate relevant answers.
4	Felix-TAT	▶ IBM-4o-based Multiagent RAG	7 days	🤝		81.7	47.3	88.2
Felix-TAT Best experiment: IBM-4o-based Multiagent RAG Signature: `2ff9d6` Summary: Multiagent, mixed-model approach with delegation and execution agents. Models used: ibm/granite-20b-code-instruct gpt-4o-2024-08-06 Architecture Multiagent approach using qdrant vector database. A delegation manager (openAI) splits the question into the touched companies and delegates company specific queries to expert agents (IBM), trying to retrieve parts of the answer from the chunks in the vector qdrant database. These responses are then combined and put together by an execution agent (openAI), coming up with the final answer. PDFs were parsed using docling, chunked in a custom way to keep tables as a whole including context. R&D Experiments Total experiments submitted: 4 Other approaches: Gemini Naive IBM-4o-based Multiagent RAG OpenAI Multiagent RAG What didn't work? Using a single model without multiagent delegation Relying solely on vector database retrieval without full PDF context Experiment journal: 6 days → R: 79.0, G: 60.3, Score: 99.8 ▲ - Gemini Naive 7 days → R: 81.7, G: 47.3, Score: 88.2 - IBM-4o-based Multiagent RAG 👈 7 days → R: 82.2, G: 66.0, Score: 107.1 ▲ - OpenAI Multiagent RAG 7 days → R: 80.2, G: 69.3, Score: 109.4 ▲ - Gemini-4o Multiagent RAG
5	AValiev	▶ IBM-mixtral-agentic-rag	3 hours		🔒	43.5	33.0	54.8
AValiev Best experiment: IBM-mixtral-agentic-rag Signature: `9881dd` Summary: Agentic RAG with type validation, Pydantic typing, Qdrant vector store querying. PDFs were extracted with PyPDF + Docling Models used: mistralai/mixtral-8x7b-instruct-v01 Architecture This RAG solution was based on an Agentic Retrieval-Augmented Generation (RAG) architecture. It utilized type validation and Pydantic typing for robust data handling, and Qdrant vector store querying for efficient information retrieval. PDF documents were processed using PyPDF and Docling for accurate text extraction. R&D Experiments Total experiments submitted: 5 Other approaches: openai-agentic-rag IBM-mixtral-agentic-rag granite-3-8b-instruct_rag_agentic deepseek/deepseek-r1-distill-llama-70b_sophisticated_chunking_rag_agentic What didn't work? Alternative LLM models such as OpenAI-gpt-4o-mini and mistralai/mixtral-8x7b-instruct-v01 were explored but did not achieve the same performance as the winning model. Experiment journal: 54 min → R: 43.5, G: 60.0, Score: 81.8 ▲ - openai-agentic-rag 3 hours → R: 43.5, G: 33.0, Score: 54.8 - IBM-mixtral-agentic-rag 👈 4 hours → R: 43.5, G: 60.0, Score: 81.8 - IBM-deepseek-agentic-rag 4 hours → R: 43.5, G: 48.5, Score: 70.2 - granite-3-8b-instruct_rag_agentic 34 hours → R: 35.8, G: 53.0, Score: 70.9 - deepseek/deepseek-r1-distill-llama-70b_sophisticated_chunking_rag_agentic
6	ragtastic	▶ ragtastic	7 days			4.8	3.0	5.4
ragtastic Best experiment: ragtastic Signature: `43d4fd` Summary: The architecture leverages the Mistral-large model for its implementation. Models used: mistral-large Architecture The solution used Mistral-large model to achieve its objectives. The architecture is designed to optimize performance and accuracy, ensuring robust results.

Fragen oder Interesse an einer Zusammenarbeit?

Die TIMETOACT GROUP Österreich zählt zu den führenden Experten im Bereich der angewandten Forschung zu generativer KI für Unternehmen. Unsere Forschungsergebnisse fließen unmittelbar in die Produktentwicklung ein – so setzen wir höchste Standards bei der Umsetzung KI-gestützter Anwendungen für Unternehmen.

Möchten auch Sie das volle Potenzial von KI für Ihre Geschäftsprozesse nutzen? Kontaktieren Sie uns gerne!

Niklas Thannäuser freut sich, von Ihnen zu hören!

Niklas Thannhäuser

Sales Consultant TIMETOACT GROUP Österreich GmbH +43 664 750 187 82

Kontakt

Vorname

Nachname *

Unternehmen *

E-Mail *

Telefonnummer

Ihre Nachricht *

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Insights

Team-Leaderboard der Enterprise RAG Challenge

Das Team-Leaderboard fasst alle eingereichten Beiträge zusammen – auch jene, die nach Bekanntgabe der Ground Truth eingereicht wurden. Daher betrachten wir diese Rangliste als inoffizielle Übersicht.

Insights

Das sind die Gewinner der Enterprise RAG Challenge

Entdecken Sie die Gewinner der Enterprise RAG Challenge! Sehen Sie sich das offizielle Announcement an und erfahren Sie, wie KI-Retrieval und LLMs die besten RAG-Lösungen geformt haben.

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.

Wissen 24.10.24

RAG-Systeme erklärt: Wettbewerbsvorteile mit IBM WatsonX

IBM WatsonX hilft mit RAG-Systemen, schnell und effizient datenbasierte Entscheidungen.

Technologie Übersicht

Beratung rund um IBM watsonx Assistant

Als IBM Platinum Business Partner sind wir für Sie da. Ob Beratung, Begleitung oder Umsetzung – mit dem gesamten Portfolio der IBM finden wir die optimale Lösung für Sie.

Technologie Übersicht

Beratung rund um IBM watsonx Orchestrate

Als IBM Platinum Business Partner sind wir für Sie da. Ob Beratung, Begleitung oder Umsetzung – mit dem gesamten Portfolio der IBM finden wir die optimale Lösung für Sie.

Wissen 18.11.24

IBM watsonx: 5 überzeugende Argumente

Erfahren Sie, wie IBM watsonx Effizienz steigert, Kosten senkt und Innovation vorantreibt.

Wissen 10.09.24

Ethische und transparente KI mit IBM WatsonX

IBM WatsonX bietet Tools für ethische KI: Erklärbarkeit, Datenschutz und Bias-Erkennung in einem Paket.

Technologie Übersicht

Beratung rund um IBM watsonx Code Assistant

Als IBM Platinum Business Partner sind wir für Sie da. Ob Beratung, Begleitung oder Umsetzung – mit dem gesamten Portfolio der IBM finden wir die optimale Lösung für Sie.

Technologie Übersicht

Beratung rund um IBM Watsonx BI Assistant

Als IBM Platinum Business Partner sind wir für Sie da. Ob Beratung, Begleitung oder Umsetzung – mit dem gesamten Portfolio der IBM finden wir die optimale Lösung für Sie.

Technologie

IBM App Connect Enterprise

IBM App Connect Enterprise ist ein Enterprise Service Bus, der universelle Konnektivität und Transformationen für heterogene IT-Umgebungen mit und ohne serviceorientierte Architekturen bietet. Für IBM App Connect Enterprise bieten wir für sämtliche Projektphasen professionelle Unterstützung an.

Technologie 31.01.22

Enterprise Observability mit IBM Instana

Behalten Sie mit Instana nicht nur den Überblick über alle Leistungsmetriken, Anforderungen und Profile aller Prozesse, sondern erfassen Sie auch alle Funktionen, die für die Überwachung der Unternehmens-IT wesentlich sind.

Wissen 19.12.23

RAG: GenAI trifft Unternehmenswissen

In der Welt der generativen KI markiert Retrieval Augmented Generation den nächsten Evolutionsschritt. Textgeneratoren werden dabei um den Zugriff auf externe Informationsquellen angereichert.

Offering

Atlassian Enterprise

Atlassian Enterprise solutions tailored to your needs

Übersicht

Atlassian Enterprise

Atlassian-Software unterstützt Teams jeder Größenordnung bei einer erfolgreichen Zusammenarbeit und das über Ländergrenzen und Zeitzonen hinweg.

Puzzle zur Visualisierung von Enterprise Application Integration (EAI)

Kompetenz 31.08.20

Enterprise Integration

Enterprise Integration unterstützt die Geschäftsprozessabwicklung und verschafft Unternehmen Kostenvorteile. Zum Aufbau von Integrationsszenarien verwendet X-INTEGRATE die Methode Baseline.

Kompetenz 06.03.25

Enterprise Integration

Enterprise Integration supports the execution of business processes and provides companies with cost advantages. To build integration scenarios, X-INTEGRATE uses the Baseline method.

Event 19.10.21

Enterprise Identity Roadshow

"The Future of Identity is Here" lautet der Leitsatz der ersten Enterprise Identity Roadshow am 18. November in München. Treffen Sie die IAM-Experten der TIMETOACT GROUP und tauschen Sie sich zu Innovationen und Fallstudien rund um Cybersicherheit aus.

Nov 18

Lösung

Enterprise Identity Cloud

Die Saviynt Enterprise Identity Cloud (EIC) ist die einzige konvergente Cloud-Identitätsplattform, die intelligenten Zugriff und umfassende Governance bietet. Ein modernes Identitätsmanagement mit einer Zero-Trust-Grundlage.

Technologie 26.09.22

Atlassian Enterprise Cloud

Skalierung, Sicherheit und Governance der Enterprise-Klasse für die Atlassian Cloud.

Das IBM watsonx Leaderboard

Das IBM watsonx Leaderboard

Ilia Ris

Architecture

R&D Experiments

A.Rasskazov/V.Kalesnikau

Architecture

R&D Experiments

nightwalkers

Architecture

Felix-TAT

Architecture

R&D Experiments

AValiev

Architecture

R&D Experiments

ragtastic

Architecture

Fragen oder Interesse an einer Zusammenarbeit?

Erfahren Sie mehr

Team-Leaderboard der Enterprise RAG Challenge

Das sind die Gewinner der Enterprise RAG Challenge

Die Zukunft der KI: Enterprise RAG Challenge

RAG-Systeme erklärt: Wettbewerbsvorteile mit IBM WatsonX

Beratung rund um IBM watsonx Assistant

Beratung rund um IBM watsonx Orchestrate

IBM watsonx: 5 überzeugende Argumente

Ethische und transparente KI mit IBM WatsonX

Beratung rund um IBM watsonx Code Assistant

Beratung rund um IBM Watsonx BI Assistant

IBM App Connect Enterprise

Enterprise Observability mit IBM Instana

RAG: GenAI trifft Unternehmenswissen

Atlassian Enterprise

Atlassian Enterprise

Enterprise Integration

Enterprise Integration

Enterprise Identity Roadshow

Enterprise Identity Cloud

Atlassian Enterprise Cloud

Bleiben Sie mit dem TIMETOACT GROUP Newsletter auf dem Laufenden!