Crowd-Sourced AI research
 
 
Der IBM watsonx Track der Enterprise RAG Challenge ist eingebettet in ein weltweites Innovationsprojekt, das neue Maßstäbe für Retrieval-Augmented Generation setzt: ein praxisnahes, crowdgesourctes KI-Forschungsformat auf Basis der IBM watsonx Plattform – mit maximaler Relevanz und Wirkung.
 

Unterschiedliche Teams nutzten IBM watsonx mit vielfältigen technischen Ansätzen, um das volle Potenzial der Plattform auszuschöpfen – jedes auf seine eigene Weise. So entstanden innovative Lösungen, die eindrucksvoll zeigen, wie flexibel und leistungsfähig watsonx im RAG-Kontext eingesetzt werden kann.

Das IBM watsonx Leaderboard

Das ist das Leaderboard aller Beiträge, die RAG-Systeme mithilfe der IBM watsonx AI API entwickelt haben.

Jedes Team hatte die Möglichkeit, eine ihrer Lösungen für den Wettbewerb um die Spitzenplätze auf diesem Leaderboard zu nominieren. Die hier aufgeführten Einreichungen sind jeweils die nominierten Lösungen.

Ein Klick auf eine Tabellenzeile führt zu weiteren Details zur jeweiligen Lösung sowie zum vollständigen Experiment-Log des Teams.

Was bedeuten die Spalten? Alle Werte im Überblick
  • "R&D" – kennzeichnet Teams, die an Forschungs- und Entwicklungsaktivitäten in unseren Communities teilnehmen. Treten Sie unserem Discord-Kanal bei, um über neue Initiativen auf dem Laufenden zu bleiben!
  • "Time" – wie viel Zeit seit dem Zeitpunkt vergangen ist, als wir die Fragen für die Challenge generiert haben.
  • "R Score" – die Qualität des Retrieval-Teils von RAG. Er wurde ermittelt, indem die angegebenen Referenzen mit den Ground-Truth-Seitennummern verglichen wurden.
  • "G Score" – die Qualität des Generation-Teils von RAG. Er wird berechnet, indem die generierten Antworten mit dem Ground-Truth-Datensatz verglichen werden.
  • "Score" – die endgültige Punktzahl: R/3 + G. Das theoretische Maximum lag bei 133,3.
  • "Local" – zeigt an, ob sich die Lösung vollständig offline ausführen lässt.

#TeamExperimentTimeR&DLocalRGScore
1Ilia Ris
Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b
33 hours🤝81.379.7120.3

Ilia Ris

  • Best experiment: Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b
  • Signature: 25fabf
  • Summary: Dense retrieval combined with LLM reranking, Self-Consistency and Schema Repair.
  • Article: How I Won the Enterprise RAG Challenge
  • Source code: Github

Models used:

  • llama-3.3 70b

Architecture

Ilia Ris solved the problem by making it easy to run numerous experiments before the competition has even started. He created an evaluation pipeline that let him quickly evaluate different architectural solutions. The best solution was also among the fastest ones.

This solution used IBM WatsonX AI API. It had the following configuration:

  • PDF Analysis: Documents are processed using a highly modified Docling Library from IBM. Modifications were needed to preserve page references.
  • Router Pattern: First step in question answering flow picks the most suitable agent.
  • Dense Retrieval: The system searches for relevant information based on semantic similarity (FAISS library and OpenAI vector embeddings).
  • Parent Document Retrieval: Instead of retrieving only the chunk, full page is loaded to preserve relevant context.
  • LLM Reranking: Retrieved information is re-evaluated and reordered by the LLM.
  • Reasoning Patterns: Improve LLM accuracy within a single prompt by controlling its thinking process with Custom Chain-of-Thought and Structured Outputs.
  • Final Answer generation: The optimized result was generated using llama-3.3 70b via WatsonX AI API. Since Structured Outputs were not supported by this API, an additional Schema Repair step was needed.
  • Self-Consistency with Majority Vote: Multiple answer variations are generated, compared, and the most consistent one is selected.

R&D Experiments

Total experiments submitted: 11

Other approaches:

  • Dense Retrieval; LLM Reranking; Router; SO CoT; o3-mini
  • Dense Retrieval; Router; SO CoT; llama3.3-70b
  • Dense Retrieval; Tables serialization; Router; LLM reranking; o3-mini
  • Dense Retrieval; llama-3.3 70b
  • Dense Retrieval; llama-3.1 8b
  • Full Context; gemini-2.0 thinking
  • Dense Retrieval; Router; LLM reranking; Self-Consistency; o3-mini
  • Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b

What didn't work?

  • Using llama-3.1 8b for reranking
  • Incorporating Full Context with gemini-2.0 thinking

Future experiments:

  • Evaluating various local embedding models for fully offline solutions

Experiment journal:

  • 16 min → R: 83.9, G: 72.8, Score: 114.8 ▲ - Dense Retrieval; LLM Reranking; Router; SO CoT; o3-mini
  • 23 min → R: 81.4, G: 74.7, Score: 115.4 ▲ - Dense Retrieval; llama-3.3 70b
  • 49 min → R: 83.8, G: 81.8, Score: 123.7 ▲ - Dense Retrieval; Router; LLM reranking; o3-mini
  • 50 min → R: 81.1, G: 68.7, Score: 109.3 - Dense Retrieval; llama-3.1 8b
  • 51 min → R: 75.5, G: 75.0, Score: 112.8 - Full Context; gemini-2.0 thinking
  • 66 min → R: 83.0, G: 78.8, Score: 120.3 - Dense Retrieval; Tables serialization; Router; LLM reranking; o3-mini
  • 22 hours → R: 83.5, G: 81.8, Score: 123.6 - Dense Retrieval; Router; LLM reranking; o3-mini
  • 22 hours → R: 80.8, G: 75.7, Score: 116.1 - Dense Retrieval; llama-3.3 70b
  • 33 hours → R: 83.4, G: 79.8, Score: 121.6 - Dense Retrieval; Router; LLM reranking; Self-Consistency; o3-mini
  • 33 hours → R: 81.3, G: 79.7, Score: 120.3 - Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b 👈
2A.Rasskazov/V.Kalesnikau
pjatk_team_002
7 days82.564.0105.2

A.Rasskazov/V.Kalesnikau

  • Experiment: ibm/granite-embedding-107m-multilingual + deepseek/deepseek-r1-distill-llama-70b
  • Signature: 28a3dc
  • Summary: A multi-agent system leveraging LLMs for question answering using similarity-based retrieval.

Models used:

  • ibm/granite-embedding-107m-multilingual
  • deepseek/deepseek-r1-distill-llama-70b

Architecture

The system preprocesses questions to extract key metrics and synonyms, retrieves relevant PDF pages via a multi-embedding vector database, and then uses an LLM to verify and extract the answer with its corresponding page reference.

R&D Experiments

Total experiments submitted: 2

Other approaches:

  • pjatk_team_002: A system that preprocesses questions, retrieves relevant PDF pages using a vector database, and extracts answers with page references using LLMs.

What didn't work?

  • Alternative embedding models for retrieval.
  • Different strategies for key metric extraction.

Experiment journal:

  • 30 hours → R: 84.0, G: 67.2, Score: 109.3 ▲ - multi_agent_ibm_openai
  • 7 days → R: 82.5, G: 64.0, Score: 105.2 - pjatk_team_002 👈
3nightwalkers
nightwalkers-baseline
6 hours🔒72.960.296.7

nightwalkers

  • Best experiment: nightwalkers-baseline
  • Signature: 356ef4
  • Summary: Utilized a vector database for efficient document retrieval and LLM for response generation.

Models used:

  • deepseek-r1-distill-llama-70b

Architecture

The team implemented vector database search using embeddings from all-MiniLM-L6-v2 and ibm/granite-embedding-107m-multilingual models. This facilitated the retrieval of the most relevant page and document based on the query. The retrieved information was then processed by the deepseek-r1-distill-llama-70b LLM to generate relevant answers.

4Felix-TAT
IBM-4o-based Multiagent RAG
7 days🤝81.747.388.2

Felix-TAT

  • Best experiment: IBM-4o-based Multiagent RAG
  • Signature: 2ff9d6
  • Summary: Multiagent, mixed-model approach with delegation and execution agents.

Models used:

  • ibm/granite-20b-code-instruct
  • gpt-4o-2024-08-06

Architecture

Multiagent approach using qdrant vector database. A delegation manager (openAI) splits the question into the touched companies and delegates company specific queries to expert agents (IBM), trying to retrieve parts of the answer from the chunks in the vector qdrant database. These responses are then combined and put together by an execution agent (openAI), coming up with the final answer. PDFs were parsed using docling, chunked in a custom way to keep tables as a whole including context.

R&D Experiments

Total experiments submitted: 4

Other approaches:

  • Gemini Naive
  • IBM-4o-based Multiagent RAG
  • OpenAI Multiagent RAG

What didn't work?

  • Using a single model without multiagent delegation
  • Relying solely on vector database retrieval without full PDF context

Experiment journal:

  • 6 days → R: 79.0, G: 60.3, Score: 99.8 ▲ - Gemini Naive
  • 7 days → R: 81.7, G: 47.3, Score: 88.2 - IBM-4o-based Multiagent RAG 👈
  • 7 days → R: 82.2, G: 66.0, Score: 107.1 ▲ - OpenAI Multiagent RAG
  • 7 days → R: 80.2, G: 69.3, Score: 109.4 ▲ - Gemini-4o Multiagent RAG
5AValiev
IBM-mixtral-agentic-rag
3 hours🔒43.533.054.8

AValiev

  • Best experiment: IBM-mixtral-agentic-rag
  • Signature: 9881dd
  • Summary: Agentic RAG with type validation, Pydantic typing, Qdrant vector store querying. PDFs were extracted with PyPDF + Docling

Models used:

  • mistralai/mixtral-8x7b-instruct-v01

Architecture

This RAG solution was based on an Agentic Retrieval-Augmented Generation (RAG) architecture.

It utilized type validation and Pydantic typing for robust data handling, and Qdrant vector store querying for efficient information retrieval. PDF documents were processed using PyPDF and Docling for accurate text extraction.

R&D Experiments

Total experiments submitted: 5

Other approaches:

  • openai-agentic-rag
  • IBM-mixtral-agentic-rag
  • granite-3-8b-instruct_rag_agentic
  • deepseek/deepseek-r1-distill-llama-70b_sophisticated_chunking_rag_agentic

What didn't work?

  • Alternative LLM models such as OpenAI-gpt-4o-mini and mistralai/mixtral-8x7b-instruct-v01 were explored but did not achieve the same performance as the winning model.

Experiment journal:

  • 54 min → R: 43.5, G: 60.0, Score: 81.8 ▲ - openai-agentic-rag
  • 3 hours → R: 43.5, G: 33.0, Score: 54.8 - IBM-mixtral-agentic-rag 👈
  • 4 hours → R: 43.5, G: 60.0, Score: 81.8 - IBM-deepseek-agentic-rag
  • 4 hours → R: 43.5, G: 48.5, Score: 70.2 - granite-3-8b-instruct_rag_agentic
  • 34 hours → R: 35.8, G: 53.0, Score: 70.9 - deepseek/deepseek-r1-distill-llama-70b_sophisticated_chunking_rag_agentic
6ragtastic
ragtastic
7 days4.83.05.4

ragtastic

  • Best experiment: ragtastic
  • Signature: 43d4fd
  • Summary: The architecture leverages the Mistral-large model for its implementation.

Models used:

  • mistral-large

Architecture

The solution used Mistral-large model to achieve its objectives. The architecture is designed to optimize performance and accuracy, ensuring robust results.

Fragen oder Interesse an einer Zusammenarbeit?

Die TIMETOACT GROUP Österreich zählt zu den führenden Experten im Bereich der angewandten Forschung zu generativer KI für Unternehmen. Unsere Forschungsergebnisse fließen unmittelbar in die Produktentwicklung ein – so setzen wir höchste Standards bei der Umsetzung KI-gestützter Anwendungen für Unternehmen.

Möchten auch Sie das volle Potenzial von KI für Ihre Geschäftsprozesse nutzen? Kontaktieren Sie uns gerne!

Niklas Thannäuser freut sich, von Ihnen zu hören!

Niklas Thannhäuser
Sales Consultant TIMETOACT GROUP Österreich GmbH +43 664 750 187 82
* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Bitte Captcha lösen!

captcha image
Insights

Team-Leaderboard der Enterprise RAG Challenge

Das Team-Leaderboard fasst alle eingereichten Beiträge zusammen – auch jene, die nach Bekanntgabe der Ground Truth eingereicht wurden. Daher betrachten wir diese Rangliste als inoffizielle Übersicht.

Insights

Das sind die Gewinner der Enterprise RAG Challenge

Entdecken Sie die Gewinner der Enterprise RAG Challenge! Sehen Sie sich das offizielle Announcement an und erfahren Sie, wie KI-Retrieval und LLMs die besten RAG-Lösungen geformt haben.

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.

Wissen 24.10.24

RAG-Systeme erklärt: Wettbewerbsvorteile mit IBM WatsonX

IBM WatsonX hilft mit RAG-Systemen, schnell und effizient datenbasierte Entscheidungen.

Technologie Übersicht

Beratung rund um IBM watsonx Assistant

Als IBM Platinum Business Partner sind wir für Sie da. Ob Beratung, Begleitung oder Umsetzung – mit dem gesamten Portfolio der IBM finden wir die optimale Lösung für Sie.

Technologie Übersicht

Beratung rund um IBM watsonx Orchestrate

Als IBM Platinum Business Partner sind wir für Sie da. Ob Beratung, Begleitung oder Umsetzung – mit dem gesamten Portfolio der IBM finden wir die optimale Lösung für Sie.

Wissen 18.11.24

IBM watsonx: 5 überzeugende Argumente

Erfahren Sie, wie IBM watsonx Effizienz steigert, Kosten senkt und Innovation vorantreibt.

Wissen 10.09.24

Ethische und transparente KI mit IBM WatsonX

IBM WatsonX bietet Tools für ethische KI: Erklärbarkeit, Datenschutz und Bias-Erkennung in einem Paket.

Technologie Übersicht

Beratung rund um IBM watsonx Code Assistant

Als IBM Platinum Business Partner sind wir für Sie da. Ob Beratung, Begleitung oder Umsetzung – mit dem gesamten Portfolio der IBM finden wir die optimale Lösung für Sie.

Technologie Übersicht

Beratung rund um IBM Watsonx BI Assistant

Als IBM Platinum Business Partner sind wir für Sie da. Ob Beratung, Begleitung oder Umsetzung – mit dem gesamten Portfolio der IBM finden wir die optimale Lösung für Sie.

Services für IBM App Connect Enterprise
Technologie

IBM App Connect Enterprise

IBM App Connect Enterprise ist ein Enterprise Service Bus, der universelle Konnektivität und Transformationen für heterogene IT-Umgebungen mit und ohne serviceorientierte Architekturen bietet. Für IBM App Connect Enterprise bieten wir für sämtliche Projektphasen professionelle Unterstützung an.

Headerbild zu Enterprise Observability mit IBM Instana
Technologie 31.01.22

Enterprise Observability mit IBM Instana

Behalten Sie mit Instana nicht nur den Überblick über alle Leistungsmetriken, Anforderungen und Profile aller Prozesse, sondern erfassen Sie auch alle Funktionen, die für die Überwachung der Unternehmens-IT wesentlich sind.

Wissen 19.12.23

RAG: GenAI trifft Unternehmenswissen

In der Welt der generativen KI markiert Retrieval Augmented Generation den nächsten Evolutionsschritt. Textgeneratoren werden dabei um den Zugriff auf externe Informationsquellen angereichert.

Offering

Atlassian Enterprise

Atlassian Enterprise solutions tailored to your needs

Übersicht

Atlassian Enterprise

Atlassian-Software unterstützt Teams jeder Größenordnung bei einer erfolgreichen Zusammenarbeit und das über Ländergrenzen und Zeitzonen hinweg.

Puzzle zur Visualisierung von Enterprise Application Integration (EAI)
Kompetenz 31.08.20

Enterprise Integration

Enterprise Integration unterstützt die Geschäftsprozessabwicklung und verschafft Unternehmen Kostenvorteile. Zum Aufbau von Integrationsszenarien verwendet X-INTEGRATE die Methode Baseline.

Puzzle zur Visualisierung von Enterprise Application Integration (EAI)
Kompetenz 06.03.25

Enterprise Integration

Enterprise Integration supports the execution of business processes and provides companies with cost advantages. To build integration scenarios, X-INTEGRATE uses the Baseline method.

Event 19.10.21

Enterprise Identity Roadshow

"The Future of Identity is Here" lautet der Leitsatz der ersten Enterprise Identity Roadshow am 18. November in München. Treffen Sie die IAM-Experten der TIMETOACT GROUP und tauschen Sie sich zu Innovationen und Fallstudien rund um Cybersicherheit aus.

Nov 18
Teaser ipg cloud v3
Lösung

Enterprise Identity Cloud

Die Saviynt Enterprise Identity Cloud (EIC) ist die einzige konvergente Cloud-Identitätsplattform, die intelligenten Zugriff und umfassende Governance bietet. Ein modernes Identitätsmanagement mit einer Zero-Trust-Grundlage.

Technologie 26.09.22

Atlassian Enterprise Cloud

Skalierung, Sicherheit und Governance der Enterprise-Klasse für die Atlassian Cloud.

Bleiben Sie mit dem TIMETOACT GROUP Newsletter auf dem Laufenden!