Jenseits der Vektorsuche: Architektur des "Kognitiven" Unternehmens

Im Jahr 2024 war "Mit Ihrer PDF chatten" Magie. Im Jahr 2026 ist es ein "Hello World"-Projekt. Der Standard fuer Enterprise RAG (Retrieval-Augmented Generation) hat sich dramatisch verschoben.

Bei elitics.io sehen wir Unternehmen scheitern, nicht weil ihr Modell nicht intelligent genug ist (Gemini 3.0 ist ein Genie), sondern weil ihre Retrieval-Architektur naiv ist. Einfach Text in Chunks aufteilen und in eine Vektordatenbank werfen fuehrt zum "Lost in the Middle"-Phaenomen und halluziniertem Kontext.

Die 3 Reifegrade von RAG

Wir kategorisieren RAG-Implementierungen in drei Raffinesse-Stufen. Die meisten Unternehmen stecken auf Stufe 1 fest.

Stufe 1

Naive RAG

Standard-Chunking + Vektorsuche (Kosinusaehnlichkeit).

Scheitert bei: Komplexem Schlussfolgern

ELITICS STANDARD

Stufe 2

Fortgeschrittene RAG

Hybride Suche (Keyword + Vektor) + Reranking + Metadaten-Filterung.

Gut fuer: Spezifische Antworten

Stufe 3

GraphRAG

Wissensgraphen + Vektoren. Beziehungen zwischen Entitaeten verstehen.

Loest: "Globale" Fragen

Warum Vektoren nicht ausreichen (Das "Steve"-Problem)

Vektoren speichern semantische Aehnlichkeit, nicht faktische Beziehungen.

Wenn Sie fragen: "Wie ist Steve mit Projekt Apollo verbunden?"

Vektorsuche scheitert
Sie findet Dokumente, die "Steve" und "Projekt Apollo" erwaehnen. Sie koennte ein Mittagsmenue zurueckgeben, bei dem Steve mit dem Apollo-Team gegessen hat. Sie verlaesst sich auf Naehe.
GraphRAG gelingt
Sie traversiert den Wissensgraphen: (Steve)-[IST_MANAGER_VON]-> (Engineering_Abt)-[BESITZT]-> (Projekt_Apollo). Sie versteht den Pfad der Beziehung.

Die "Hybride Suche"-Architektur

Bei elitics.io setzen wir selten noch reine Vektorsuche ein. Wir verwenden Hybride Suche mit Reciprocal Rank Fusion (RRF). Diese kombiniert das "unscharfe" Matching von Vektoren mit dem "exakten" Matching von BM25 (Keyword-Suche).

search_pipeline.py

def hybrid_search(query):

# 1. Semantische Ergebnisse holen (Absicht verstehen)

vector_results = pinecone.query(vector=embed(query), top_k=20)

# 2. Keyword-Ergebnisse holen (Exakte Treffer fuer SKUs/Namen)

keyword_results = elastic.search(query=query, top_k=20)

# 3. Reranking mit Cohere/Voyage (Der "Richter")

reranked = cohere.rerank(

query=query,

documents=vector_results + keyword_results,

model='rerank-english-v3.0'

)

return reranked[:5] # Nur die Top 5 an das LLM senden

Agentic RAG: Das System, das denkt

Das letzte Puzzlestueck ist Agentic RAG. Anstatt blind Daten fuer jede Anfrage abzurufen, entscheidet ein Agent (betrieben von Gemini/GPT-4):

"Muss ich die Datenbank durchsuchen?"
"Muss ich stattdessen Google pruefen?"
"Fragt der Benutzer nach Finanzdaten? Lass mich das SQL-Werkzeug verwenden."
"Fragt der Benutzer nach Richtlinien? Lass mich den Vektorspeicher verwenden."

Diese "Router"-Schicht verhindert, dass das Modell durch irrelevanten Kontext verwirrt wird. Sie verwandelt das System von einer "Suchmaschine" in einen "Forschungsassistenten."

Bereit, Ihr Unternehmensgehirn aufzuruesten? elitics.io ist spezialisiert auf die Migration von Stufe-1-RAG-Prototypen zu Stufe-3-Produktionssystemen.