Ein Joint Venture von Ventum Consulting | VentumIQ | goodguys

Quellenbasiertes KI-Scoring: Warum Transparenz bei AI-Entscheidungen entscheidend ist

Wenn ein KI-System empfiehlt, auf eine Ausschreibung im Wert von €2,3 Millionen zu bieten, reicht ein „Score: 87" nicht aus. Entscheider brauchen Antworten: Warum 87? Welche Kriterien sind erfüllt, welche nicht? Und auf welche konkreten Textstellen in den Vergabeunterlagen stützt sich diese Bewertung?

Dieser Artikel zeigt, warum Explainable AI im Enterprise-Kontext keine optionale Eigenschaft ist, sondern eine regulatorische und geschäftliche Notwendigkeit — und wie TenderIQ quellenbasiertes Scoring technisch umsetzt.

Das Black-Box-Problem: Warum Vertrauen scheitert

Die erste Generation von KI-Scoring-Tools im Vergabebereich arbeitet nach einem simplen Muster: Text rein, Zahl raus. Ein neuronales Netz wurde auf historische Vergabedaten trainiert und gibt eine Wahrscheinlichkeit aus. Das Problem: Niemand kann nachvollziehen, warum eine bestimmte Ausschreibung einen hohen oder niedrigen Score erhält.

In der Praxis führt das zu drei gravierenden Konsequenzen:

  • Vertrauensverlust: Bid Manager ignorieren Scores, die ihrer Erfahrung widersprechen — ohne Möglichkeit, die Divergenz aufzuklären.
  • Haftungsrisiko: Wenn eine KI-gestützte Entscheidung zu einem Fehlbid führt, kann das Unternehmen die Entscheidungsgrundlage nicht rekonstruieren.
  • Regulatorische Nicht-Konformität: Der EU AI Act stellt ab 2026 explizite Anforderungen an die Transparenz von KI-Systemen in Entscheidungsprozessen.
„Ein KI-Score ohne Quellenangabe ist wie ein Gutachten ohne Begründung — rechtlich wertlos und operativ gefährlich."

Was Entscheider von KI-Scores erwarten — und was sie bekommen

In einer internen Studie mit 45 Bid Managern aus DACH-Unternehmen haben wir die Erwartungslücke zwischen KI-Versprechen und Realität gemessen. Die Ergebnisse sind eindeutig:

Erwartung Erfüllt bei Black-Box-Systemen Erfüllt bei quellenbasiertem Scoring
„Ich will wissen, warum ein Score hoch oder niedrig ist" 0% 94%
„Ich will die relevanten Textstellen sehen" 0% 89%
„Ich will den Score nachrechnen können" 0% 78%
„Ich will wissen, wo die KI unsicher ist" 12% 91%
„Ich vertraue dem Score genug für eine Go/No-Go-Entscheidung" 23% 82%

Die Adoptionsrate erzählt die gleiche Geschichte: Teams, die Black-Box-Scoring nutzen, verwenden das Tool nach 3 Monaten nur noch für 30% ihrer Ausschreibungen. Teams mit quellenbasiertem Scoring liegen nach 3 Monaten bei 85% — weil das Tool tatsächlich in den Entscheidungsprozess integriert werden kann.

TenderIQ's Architekturentscheidung: RAG statt Fine-Tuning

TenderIQ verfolgt einen fundamental anderen Ansatz als klassische Scoring-Engines. Statt ein monolithisches Modell auf historische Daten zu trainieren, verwendet das System eine RAG-Architektur, die jede Bewertung auf konkrete Quellen zurückführt.

Der 4-Stufen-Prozess des quellenbasierten Scorings

Stufe 1: Embedding und Dokumentenverarbeitung

Die Vergabeunterlagen werden in semantische Einheiten zerlegt und als Embeddings in einer Vektordatenbank gespeichert. Parallel wird das Unternehmensprofil — bestehend aus Referenzen, Kompetenzbeschreibungen und historischen Angeboten — ebenfalls vektorisiert. Dieser Schritt erfolgt asynchron und ist für den Nutzer nicht sichtbar.

Stufe 2: Vektorsuche in Qdrant

Für jedes Bewertungskriterium (z.B. „Technische Kompetenz im Bereich Cloud-Migration") durchsucht das System die Vektordatenbank nach den relevantesten Passagen — sowohl in den Vergabeunterlagen als auch im Unternehmensprofil. Die Suche liefert nicht nur die besten Treffer, sondern auch einen Ähnlichkeits-Score für jede Passage.

Stufe 3: LLM-Synthese mit Zitaten

Ein LLM erhält die gefundenen Passagen als Kontext und bewertet die Passung. Entscheidend: Das LLM wird angewiesen, jede Bewertungsaussage mit einer konkreten Quellenreferenz zu belegen. Aussagen ohne Quellenbeleg werden als „nicht verifizierbar" markiert.

Stufe 4: Konfidenz-Tracking und Aggregation

Die Einzelbewertungen werden zu einem Gesamtscore aggregiert, wobei jede Komponente ein Konfidenz-Tracking erhält: Wie sicher ist die Bewertung? Basiert sie auf expliziten Aussagen in den Unterlagen oder auf Inferenz? Gibt es widersprüchliche Quellen?

Bewertungsansatz Black-Box-Scoring Quellenbasiertes Scoring (TenderIQ)
Output Einzelne Zahl (z.B. 0.73) Score 0-100 + Quellenbelege pro Kriterium
Nachvollziehbarkeit Keine Vollständige Quellenkette
Fehlerdiagnose Nicht möglich Kriterium-Level-Analyse
Regulatorische Konformität Nicht gegeben EU AI Act Art. 13-14 konform
Lernfähigkeit Re-Training erforderlich Profilaktualisierung in Echtzeit

EU AI Act: Transparenz wird Pflicht

Mit dem EU AI Act treten ab 2026 verbindliche Transparenzanforderungen in Kraft. Artikel 13 fordert, dass KI-Systeme „so konzipiert und entwickelt werden, dass ihr Betrieb hinreichend transparent ist, um es den Nutzern zu ermöglichen, die Ergebnisse des Systems zu interpretieren und angemessen zu nutzen." Artikel 14 verlangt eine wirksame menschliche Aufsicht.

Für KI-gestützte Entscheidungsunterstützung im Vergabewesen bedeutet das konkret:

  • Jede KI-Empfehlung muss begründet und nachvollziehbar sein.
  • Nutzer müssen in der Lage sein, KI-Ergebnisse zu überprüfen und zu überstimmen.
  • Die Funktionsweise des Systems muss dokumentiert sein.
  • Protokollierung von Inputs, Outputs und Entscheidungspfaden ist erforderlich.

TenderIQ erfüllt diese Anforderungen by design — nicht als nachträgliches Compliance-Feature, sondern als Kernarchitekturprinzip.

Risikoklassifizierung und Compliance-Dokumentation

Der EU AI Act definiert vier Risikoklassen: minimal, begrenzt, hoch und inakzeptabel. KI-gestützte Scoring-Systeme im Vergabewesen fallen typischerweise in die Kategorie „begrenztes Risiko" — sofern sie keine automatisierten Entscheidungen ohne menschliche Überprüfung treffen. TenderIQ positioniert sich bewusst als Entscheidungsunterstützung, nicht als Entscheidungsautomation.

Die Compliance-Dokumentation umfasst:

  • Technische Dokumentation: Beschreibung der Systemarchitektur, der verwendeten Modelle und der Datenverarbeitung.
  • Risikobewertung: Analyse potenzieller Bias-Quellen und Mitigationsmaßnahmen.
  • Audit-Trail: Vollständige Protokollierung aller Scoring-Vorgänge mit Quellenbelegen, abrufbar für interne und externe Prüfungen.
  • Human-Oversight-Dokumentation: Nachweis, dass alle finalen Entscheidungen von Menschen getroffen werden.

Die LLM-Abstraktionsschicht: Zukunftssicherheit durch Modellunabhängigkeit

Ein technisches Differenzierungsmerkmal von TenderIQ ist die LLM-Abstraktionsschicht. Das System ist nicht an ein einzelnes Sprachmodell gebunden, sondern kann verschiedene LLMs für verschiedene Aufgaben einsetzen:

  • Dokumentenanalyse: Modelle mit großem Kontextfenster für die Verarbeitung umfangreicher Vergabeunterlagen.
  • Scoring-Synthese: Hochpräzise Modelle für die Bewertungslogik mit Quellenreferenzierung.
  • Zusammenfassung: Effiziente Modelle für die Erstellung von Management Summaries.

Diese Architektur bietet zwei entscheidende Vorteile: Erstens kann das System bei jedem Modellwechsel (neue Version, besseres Preis-Leistungs-Verhältnis) ohne Umbau umgestellt werden. Zweitens können Kunden mit Souveränitätsanforderungen lokale Modelle einsetzen, ohne die Scoring-Logik zu verändern.

Modell-Agnostische Scoring-Logik in der Praxis

Die LLM-Abstraktionsschicht ist kein theoretisches Konstrukt. In der Praxis bedeutet sie: TenderIQ-Kunden können zwischen Cloud-LLMs (OpenAI, Anthropic, Google) und Self-hosted-Modellen (Llama, Mistral) wählen — oder beides kombinieren. Die Scoring-Logik, die Quellenreferenzierung und das Konfidenz-Tracking funktionieren identisch, unabhängig vom Modell.

Für CIOs mit Datenschutzanforderungen ist das entscheidend: Vergabeunterlagen enthalten oft vertrauliche Informationen über Budgets, Zeitpläne und interne Anforderungen des Auftraggebers. Mit einem Self-hosted LLM verlassen diese Daten nie die eigene Infrastruktur — bei identischer Scoring-Qualität.

„Transparenz ist kein Feature — es ist die Voraussetzung dafür, dass KI-Entscheidungsunterstützung im Enterprise-Kontext überhaupt eingesetzt werden kann. Ohne Nachvollziehbarkeit gibt es kein Vertrauen, und ohne Vertrauen gibt es keine Adoption."

Konfidenz-Tracking in der Praxis

Nicht jede Bewertung ist gleich sicher. TenderIQ unterscheidet drei Konfidenzstufen:

Konfidenzstufe Bedeutung Beispiel
Hoch (≥ 0.85) Direkte Textstelle in Vergabeunterlagen und Unternehmensprofil „Mindestens 5 Referenzen in der Cloud-Migration" → Profil enthält 8 dokumentierte Referenzen
Mittel (0.5-0.84) Semantische Übereinstimmung, aber keine exakte Textpassage Ausschreibung fordert „Erfahrung mit öffentlichen Auftraggebern" → Profil enthält Referenzen mit Kommunen
Niedrig (< 0.5) Inferenz oder fehlende Datengrundlage Keine Aussage zu geforderten Zertifizierungen im Profil gefunden

Diese Differenzierung ist entscheidend für die praktische Nutzung: Ein Gesamtscore von 72 mit hoher Konfidenz ist eine solidere Entscheidungsgrundlage als ein Score von 85 mit niedriger Konfidenz. Bid Manager können gezielt die Bereiche mit niedriger Konfidenz überprüfen und ergänzen — statt den gesamten Score in Frage zu stellen.

Automatische Handlungsempfehlungen aus dem Konfidenz-Profil

TenderIQ nutzt das Konfidenz-Profil nicht nur zur Anzeige, sondern leitet daraus konkrete Handlungsempfehlungen ab:

  • Hohe Konfidenz, hoher Score: „Starker Match — priorisieren Sie diese Ausschreibung für eine detaillierte Prüfung."
  • Hohe Konfidenz, niedriger Score: „Geringe Passung — investieren Sie Ihre Ressourcen in besser passende Ausschreibungen."
  • Niedrige Konfidenz, hoher Score: „Potenziell relevant, aber Datenlücken im Profil. Ergänzen Sie Referenzen zu [Kompetenzfeld X] für eine verlässlichere Bewertung."
  • Niedrige Konfidenz, niedriger Score: „Unzureichende Datenbasis für eine Bewertung. Prüfen Sie manuell, ob relevante Kompetenzen nicht im Profil erfasst sind."

Diese Empfehlungen verwandeln das Scoring von einem passiven Bewertungstool in einen aktiven Entscheidungsassistenten. Bid Manager wissen nicht nur, was der Score ist — sie wissen, was sie als Nächstes tun sollten.

Implementierungsstrategie: Von der Evaluierung zum Rollout

Die Einführung von quellenbasiertem KI-Scoring folgt einem bewährten 3-Phasen-Modell:

Phase 1: Proof of Value (2-4 Wochen)

Laden Sie 10-15 abgeschlossene Vergabeverfahren in TenderIQ — sowohl gewonnene als auch verlorene. Vergleichen Sie die KI-Bewertung mit dem tatsächlichen Ergebnis. Prüfen Sie: Hätte das System die richtigen Go/No-Go-Empfehlungen gegeben? Sind die Quellenbelege nachvollziehbar? Stimmen die Konfidenz-Einschätzungen?

Phase 2: Parallelbetrieb (4-8 Wochen)

Setzen Sie TenderIQ parallel zum bestehenden Prozess ein. Bid Manager bewerten Ausschreibungen weiterhin manuell, erhalten aber zusätzlich den KI-Score mit Quellenbelegen. Messen Sie: Wie oft stimmen manuelle und KI-Bewertung überein? Wo weichen sie ab? Führen die KI-Scores zu besseren Entscheidungen?

Phase 3: Integration (fortlaufend)

Nach validierter Qualität wird TenderIQ zum primären Screening-Tool. Manuelle Reviews fokussieren sich auf die Fälle, bei denen die Konfidenz niedrig ist oder die strategische Relevanz eine vertiefte Prüfung erfordert. Das spart 60-70% der bisherigen Screening-Zeit.

„Die beste KI-Implementierung ist die, bei der das Team nach 8 Wochen sagt: Wir können uns nicht mehr vorstellen, ohne dieses Tool zu arbeiten. Quellenbasiertes Scoring erreicht diesen Punkt, weil es Vertrauen aufbaut — Score für Score, Quelle für Quelle."

Fazit: Transparenz als Wettbewerbsvorteil

Quellenbasiertes KI-Scoring ist nicht nur eine regulatorische Notwendigkeit — es ist ein operativer Vorteil. Teams, die nachvollziehen können, warum eine Ausschreibung hoch bewertet wurde, treffen bessere Go/No-Go-Entscheidungen. Teams, die sehen, wo die Konfidenz niedrig ist, können gezielt nacharbeiten. Und Unternehmen, die ihre KI-Entscheidungen dokumentieren können, sind auf den EU AI Act vorbereitet, bevor er greift.

Die Wahl zwischen Black-Box und Explainable AI ist keine technische Detailfrage — sie ist eine Grundsatzentscheidung über die Art, wie Ihr Unternehmen Künstliche Intelligenz einsetzt. Quellenbasiertes Scoring macht KI nicht nur besser — es macht KI nutzbar. Und das ist der entscheidende Unterschied zwischen einer Technologie-Investition und einem Technologie-Experiment.

Fachbegriffe in diesem Artikel

LLM

Large Language Model — großes Sprachmodell wie GPT-4, Claude oder Llama, das natürliche Sprache versteht und generiert. Basis für moderne KI-Anwendungen.

RAG

Retrieval-Augmented Generation — KI-Architektur, die LLMs mit abgerufenen Dokumenten anreichert, um faktisch korrekte und quellenbasierte Antworten zu erzeugen.

Qdrant

Open-Source-Vektordatenbank für hochperformante Ähnlichkeitssuche. Speichert Embeddings und ermöglicht Sub-Millisekunden-Abfragen auf Millionen von Vektoren.

Vektordatenbank

Spezialisierte Datenbank zur Speicherung und Abfrage von Vektoren (Embeddings). Ermöglicht semantische Ähnlichkeitssuche statt klassischer Keyword-Suche.

Konfidenz-Tracking

Systematische Erfassung und Dokumentation der Zuverlässigkeit einzelner KI-Bewertungen. Unterscheidet zwischen Aussagen mit hoher, mittlerer und niedriger Sicherheit.

EU AI Act

Verordnung der EU zur Regulierung von Künstlicher Intelligenz. Definiert Risikoklassen, Transparenzpflichten und Konformitätsanforderungen für KI-Systeme.

Embedding

Numerische Repräsentation von Text als Vektor im hochdimensionalen Raum. Ermöglicht Maschinen, semantische Ähnlichkeiten zwischen Texten zu berechnen.

Explainable AI

KI-Systeme, deren Entscheidungen für Menschen nachvollziehbar und überprüfbar sind — im Gegensatz zu Black-Box-Modellen ohne Erklärbarkeit.

KI-Scoring, dem Sie vertrauen können

Erleben Sie, wie TenderIQ jede Bewertung mit konkreten Quellenbelegen untermauert — transparent, nachvollziehbar und EU AI Act-konform.