Tendit Logo
Zurück zum Blog
Praxistipps

ChatGPT vs. Claude vs. Gemini vs. Tendit: KI-Tools für Ausschreibungen (2026)

Bruno Polster·23. April 2026·11 Min. Lesezeit
ChatGPT vs. Claude vs. Gemini vs. Tendit: KI-Tools für Ausschreibungen (2026)

Letzte Aktualisierung: April 2026 | Lesezeit: ca. 12 Min.

Generische Sprachmodelle wie ChatGPT, Claude und Gemini sind in vielen IT-Teams längst Standard — und werden auch für öffentliche Ausschreibungen genutzt. Aber wie gut eignen sie sich für deutsche Vergabeunterlagen, und wann lohnt sich ein spezialisierter Agent? Dieser Artikel ordnet die vier Tools anhand typischer Einsatzszenarien ein — mit dokumentierten Prompts, qualitativer Stärken-Schwächen-Analyse und klaren Empfehlungen pro Use Case.

Auf einen Blick

  • 4 Tools im Vergleich: ChatGPT, Claude, Gemini, Tendit
  • 3 typische Einsatzszenarien: Eignungskriterien-Extraktion, Red-Flag-Analyse, Executive Summary
  • Alle Prompts dokumentiert und reproduzierbar
  • Qualitative Stärken-Schwächen-Analyse statt Fantasiezahlen-Benchmarks
  • Transparenzhinweis: Tendit ist unser eigenes Produkt — die Einschätzung ist ehrlich, inklusive Schwächen
  • Klare Empfehlungen pro Use Case und Einsatzkontext

Warum dieser Vergleich nötig ist

Sprachmodelle haben die Angebotsarbeit in den letzten zwei Jahren verändert. Wo früher stundenlanges Durchlesen von Leistungsverzeichnissen stand, nutzen IT-Dienstleister heute ChatGPT oder Claude für Zusammenfassungen, Strukturanalysen und Checklisten. Die Frage ist nicht mehr, ob KI in der Bid-Arbeit hilft, sondern welches Tool für welche Aufgabe.

Generische LLMs haben einen fundamentalen Vorteil: Sie sind verfügbar, günstig und vielseitig. Der Nachteil: Sie sind nicht auf deutsches Vergaberecht trainiert. Eine Ausschreibung, die EVB-IT-Klauseln, Verweise auf § 122 GWB und BSI-Grundschutz-Anforderungen mischt, bringt generische Modelle an Grenzen. Hier kommen spezialisierte Agenten ins Spiel — Tools, die auf Vergabedomäne zugeschnitten sind.

Dieser Artikel fokussiert auf drei typische Use Cases im Bid-Management-Alltag und ordnet ein, welches Tool für welchen Zweck passt. Es handelt sich um keinen numerischen Benchmark — für reproduzierbare Zahlen bräuchte es eine definierte Test-Ausschreibung und eine standardisierte Bewertungsmethodik, die wir separat aufbauen und in Q3 2026 erstmals veröffentlichen.


Was generische KI-Tools strukturell limitiert

Bevor wir zu den Einsatzszenarien kommen, vier strukturelle Punkte, die jedes LLM im Vergabekontext betreffen.

Halluzinations-Risiko bei juristischen Details. Wenn Sie ChatGPT nach "§ 122 GWB" fragen, bekommen Sie eine meist korrekte Definition. Wenn Sie nach "§ 122 Abs. 4 Satz 3 GWB" fragen, wird es riskant — generische Modelle erfinden gelegentlich Paragraphen oder vermischen Vorschriften aus verschiedenen Rechtsgebieten. Für die Angebotsarbeit ist das gefährlich.

Vergaberechtliches Fachvokabular. Begriffe wie "Eignungsleihe", "Präqualifizierung nach PQ-VOB", "UVgO-Abruf" oder "RFI-Phase" haben im deutschen Vergaberecht präzise Bedeutungen. Generische LLMs kennen die Begriffe oft, aber nicht immer in der deutschen Rechtslage-Variante. Englische Training-Daten dominieren — was zu subtilen Fehlinterpretationen führt.

Kein natives Monitoring. LLMs analysieren Dokumente, die Sie ihnen geben. Sie finden keine Ausschreibungen, sie aggregieren keine Portale, sie erkennen keine neuen Vergabebekanntmachungen. Für den Monitoring-Teil des Bid Managements sind sie nicht gemacht — dafür braucht es spezialisierte Plattformen.

Datenschutz bei Vergabeunterlagen. Auch öffentlich ausgeschriebene Dokumente können interne Zusatzinformationen enthalten. Kommentare von Kolleg:innen, interne Kalkulationen, Strategieüberlegungen. Wer ein Dokument an OpenAI, Anthropic oder Google hochlädt, muss die Datenschutz-Implikationen verstehen.


Drei typische Einsatzszenarien

Infographic

In der Bid-Arbeit wiederholen sich drei Aufgaben, die sich gut für KI-Unterstützung eignen. Für jeden Use Case liefern wir den getesteten Prompt und eine qualitative Einordnung der Tool-Eignung.

Use Case 1: Eignungskriterien-Extraktion

Aufgabe: Aus dem Leistungsverzeichnis alle Mindest-Eignungskriterien herausziehen und tabellarisch darstellen.

Prompt:

"Analysiere das folgende öffentliche Vergabeverfahren und extrahiere alle Mindest-Eignungskriterien. Gib die Antwort als Tabelle mit den Spalten: Kriterium, Nachweisanforderung, Verweis auf Anhang/Abschnitt. Markiere Kriterien, die nur mit zusätzlichen Zertifizierungen erfüllbar sind."

Use Case 2: Red-Flag-Analyse

Aufgabe: Die Ausschreibung auf Anzeichen prüfen, die auf eine möglicherweise vorfestgelegte Vergabe hindeuten könnten (siehe Zugeschnittene Ausschreibungen erkennen).

Prompt:

"Prüfe die folgende Ausschreibung auf Anzeichen, dass sie möglicherweise auf einen bestimmten Bieter zugeschnitten ist. Nenne konkrete Textstellen mit Seitenzahl und Absatz und bewerte jeweils die Wahrscheinlichkeit der Zielgerichtetheit mit einer Skala (niedrig, mittel, hoch). Erkläre Dein Urteil."

Use Case 3: Executive Summary

Aufgabe: Eine Kurzfassung für die Geschäftsführung erstellen, die Grundlage einer Go/No-Go-Entscheidung werden kann.

Prompt:

"Erstelle eine Executive Summary von maximal 300 Wörtern für die Go/No-Go-Entscheidung der Geschäftsführung. Struktur: Was wird ausgeschrieben, wer schreibt aus, welche Mindest-Eignung, geschätzte Komplexität, erkannte Risiken, konkrete Handlungsempfehlung."


Qualitative Einordnung pro Tool

ChatGPT (OpenAI)

Stärken: Sehr gute sprachliche Qualität, zuverlässig bei strukturierten Extraktionen in Tabellenform, saubere Executive Summaries. Der Stil trifft den Ton für Geschäftsführungs-Vorlagen gut.

Schwächen: Bei juristischen Details kann es zu Halluzinationen kommen — insbesondere bei spezifischen Absätzen oder Querverweisen zwischen VgV, UVgO und GWB. Bei sehr langen Dokumenten überspringt das Modell gelegentlich Abschnitte oder bezieht sich inhaltlich fälschlich aufeinander.

Sinnvoller Einsatz: Zusammenfassungen, Textentwürfe, Struktur-Vorlagen. Für juristisch kritische Aussagen immer fachlich validieren.

Preis: ChatGPT Plus ab ca. 20 EUR/Monat, Enterprise-Tarife auf Anfrage.

Claude (Anthropic)

Stärken: In der Praxis oft die präziseste Arbeit unter den generischen LLMs bei deutschen Vergabeunterlagen. Lange Kontextfenster erlauben das Hochladen umfangreicher Leistungsverzeichnisse am Stück. Formulierungen sind konservativ-vorsichtig, was bei juristischer Nähe hilfreich ist.

Schwächen: Die Vorsicht kann kippen in Zurückhaltung — bei Red-Flag-Analysen relativiert Claude manchmal stärker als nötig. Für pointierte Schlussfolgerungen braucht es explizite Prompt-Vorgaben.

Sinnvoller Einsatz: Präzise Kriterien-Extraktion, juristische Formulierungen, lange Dokumente. Bester Allrounder unter den generischen LLMs.

Preis: Claude Pro ab ca. 20 EUR/Monat, Enterprise-Tarife auf Anfrage.

Gemini (Google)

Stärken: Das größte Kontextfenster unter den Tools. Gut für sehr umfangreiche Leistungsverzeichnisse mit mehreren Anlagen. Solide bei Zusammenfassungen und stilistischer Aufbereitung.

Schwächen: Bei deutschem Vergabe-Fachvokabular etwas ungenauer als Claude. Paragraphen-Zitate müssen doppelt geprüft werden — Halluzinations-Risiko hier erhöht gegenüber Claude und ChatGPT.

Sinnvoller Einsatz: Zusammenfassung sehr großer Dokumente, Brainstorming, erste Sichtung. Für juristische Präzision sekundär.

Preis: Gemini Advanced ab ca. 22 EUR/Monat, Enterprise-Tarife auf Anfrage.

Tendit (spezialisierter Agent)

Transparenzhinweis: Tendit ist unser eigenes Produkt. Wir legen die Einschätzung inklusive Schwächen offen dar.

Stärken: Nativ auf deutsches Vergaberecht und EVB-IT trainiert. Integriert mit Monitoring der relevanten Vergabeplattformen (siehe 16 Bundesländer-Portale). Gleicht extrahierte Kriterien automatisch mit einem hinterlegten Unternehmensprofil ab, was bei generischen LLMs nicht möglich ist. Deutsches Hosting, DSGVO-Fokus.

Schwächen: Kein General-Purpose-Tool — für Aufgaben jenseits des Vergabekontexts nicht gemacht. Deutlich höherer Preis als die generischen LLMs, rechnet sich erst bei systematischem Bid-Management (ab ca. 5–10 Angeboten pro Monat).

Sinnvoller Einsatz: Systematisches Bid-Management mit wiederkehrendem Volumen, integrierte Pipeline von Monitoring über Filterung bis zur Vor-Qualifizierung.

Preis: Ab ca. 300 EUR/Monat, 8 Wochen kostenlose Testphase.


Vergleichstabelle

ToolStärke bei ExtraktionStärke bei Red-Flag-AnalyseStärke bei SummaryDatenschutz (Standard-Tarif)Preis/Monat
ChatGPTGutMittelSehr gutUS-Hosting, Enterprise-Opt-out nötigab 20 EUR
ClaudeSehr gutMittel–HochSehr gutUS-Hosting (AWS), Enterprise-Opt-outab 20 EUR
GeminiGutNiedrig–MittelGutUS/EU-Hosting, Standard-Opt-outab 22 EUR
TenditSehr gut (inkl. Profil-Abgleich)Sehr hochSehr gutDeutsches Hosting, DSGVO-firstab 300 EUR

Hinweis: Die Preisangaben beziehen sich auf Standard-Abonnements (Stand April 2026). Enterprise-Lizenzen mit SSO, Audit-Logs und erweiterten Datenschutz-Zusagen kosten bei allen Anbietern deutlich mehr. Funktionsumfang und Modelle ändern sich schnell — aktuelle Informationen direkt beim Anbieter prüfen.


Wann generische LLMs reichen und wann Spezial-Tools nötig sind

Gelegentliche Nutzung (wenige Ausschreibungen pro Monat). Hier lohnt sich kein Spezial-Tool. ChatGPT oder Claude Pro decken die Anforderungen ab — für die sprachliche Aufbereitung, Summary-Erstellung und erste Analyse. Bei juristisch kritischen Fragen sollten Sie die Ergebnisse mit einer Fachperson validieren, bevor Sie sie als Grundlage für eine Entscheidung nutzen.

Systematisches Bid-Management (ab 5–10 Angeboten pro Monat). Ab diesem Volumen wird der Zeitvorteil spezialisierter Tools spürbar. Der automatische Abgleich mit dem Unternehmensprofil, die nativen Red-Flag-Algorithmen und die Integration mit Monitoring (welche Ausschreibungen kamen diese Woche rein?) sparen mehrere Stunden pro Woche. Das rechnet sich ab einem bestimmten Angebotsvolumen.

Hybride Nutzung als Optimum. Viele Teams nutzen ein spezialisiertes Tool für Filterung, Red-Flag-Prüfung und Go/No-Go-Vorschlag — und ergänzen es mit einem generischen LLM für Textentwürfe, E-Mail-Formulierungen und Brainstorming. Diese Kombination bringt das Beste aus beiden Welten und minimiert die Abhängigkeit von einem einzigen Anbieter.

Eine ausführlichere Diskussion der verschiedenen Tool-Kategorien findet sich im Artikel Ausschreibungen automatisch finden mit KI.


Datenschutz-Checkliste

Bevor Sie Vergabeunterlagen an ein KI-Tool hochladen, beantworten Sie drei Fragen.

Sind die Unterlagen wirklich öffentlich? Ausschreibungsdokumente aus dem Unterschwellenbereich sind oft nicht öffentlich im rechtlichen Sinne. Bieter erhalten sie nach Registrierung und haben meistens eine Vertraulichkeitspflicht. Das Hochladen an einen US-Anbieter kann diese Pflicht verletzen.

Welcher Plan mit welchen Garantien? OpenAI, Anthropic und Google bieten Enterprise-Pläne, die Training-Opt-out und DPA-Abschlüsse (Data Processing Agreement) inkludieren. Consumer-Pläne (ChatGPT Plus, Claude Pro, Gemini Advanced) haben nicht automatisch das gleiche Schutzniveau. Für kritische Dokumente sollten Sie auf Business- oder Enterprise-Plänen arbeiten.

Gibt es DSGVO-konforme Alternativen? Für besonders sensible Vergabeunterlagen — etwa mit Sicherheitsrelevanz (KRITIS, BSI-Grundschutz) — sind in Deutschland gehostete Lösungen die bessere Wahl. Tendit hostet in Deutschland und ist explizit auf DSGVO-Anforderungen ausgerichtet. Alternative: lokal gehostete Open-Source-LLMs, die ohne externen Service auskommen — mit dem Nachteil höherer Infrastrukturkosten und Wartungsaufwand.


Geplanter numerischer Benchmark (Q3 2026)

Dieser Artikel bewertet Tools qualitativ auf Basis typischer Einsatzszenarien. Für Q3 2026 bereiten wir einen strukturierten Benchmark vor, der folgende Elemente enthält:

  • Eine standardisierte, anonymisierte Test-Ausschreibung (35-Seiten-Leistungsverzeichnis + 3 Anlagen)
  • Dokumentierte Modell-Versionen und exakte Prompts
  • Mehrere Test-Durchläufe pro Tool für Varianz-Messung
  • Transparente Bewertungsmetriken (Vollständigkeit, juristische Korrektheit, Verwendbarkeit der Ausgabe)
  • Vergleich mit lokal betriebenen Open-Source-Alternativen

Sobald der Benchmark verfügbar ist, verlinken wir ihn hier und kündigen ihn über den Tendit-Newsletter an.


Häufig gestellte Fragen

Kann ich ChatGPT für die komplette Ausschreibungsbearbeitung nutzen?

Für Textentwürfe und Zusammenfassungen ja. Für juristische Einschätzungen und kritische Go/No-Go-Entscheidungen nicht ohne fachliche Validierung. Die Halluzinationsrate bei deutschen Vergabe-Paragraphen ist zu hoch, um sich unkontrolliert darauf zu verlassen.

Sind deutsche Vergabeunterlagen für LLMs geeignet (Sprache, Fachbegriffe)?

Claude und Gemini verarbeiten deutsche Fachtexte mittlerweile sehr ordentlich. ChatGPT ist ebenfalls gut. Spezielle Begriffe wie "Eignungsleihe" oder "UVgO-Abruf" werden teilweise generisch interpretiert — hier lohnt sich eine präzisere Prompt-Formulierung oder ein spezialisiertes Tool.

Wie groß darf das Dokument für Claude sein?

Claude bietet in Standard-Tarifen ein großes Kontextfenster (meist mehrere hunderttausend Tokens, abhängig vom Modell). Für die meisten IT-Ausschreibungen reicht das. Bei sehr umfangreichen Leistungsverzeichnissen mit vielen Anlagen lohnt sich Gemini, das noch größere Kontextfenster bietet.

Welche Tools darf ich DSGVO-konform für vertrauliche Ausschreibungsdaten nutzen?

Prüfen Sie erstens, ob die Unterlagen wirklich vertraulich sind (das ist öfter der Fall als gedacht). Prüfen Sie zweitens, ob ein passender Business- oder Enterprise-Plan mit DPA existiert. Prüfen Sie drittens, ob Ihre interne Compliance-Abteilung das Setup freigegeben hat. Für sensible Fälle sind in Deutschland gehostete Lösungen sicherer.

Wie oft kommen neue Modellversionen, die den Vergleich veralten lassen?

OpenAI, Anthropic und Google veröffentlichen neue Modellversionen in Abständen von 3 bis 9 Monaten. Qualitative Einschätzungen (wie in diesem Artikel) bleiben meist stabiler als numerische Benchmarks. Wir aktualisieren diesen Artikel quartalsweise.


Interne Querverweise

Dieser Artikel ist Teil des Clusters Ausschreibungen automatisch finden mit KI. Eng verbundene Themen:


Zusammenfassung — Die wichtigsten Erkenntnisse:

  • Generische LLMs (ChatGPT, Claude, Gemini) leisten bei sprachlicher Aufbereitung und Zusammenfassungen gute Arbeit
  • Claude ist der beste Allrounder unter den generischen Modellen für deutsche Vergabeanalyse
  • Tendit bringt spezialisiertes Vergaberecht-Training, Profil-Abgleich und Monitoring-Integration mit — zum ca. 15-fachen Preis generischer Tools
  • Datenschutz ist bei allen generischen Modellen mit Standardplänen ein relevantes Thema
  • Hybride Nutzung (Spezial-Tool für Analyse, LLM für Textarbeit) ist oft das beste Preis-Leistungs-Optimum
  • Quartalsweises Update dieses Vergleichs — strukturierter numerischer Benchmark folgt in Q3 2026

Fazit: Nicht ein Tool für alles, sondern das richtige Tool pro Aufgabe

KI-Tools haben einen festen Platz in der Bid-Arbeit, ersetzen aber keine fachliche Expertise. Ein Claude kann ein Leistungsverzeichnis strukturieren, aber die Entscheidung, ob Sie bieten sollen, bleibt menschlich. Ein Spezial-Tool wie Tendit kann Red Flags erkennen und mit Ihrem Profil abgleichen, aber die strategische Bewertung eines Angebots — passt das zu unserem Portfolio, unseren Ressourcen, unserer Positionierung? — gehört in den Kopf der Bid Manager.

Die qualitativen Unterschiede zwischen den Tools sind real. Wer gelegentlich KI-Unterstützung braucht, fährt mit Claude Pro oder ChatGPT Plus günstig und solide. Wer systematisches Bid-Management betreibt, sollte die Investition in spezialisierte Tools durchrechnen — der Zeitgewinn rechnet sich bei einem gewissen Angebotsvolumen.


Testen Sie Tendit 8 Wochen kostenlos und vergleichen Sie selbst mit Ihren aktuellen KI-Tools: usetendit.com

Verpassen Sie keine relevante IT-Ausschreibung mehr

Tendit findet automatisch die passenden öffentlichen Aufträge für Ihr Unternehmen. 8 Wochen kostenlos.

Jetzt kostenlos testen

Weitere Artikel