Anwenderdokumentation: KI-Agent Umfrage-System MVP#

1. Einsatzzweck#

Das KI-Agent Umfrage-System ist ein intelligentes Werkzeug zur Durchführung und Auswertung von offenen Umfragen. Es erkennt automatisch vage oder unspezifische Antworten und stellt gezielte Nachfragen, um qualitativ hochwertige, strukturierte Daten für statistische Analysen zu erhalten.

Grundprinzip: Das System bewertet jede Antwort anhand eines Clarity Scores (0 bis 1) und entscheidet selbstständig, ob eine Nachfrage erforderlich ist. Alle Antworten werden für automatisches Clustering aufbereitet und können nachverfolgt werden – von der ursprünglichen vagen Antwort bis zur finalen strukturierten Form.

2. Funktionsumfang#

Kernfunktionen#

  • Intelligente Antwortbewertung: Automatische Bewertung der Antwortklarheit mit konfigurierbaren Schwellwerten (Standard: 0.7)
  • Adaptive Nachfragen: Generierung kontextspezifischer Nachfragen bei unklaren Antworten
  • Antwortstrukturierung: Aufbereitung finaler Antworten mit Kategorisierung und Clustering-Eignung
  • Live-Tracking: Visualisierung der Antwortentwicklung von ursprünglich bis strukturiert
  • Session-Verwaltung: Vollständiges Management von Umfrage-Durchläufen mit Historie
  • Performance-Monitoring: Detaillierte Erfassung von Verarbeitungszeiten und System-Health

Betriebsmodi#

  • Produktiv-Modus: Verbindung zu echten LLM-APIs (z.B. Mistral, OpenAI-kompatibel)
  • Mock-Modus: Simulation für Tests ohne LLM-Verbindung

Benutzeroberfläche#

Das System bietet sechs spezialisierte Tabs:

  • Experimentier-Playground: Interaktiver Chat für Echtzeit-Tests mit Live-Feedback
  • Prompt-Engineering: Bearbeitung und Optimierung der LLM-Prompt-Templates
  • Batch-Testing: Systematisches Testen mit CSV-Testdaten
  • Fragen-Editor: Verwaltung der Testfragen und Hilfetexte
  • Session-Demo: End-to-End-Demonstration für Stakeholder
  • Performance-Tab: Live-Monitoring der System-Performance

3. Bedienung#

Arbeiten mit dem Experimentier-Playground#

  1. Parameter einstellen:

    • Clarity Threshold: Schwellwert für Nachfragen (0.0–1.0, Standard: 0.7)
    • Max Followups: Maximale Anzahl Nachfragen (1–3, Standard: 1)
    • Temperature: LLM-Kreativität (0.0–1.0, Standard: 0.1)
  2. Chat-Session starten:

    • Frage eingeben oder vorgegebene Testfrage verwenden
    • “Chat starten” klicken
  3. Antworten eingeben:

    • Eigene Antworten im Textfeld eingeben
    • Alternativ: Schnell-Test-Buttons nutzen (“Cloud”, “Office 365”, etc.)
    • Mit “Senden” oder Enter-Taste absenden
  4. Ergebnisse beobachten:

    • Chat-Verlauf zeigt Fragen und Nachfragen
    • Live-Ergebnisse zeigen Bewertungsdetails
    • Finale Antwort-Display zeigt Strukturierung in Echtzeit

Batch-Testing durchführen#

  1. Testdaten vorbereiten im CSV-Format:

    question,answer,expected_followup
    "Cloud-Technologien?","Cloud",true
    "Cloud-Technologien?","Office 365",false
  2. Testdaten einfügen in das Eingabefeld

  3. “Batch-Test starten” klicken

  4. Ergebnisse analysieren:

    • Zusammenfassung zeigt Erfolgsrate und Metriken
    • Detailtabelle listet jeden einzelnen Test
    • Symbole: ✅ (erfolgreich), ⏰ (Timeout), ❌ (Fehler)

Session-Demo#

  1. “Demo starten” im Session-Demo Tab

  2. Fragen nacheinander beantworten:

    • System präsentiert automatisch die nächste Frage
    • Probieren Sie vage (“Cloud”) und spezifische Antworten aus
    • Beobachten Sie Live-Bewertungen
  3. Ergebnisse auswerten:

    • Finale Antworten-Übersicht zeigt alle strukturierten Antworten
    • Demo-Statistiken zeigen Gesamt-Performance
    • System-Empfehlung bewertet Produktionsreife

Wichtige Hinweise#

  • Maximale Nachfragen: Das System respektiert die konfigurierten Max Followups und bricht danach ab
  • Timeout-Werte: LLM-Anfragen haben 15s Timeout für Bewertungen, 10s für Nachfragen
  • Performance-Daten: Werden automatisch nach 30 Minuten gelöscht
  • CSV-Format: Header-Zeile erforderlich, mindestens 3 Spalten

4. Anwendungsbeispiel#

Szenario: IT-Infrastruktur-Umfrage#

Ausgangssituation: Sie möchten verstehen, welche Cloud-Dienste in Ihrer Organisation genutzt werden. Die Umfrage enthält die Frage: “Welche Cloud-Technologien setzen Sie hauptsächlich ein?”

Durchführung:

  1. System startet Chat mit der Frage
  2. Teilnehmer antwortet: “Cloud”

Agent-Bewertung:

Clarity Score: 0.30
Needs Followup: Ja
Problem Areas: vague_terminology, missing_specificity

Agent-Nachfrage: “Welche konkreten Cloud-Services meinen Sie? Beispielsweise Office 365, AWS S3, Google Workspace oder Azure?”

  1. Teilnehmer antwortet: “Office 365 für E-Mails und OneDrive für Dokumente”

Agent-Bewertung:

Clarity Score: 0.92
Needs Followup: Nein
✅ Antwort akzeptiert

Finale strukturierte Antwort:

Original: "Cloud"
Nach Nachfrage: "Office 365 für E-Mails und OneDrive für Dokumente"
Strukturiert: "Microsoft Cloud-Services (Office 365 für E-Mail, OneDrive für Dateispeicher)"
Kategorie: Microsoft Services
Konfidenz: 0.92
Clustering-Qualität: Hoch

Ergebnis: Die ursprünglich unbrauchbare Antwort “Cloud” wurde durch intelligente Nachfrage in eine präzise, clusterfähige Antwort transformiert.

5. Empfehlungen für die effiziente Nutzung#

Best Practices#

  • Clarity Threshold optimal einstellen: Wert zwischen 0.6 und 0.8 für Balance zwischen Nachfragen und Akzeptanz
  • Mock-Modus für Entwicklung: Nutzen Sie Mock-Modus für schnelle Iterationen und Tests
  • Batch-Tests vor Produktiveinsatz: Validieren Sie Ihre Prompts mit repräsentativen Testdaten
  • Performance-Monitoring aktivieren: Beobachten Sie regelmäßig die LLM-Antwortzeiten
  • Prompt-Templates anpassen: Passen Sie die Prompts an Ihre spezifische Domäne an
  • Max Followups limitieren: Halten Sie die Anzahl bei 1–2 für bessere Teilnehmererfahrung
  • Session-Demo nutzen: Zeigen Sie Stakeholdern die Live-Funktionalität
  • Testfragen sorgfältig formulieren: Erstellen Sie Fragen, die verschiedene Antworttypen provozieren

Tipps für optimale Ergebnisse#

  • Fragestellung: Formulieren Sie Fragen offen genug für verschiedene Antworttypen
  • Hilfetexte: Definieren Sie klare Beispiele in den Fragen-Editor
  • Kategorien: Nutzen Sie die Kategorie-Vorschläge für späteres Clustering
  • Verlaufs-Analyse: Prüfen Sie die Antwortentwicklung im Live-Display
  • Regelmäßige Updates: Aktualisieren Sie Prompts basierend auf Batch-Test-Ergebnissen

6. Systemgrenzen#

Funktionale Einschränkungen#

  • Keine semantische Tiefenanalyse: Das System bewertet primär Spezifität, nicht inhaltliche Korrektheit
  • Begrenzte Nachfragen: Maximale Anzahl konfigurierbar, aber praktisch auf 1–3 limitiert
  • Keine Mehrsprachigkeit: System ist auf deutschsprachige Antworten optimiert
  • Keine Audio/Video-Verarbeitung: Nur textbasierte Eingaben werden unterstützt
  • Keine automatische Antwortvalidierung: System prüft nicht Wahrheitsgehalt oder Plausibilität

Technische Limitierungen#

  • LLM-Abhängigkeit: Qualität der Ergebnisse hängt vom verwendeten LLM-Modell ab
  • Verarbeitungszeiten: Durchschnittlich 2–5 Sekunden pro Antwortbewertung
  • Token-Limits: Max. 500 Token für LLM-Antworten (konfigurierbar)
  • Timeout-Schwellwerte: 15s für Bewertungen, 10s für Nachfragen, 10s für Strukturierung
  • Concurrency: Ein Request zur Zeit pro Session
  • Speicher: Performance-Daten werden nach 30 Minuten automatisch gelöscht

Kontextuelle Einschränkungen#

  • Mock-Modus: Simuliert nur Grundverhalten, keine echte Intelligenz
  • Clustering-Vorschläge: Sind Hinweise, keine garantierten Klassifikationen
  • Konfidenz-Werte: Basieren auf heuristischen Bewertungen, nicht auf statistischer Validierung