Anwenderdokumentation: KI-Agent Umfrage-System MVP#

1. Einsatzzweck#

Das KI-Agent Umfrage-System ist ein intelligentes Werkzeug zur Durchführung und Auswertung von offenen Umfragen. Es erkennt automatisch vage oder unspezifische Antworten und stellt gezielte Nachfragen, um qualitativ hochwertige, strukturierte Daten für statistische Analysen zu erhalten.

Grundprinzip: Das System bewertet jede Antwort anhand eines Clarity Scores (0 bis 1) und entscheidet selbstständig, ob eine Nachfrage erforderlich ist. Alle Antworten werden für automatisches Clustering aufbereitet und können nachverfolgt werden – von der ursprünglichen vagen Antwort bis zur finalen strukturierten Form.

2. Funktionsumfang#

Kernfunktionen#

Intelligente Antwortbewertung: Automatische Bewertung der Antwortklarheit mit konfigurierbaren Schwellwerten (Standard: 0.7)
Adaptive Nachfragen: Generierung kontextspezifischer Nachfragen bei unklaren Antworten
Antwortstrukturierung: Aufbereitung finaler Antworten mit Kategorisierung und Clustering-Eignung
Live-Tracking: Visualisierung der Antwortentwicklung von ursprünglich bis strukturiert
Session-Verwaltung: Vollständiges Management von Umfrage-Durchläufen mit Historie
Performance-Monitoring: Detaillierte Erfassung von Verarbeitungszeiten und System-Health

Betriebsmodi#

Produktiv-Modus: Verbindung zu echten LLM-APIs (z.B. Mistral, OpenAI-kompatibel)
Mock-Modus: Simulation für Tests ohne LLM-Verbindung

Benutzeroberfläche#

Das System bietet sechs spezialisierte Tabs:

Experimentier-Playground: Interaktiver Chat für Echtzeit-Tests mit Live-Feedback
Prompt-Engineering: Bearbeitung und Optimierung der LLM-Prompt-Templates
Batch-Testing: Systematisches Testen mit CSV-Testdaten
Fragen-Editor: Verwaltung der Testfragen und Hilfetexte
Session-Demo: End-to-End-Demonstration für Stakeholder
Performance-Tab: Live-Monitoring der System-Performance

3. Bedienung#

Arbeiten mit dem Experimentier-Playground#

Parameter einstellen:
- Clarity Threshold: Schwellwert für Nachfragen (0.0–1.0, Standard: 0.7)
- Max Followups: Maximale Anzahl Nachfragen (1–3, Standard: 1)
- Temperature: LLM-Kreativität (0.0–1.0, Standard: 0.1)
Chat-Session starten:
- Frage eingeben oder vorgegebene Testfrage verwenden
- “Chat starten” klicken
Antworten eingeben:
- Eigene Antworten im Textfeld eingeben
- Alternativ: Schnell-Test-Buttons nutzen (“Cloud”, “Office 365”, etc.)
- Mit “Senden” oder Enter-Taste absenden
Ergebnisse beobachten:
- Chat-Verlauf zeigt Fragen und Nachfragen
- Live-Ergebnisse zeigen Bewertungsdetails
- Finale Antwort-Display zeigt Strukturierung in Echtzeit

Batch-Testing durchführen#

Testdaten vorbereiten im CSV-Format:

question,answer,expected_followup
"Cloud-Technologien?","Cloud",true
"Cloud-Technologien?","Office 365",false

Testdaten einfügen in das Eingabefeld
“Batch-Test starten” klicken
Ergebnisse analysieren:
- Zusammenfassung zeigt Erfolgsrate und Metriken
- Detailtabelle listet jeden einzelnen Test
- Symbole: ✅ (erfolgreich), ⏰ (Timeout), ❌ (Fehler)

Session-Demo#

“Demo starten” im Session-Demo Tab
Fragen nacheinander beantworten:
- System präsentiert automatisch die nächste Frage
- Probieren Sie vage (“Cloud”) und spezifische Antworten aus
- Beobachten Sie Live-Bewertungen
Ergebnisse auswerten:
- Finale Antworten-Übersicht zeigt alle strukturierten Antworten
- Demo-Statistiken zeigen Gesamt-Performance
- System-Empfehlung bewertet Produktionsreife

Wichtige Hinweise#

Maximale Nachfragen: Das System respektiert die konfigurierten Max Followups und bricht danach ab
Timeout-Werte: LLM-Anfragen haben 15s Timeout für Bewertungen, 10s für Nachfragen
Performance-Daten: Werden automatisch nach 30 Minuten gelöscht
CSV-Format: Header-Zeile erforderlich, mindestens 3 Spalten

4. Anwendungsbeispiel#

Szenario: IT-Infrastruktur-Umfrage#

Ausgangssituation: Sie möchten verstehen, welche Cloud-Dienste in Ihrer Organisation genutzt werden. Die Umfrage enthält die Frage: “Welche Cloud-Technologien setzen Sie hauptsächlich ein?”

Durchführung:

System startet Chat mit der Frage
Teilnehmer antwortet: “Cloud”

Agent-Bewertung:

Clarity Score: 0.30
Needs Followup: Ja
Problem Areas: vague_terminology, missing_specificity

Agent-Nachfrage: “Welche konkreten Cloud-Services meinen Sie? Beispielsweise Office 365, AWS S3, Google Workspace oder Azure?”

Teilnehmer antwortet: “Office 365 für E-Mails und OneDrive für Dokumente”

Agent-Bewertung:

Clarity Score: 0.92
Needs Followup: Nein
✅ Antwort akzeptiert

Finale strukturierte Antwort:

Original: "Cloud"
Nach Nachfrage: "Office 365 für E-Mails und OneDrive für Dokumente"
Strukturiert: "Microsoft Cloud-Services (Office 365 für E-Mail, OneDrive für Dateispeicher)"
Kategorie: Microsoft Services
Konfidenz: 0.92
Clustering-Qualität: Hoch

Ergebnis: Die ursprünglich unbrauchbare Antwort “Cloud” wurde durch intelligente Nachfrage in eine präzise, clusterfähige Antwort transformiert.

5. Empfehlungen für die effiziente Nutzung#

Best Practices#

Clarity Threshold optimal einstellen: Wert zwischen 0.6 und 0.8 für Balance zwischen Nachfragen und Akzeptanz
Mock-Modus für Entwicklung: Nutzen Sie Mock-Modus für schnelle Iterationen und Tests
Batch-Tests vor Produktiveinsatz: Validieren Sie Ihre Prompts mit repräsentativen Testdaten
Performance-Monitoring aktivieren: Beobachten Sie regelmäßig die LLM-Antwortzeiten
Prompt-Templates anpassen: Passen Sie die Prompts an Ihre spezifische Domäne an
Max Followups limitieren: Halten Sie die Anzahl bei 1–2 für bessere Teilnehmererfahrung
Session-Demo nutzen: Zeigen Sie Stakeholdern die Live-Funktionalität
Testfragen sorgfältig formulieren: Erstellen Sie Fragen, die verschiedene Antworttypen provozieren

Tipps für optimale Ergebnisse#

Fragestellung: Formulieren Sie Fragen offen genug für verschiedene Antworttypen
Hilfetexte: Definieren Sie klare Beispiele in den Fragen-Editor
Kategorien: Nutzen Sie die Kategorie-Vorschläge für späteres Clustering
Verlaufs-Analyse: Prüfen Sie die Antwortentwicklung im Live-Display
Regelmäßige Updates: Aktualisieren Sie Prompts basierend auf Batch-Test-Ergebnissen

6. Systemgrenzen#

Funktionale Einschränkungen#

Keine semantische Tiefenanalyse: Das System bewertet primär Spezifität, nicht inhaltliche Korrektheit
Begrenzte Nachfragen: Maximale Anzahl konfigurierbar, aber praktisch auf 1–3 limitiert
Keine Mehrsprachigkeit: System ist auf deutschsprachige Antworten optimiert
Keine Audio/Video-Verarbeitung: Nur textbasierte Eingaben werden unterstützt
Keine automatische Antwortvalidierung: System prüft nicht Wahrheitsgehalt oder Plausibilität

Technische Limitierungen#

LLM-Abhängigkeit: Qualität der Ergebnisse hängt vom verwendeten LLM-Modell ab
Verarbeitungszeiten: Durchschnittlich 2–5 Sekunden pro Antwortbewertung
Token-Limits: Max. 500 Token für LLM-Antworten (konfigurierbar)
Timeout-Schwellwerte: 15s für Bewertungen, 10s für Nachfragen, 10s für Strukturierung
Concurrency: Ein Request zur Zeit pro Session
Speicher: Performance-Daten werden nach 30 Minuten automatisch gelöscht

Kontextuelle Einschränkungen#

Mock-Modus: Simuliert nur Grundverhalten, keine echte Intelligenz
Clustering-Vorschläge: Sind Hinweise, keine garantierten Klassifikationen
Konfidenz-Werte: Basieren auf heuristischen Bewertungen, nicht auf statistischer Validierung