PROMPT-KI Anwenderdokumentation#

Einsatzzweck#

PROMPT-KI ist ein webbasiertes Informationsextraktionssystem, das strukturierte Daten automatisiert aus Webseiten gewinnt und in einheitliche Steckbriefe überführt. Das System richtet sich an Einrichtungen und Projekte, die größere Mengen an Webinhalten systematisch erfassen und aufbereiten möchten.

Das Grundprinzip basiert auf einem dreistufigen Ansatz: Zunächst definieren Sie eine Kategorie, die beschreibt, welche Art von Inhalten Sie erfassen möchten. Anschließend formulieren Sie Prompts, die der integrierten KI mitteilen, welche konkreten Informationsfelder extrahiert werden sollen. Abschließend geben Sie die zu analysierenden URLs ein. Das System crawlt die Webseiten, extrahiert die gewünschten Informationen mithilfe eines Large Language Models und generiert daraus strukturierte Steckbriefe.

Typische Anwendungsszenarien umfassen die Kartierung von Forschungsprojekten, die Erfassung von Serviceangeboten oder die systematische Dokumentation institutioneller Aktivitäten.

Funktionsumfang#

Das System bietet folgende Kernfunktionen:

  • Web-Crawling mit Multi-Page-Unterstützung: Automatisches Einlesen von Webseiten inklusive bis zu fünf verlinkter Unterseiten, um möglichst vollständige Informationen zu gewinnen.

  • Zweiphasige Informationsextraktion: Die KI extrahiert zunächst die gewünschten Informationen und validiert diese anschließend in einem separaten Schritt, um die Qualität der Ergebnisse zu sichern.

  • Prompt-basierte Konfiguration: Neue Informationsfelder lassen sich durch einfache Prompt-Definitionen hinzufügen, ohne dass Programmierarbeiten erforderlich sind.

  • Entity-Normalisierung: Das System erkennt unterschiedliche Schreibweisen derselben Entität und führt diese auf eine kanonische Form zurück.

  • Review-Warteschlange: Extraktionen mit niedriger Konfidenz werden automatisch zur manuellen Prüfung vorgemerkt.

  • Steckbrief-Generierung: Aus den extrahierten Daten werden automatisch formatierte Markdown-Steckbriefe nach konfigurierbaren Vorlagen erzeugt.

  • Statische Website-Generierung: Alle publizierten Steckbriefe können als vollständige statische Website mit Suchfunktion exportiert werden.

Bedienung#

Übersicht der Arbeitsschritte#

Der typische Arbeitsablauf gliedert sich in fünf Phasen: Kategorie anlegen, Prompts definieren, URLs crawlen, Ergebnisse prüfen und Steckbriefe publizieren.

Kategorie erstellen#

Navigieren Sie zu Admin-UI > Kategorien > Neue Kategorie. Eine Kategorie definiert den Typ der zu erfassenden Inhalte sowie das Format der resultierenden Steckbriefe.

Sie müssen folgende Felder ausfüllen:

  • Internal Name: Ein technischer Bezeichner in Kleinbuchstaben, der als eindeutiger Identifikator dient.
  • Display Name: Der Anzeigename, der in der Benutzeroberfläche erscheint.
  • Steckbrief Template: Eine Markdown-Vorlage mit Platzhaltern in der Form $feldname, die später durch die extrahierten Werte ersetzt werden.

Prompts definieren#

Navigieren Sie zu Admin-UI > Prompts > Neuer Prompt. Ein Prompt instruiert die KI, welche spezifische Information aus dem Webseitentext extrahiert werden soll.

Jeder Prompt erfordert:

  • Internal Name: Muss exakt mit dem entsprechenden Platzhalter im Steckbrief-Template übereinstimmen.
  • Display Name: Beschreibender Name für die Benutzeroberfläche.
  • Extract Prompt: Die Anweisung an die KI für die Extraktion.
  • Validate Prompt: Die Anweisung an die KI für die Qualitätsprüfung.
  • Field Group: Ordnet den Prompt einer thematischen Gruppe zu.
  • Required Confidence: Der Mindestkonfidenzwert, ab dem eine Extraktion als ausreichend gilt.

Ordnen Sie die erstellten Prompts anschließend über Admin-UI > Kategorien > [Kategorie] > Prompts verwalten der entsprechenden Kategorie zu.

URLs crawlen#

Navigieren Sie zu Admin-UI > Sources > Neue Source. Geben Sie die URL der zu analysierenden Webseite ein, wählen Sie die passende Kategorie und aktivieren Sie bei Bedarf das Multi-Page-Crawling.

Nach dem Start durchläuft die Verarbeitung folgende Statusübergänge:

  1. pending – Die Anfrage wartet in der Warteschlange
  2. crawled – Die Webseite wurde eingelesen
  3. extracting – Die KI extrahiert die Informationen
  4. completed – Die Verarbeitung ist abgeschlossen

Die Verarbeitungsdauer beträgt typischerweise 30 Sekunden bis zwei Minuten pro Quelle.

Ergebnisse prüfen und korrigieren#

Unter Admin-UI > Sources > [Ihre Source] > Extractions sehen Sie alle extrahierten Informationen mit zugehörigem Konfidenzwert und Qualitätsbewertung.

Extraktionen mit niedriger Konfidenz erscheinen automatisch in der Review-Warteschlange (Admin-UI > Review). Dort können Sie die Werte direkt bearbeiten. Manuell korrigierte Einträge erhalten automatisch eine Konfidenz von 100%.

Steckbrief publizieren#

Sobald alle Extraktionen validiert sind, können Sie über Admin-UI > Sources > [Ihre Source] > Publish den Steckbrief generieren und veröffentlichen.

Besondere Hinweise#

  • Die maximale Anzahl gecrawlter Unterseiten ist auf fünf begrenzt.
  • Die Markdown-Größe ist auf 200.000 Zeichen limitiert.
  • Das System respektiert robots.txt-Einschränkungen der Zielwebseiten.
  • Für optimale Ergebnisse sollten Prompts präzise und eindeutig formuliert sein.

Anwendungsbeispiel#

Ausgangssituation#

Eine Hochschulbibliothek möchte alle KI-bezogenen Forschungsprojekte der eigenen Universität systematisch erfassen und in einem Webportal zugänglich machen. Bisher erfolgte die Recherche manuell über Fakultätswebseiten, was zeitaufwändig und fehleranfällig war.

Umsetzung mit PROMPT-KI#

Zunächst wird eine Kategorie forschungsprojekt angelegt mit einem Template, das Projektname, beteiligte Institution, Projektleitung, Fördergeber, Laufzeit und Beschreibung enthält.

Anschließend werden sechs Prompts definiert:

  • project_name: Extrahiert den offiziellen Projektnamen
  • institution: Extrahiert die federführende Einrichtung
  • project_lead: Extrahiert die Projektleitung mit Titel
  • funding_body: Extrahiert den Fördergeber
  • funding_period: Extrahiert den Förderzeitraum
  • short_description: Erzeugt eine prägnante Zusammenfassung

Die Mitarbeiterin trägt nun die URLs der Projektwebseiten ein, beispielsweise https://www.uni-musterstadt.de/ki-diagnostik. Das System crawlt die Hauptseite sowie verlinkte Unterseiten wie Team- oder Publikationsseiten und extrahiert die definierten Informationen.

Bei drei von zehn Projekten erscheint der Fördergeber in der Review-Warteschlange, da er auf der Webseite nur als Akronym genannt wurde. Die Mitarbeiterin ergänzt die vollständige Bezeichnung manuell.

Ergebnis#

Nach etwa einer Stunde Arbeit liegen strukturierte Steckbriefe für alle zehn Projekte vor. Mit der statischen Website-Generierung wird ein durchsuchbares Portal erstellt, das ohne weitere Serverinfrastruktur auf dem Webspace der Bibliothek bereitgestellt werden kann.

Empfehlungen für die effiziente Nutzung#

Prompt-Formulierung#

  • Formulieren Sie Prompts klar und eindeutig mit konkreten Anweisungen.
  • Geben Sie Beispiele für erwartete Formate an.
  • Verwenden Sie Formulierungen wie “Antworte nur mit…” zur Vermeidung überflüssiger Textbestandteile.
  • Vermeiden Sie vage Anweisungen wie “finde etwas über…”.
  • Beschränken Sie jeden Prompt auf genau eine Information.

Kategorien und Feldgruppen#

  • Beginnen Sie mit einer überschaubaren Anzahl von fünf bis zehn Prompts pro Kategorie.
  • Gliedern Sie Prompts in logische Feldgruppen.
  • Teilen Sie Kategorien mit mehr als 20 Prompts auf mehrere Kategorien auf.

Entity-Pflege#

  • Legen Sie für häufig vorkommende Entitäten kanonische Einträge an.
  • Pflegen Sie Varianten kontinuierlich, um die Erkennungsrate zu verbessern.
  • Nutzen Sie die LLM-Vorschläge zur effizienten Variantenerkennung.

Qualitätssicherung#

  • Prüfen Sie bei neu angelegten Prompts die ersten Extraktionen besonders sorgfältig.
  • Passen Sie Prompts bei systematischen Fehlern an.
  • Nutzen Sie die Re-Extract-Funktion nach Prompt-Optimierungen.

Systemgrenzen#

Das System unterliegt folgenden technischen und konzeptionellen Einschränkungen:

  • Keine JavaScript-Verarbeitung: Webseiten, die ihre Inhalte dynamisch per JavaScript laden, können nicht vollständig erfasst werden. Das System verarbeitet ausschließlich den initial ausgelieferten HTML-Inhalt.

  • Begrenzte Crawl-Tiefe: Pro Quelle werden maximal fünf Unterseiten erfasst. Komplexe Websitestrukturen erfordern gegebenenfalls mehrere separate Quelleinträge.

  • Keine Authentifizierung: Inhalte hinter Login-Bereichen oder mit Zugangsbeschränkungen sind nicht zugänglich.

  • Textbasierte Extraktion: Das System extrahiert ausschließlich Textinhalte. Informationen aus Bildern, PDFs oder Tabellen werden nicht erfasst.

  • Keine Echtzeitaktualisierung: Änderungen auf den Quellwebseiten werden nicht automatisch erkannt. Ein erneutes Crawlen muss manuell angestoßen werden.

  • Sprachabhängigkeit: Die Extraktionsqualität hängt von der Übereinstimmung zwischen Prompt-Sprache und Webseitensprache ab.

  • Keine vollautomatische Kategorisierung: Die Zuordnung einer URL zu einer Kategorie erfolgt manuell durch den Anwender.

Zusammenfassung#

PROMPT-KI ermöglicht die automatisierte Extraktion strukturierter Informationen aus Webseiten durch den Einsatz eines Large Language Models. Das System kombiniert Web-Crawling, KI-gestützte Informationsextraktion mit zweistufiger Qualitätsprüfung sowie Entity-Normalisierung zu einem integrierten Workflow.

Die wesentliche Stärke des Systems liegt in seiner Flexibilität: Durch die Definition von Prompts können Sie ohne Programmierkenntnisse festlegen, welche Informationen extrahiert werden sollen. Gleichzeitig erfordert das System Ihre aktive Mitwirkung bei der Qualitätssicherung. Die automatisierten Extraktionen bilden eine Arbeitsgrundlage, die durch manuelle Prüfung und Korrektur zu belastbaren Ergebnissen verfeinert wird.

PROMPT-KI ersetzt nicht die inhaltliche Expertise des Anwenders, sondern automatisiert die zeitaufwändige Erfassungsarbeit und schafft so Freiraum für die qualitative Bewertung und Kuratierung der gewonnenen Informationen.