STT-Helper: Anwenderdokumentation#

Einsatzzweck#

STT-Helper ist ein webbasiertes Tool zur Aufbereitung automatisch generierter Transkripte. Es wandelt maschinell erstellte Speech-to-Text-Ausgaben in professionell formatierte, gut lesbare Dokumente um.

Das Grundprinzip beruht auf einer mehrstufigen Verarbeitung durch ein Large Language Model (LLM). Der Text durchläuft dabei bis zu drei aufeinanderfolgende Optimierungsphasen, die jeweils spezifische Aspekte der Textqualität verbessern. Jede Phase baut auf dem Ergebnis der vorherigen auf und führt zu einer schrittweisen Verfeinerung des Inhalts.

Das Tool ist produktiv im Einsatz.

Funktion

Funktionsumfang#

Phase 1: Bereinigung und Fehlerkorrektur

Korrektur von Transkriptionsfehlern, insbesondere bei Fachbegriffen
Beseitigung umgangssprachlicher Floskeln und Füllwörter
Vervollständigung unvollständiger Sätze
Kontextbasierte Erkennung und Korrektur fachspezifischer Terminologie

Phase 2: Stilistische Überarbeitung

Umformulierung in professionellen, sachlichen Schreibstil
Transformation in wissenschaftliche Ausdrucksweise
Verwendung aktiver Formulierungen
Verbesserung der sprachlichen Präzision bei vollständiger Informationserhaltung

Phase 3: Formatierung

Strukturierung als Markdown-Dokument
Einfügung thematischer Überschriften
Gliederung in kohärente Absätze
Optimierung für Weiterverwendung in anderen Systemen

Kontextualisierung

Angabe von Fachgebieten zur Verbesserung der Begriffsrkennung
Spezifikation relevanter Terminologie
Anpassung an verschiedene Fachdisziplinen

Asynchrone Verarbeitung

Automatische Hintergrundverarbeitung ohne Wartezeit im Browser
Benachrichtigung per E-Mail nach Abschluss
Datenschutzkonforme Verarbeitung auf HU-Servern

Bedienung#

Schritt 1: Zugang zur Anwendung Sie erreichen STT-Helper über die webbasierte Oberfläche der Humboldt-Universität. Nach dem Aufruf wählen Sie zunächst Ihre bevorzugte Sprache (Deutsch oder Englisch).

Schritt 2: E-Mail-Adresse angeben Tragen Sie im Feld “E-Mail-Adresse” die Adresse ein, an die Sie das Verarbeitungsergebnis erhalten möchten. Die Verwendung Ihrer HU-E-Mail-Adresse wird empfohlen.

Schritt 3: Text bereitstellen Sie haben zwei Möglichkeiten:

Datei hochladen: Wählen Sie eine Textdatei in den Formaten .txt, .md, .text oder .markdown aus. Die maximale Dateigröße beträgt 10 MB.
Text einfügen: Kopieren Sie Ihren transkribierten Text direkt in das Textfeld.

Schritt 4: Fachkontext spezifizieren Geben Sie im Feld “Fachgebiete und Kontext” relevante Informationen an, beispielsweise:

Fachgebiet (z.B. “Medizin”, “Rechtswissenschaft”, “Technische Dokumentation”)
Spezifische Unterbereiche (z.B. “Kardiologie”, “Vertragsrecht”)
Besondere Terminologie, die korrekt erkannt werden soll

Diese Angabe verbessert die Qualität der Verarbeitung erheblich, insbesondere bei Fachtexten mit spezifischer Terminologie.

Schritt 5: Verarbeitungsstufe wählen Wählen Sie aus dem Dropdown-Menü die gewünschte Verarbeitungsstufe:

1. Korrektur: Nur Bereinigung von Transkriptionsfehlern
2. Überarbeitung: Bereinigung und stilistische Verbesserung
3. Formatierung: Vollständige Verarbeitung inklusive Markdown-Formatierung

Die Auswahl richtet sich nach Ihrem Verwendungszweck. Für die meisten Anwendungsfälle empfiehlt sich Stufe 3.

Schritt 6: Verarbeitung starten Klicken Sie auf “Verarbeitung starten”. Sie erklären damit Ihr Einverständnis mit der Datenverarbeitung gemäß der Datenschutzerklärung der HU Berlin. Die Verarbeitung erfolgt nun im Hintergrund. Sie können das Browserfenster schließen.

Schritt 7: Ergebnis empfangen Nach Abschluss der Verarbeitung erhalten Sie das Ergebnis per E-Mail als Markdown-Datei. Die Verarbeitungsdauer hängt von der Textlänge ab und kann von wenigen Minuten bis zu mehreren Stunden variieren.

Wichtige Hinweise:

Verwenden Sie ausschließlich Textdateien ohne Binärdaten
Transkripte mit Zeitstempeln sind nicht geeignet, da diese durch die Verarbeitung entfernt werden
Alle hochgeladenen Dateien werden unmittelbar nach der Verarbeitung von den Servern gelöscht
Die maximale Eingabelänge beträgt 5 Millionen Zeichen

Anwendungsbeispiel#

Ausgangssituation: Sie haben eine dreistündige Vorlesung zur Einführung in die Biochemie aufgezeichnet und mittels der HU-Speech-to-Text-Infrastruktur transkribieren lassen. Das resultierende Transkript enthält den vollständigen Wortlaut, ist jedoch in gesprochener Sprache verfasst:

“Also, ähm, wenn wir uns jetzt mal anschauen wie Enzyme funktionieren, dann ist das ja so, dass die… also die binden an Substrate und dann passiert die Katalyse, ne? Und das ist wichtig weil… also ohne Enzyme würde das alles viel zu langsam gehen.”

Zielsetzung: Sie möchten aus diesem Transkript ein Vorlesungsskript erstellen, das Sie in Moodle hochladen und als Grundlage für einen KI-gestützten Lernassistenten verwenden können.

Vorgehensweise:

Sie laden das Transkript als .txt-Datei hoch
Im Kontextfeld geben Sie an: “Biochemie, Enzymologie, Katalyse, Stoffwechsel”
Sie wählen Verarbeitungsstufe “3. Formatierung”
Sie geben Ihre HU-E-Mail-Adresse an
Sie starten die Verarbeitung

Ergebnis: Nach etwa 45 Minuten erhalten Sie per E-Mail ein Markdown-Dokument mit folgendem Inhalt:

## Funktionsweise von Enzymen

Enzyme binden spezifisch an ihre Substrate und katalysieren biochemische Reaktionen. Diese Katalyse beschleunigt Reaktionen, die ohne enzymatische Beteiligung nur sehr langsam ablaufen würden. Die Substratbindung erfolgt am aktiven Zentrum des Enzyms, wodurch die Aktivierungsenergie der Reaktion herabgesetzt wird.

Das Dokument ist nun strukturiert, professionell formuliert und direkt verwendbar. Sie können es als Vorlesungsskript veröffentlichen oder in ein Retrieval-Augmented Generation (RAG)-System für einen Lernassistenten einbinden.

Empfehlungen für die effiziente Nutzung#

Kontextangabe maximieren: Je präziser Sie Fachgebiet und Terminologie spezifizieren, desto besser werden Fachbegriffe erkannt und korrekt verarbeitet.
Stufenweise Verarbeitung: Beginnen Sie bei kritischen Texten mit Stufe 1, prüfen Sie das Ergebnis und führen Sie bei Bedarf eine zweite Verarbeitung durch.
Transkriptqualität optimieren: Hochwertige Audioaufnahmen mit klarer Aussprache führen zu besseren Transkripten und damit zu besseren Endergebnissen.
Zeitstempel entfernen: Falls Ihr Transkript Zeitstempel enthält, entfernen Sie diese manuell vor der Verarbeitung.
Ergebnisse nachbearbeiten: Prüfen Sie die verarbeiteten Texte auf fachliche Korrektheit, insbesondere bei hochspezialisierten Inhalten.
Batch-Verarbeitung: Bei mehreren Aufzeichnungen können Sie diese nacheinander verarbeiten lassen, ohne auf Zwischenergebnisse warten zu müssen.

Systemgrenzen#

STT-Helper ist nicht geeignet für:

Transkripte mit Zeitstempeln (diese werden durch die Verarbeitung entfernt)
Untertitelungszwecke, bei denen Zeitsynchronisation erforderlich ist
Binärdateien oder verschlüsselte Dokumente
Texte, die wörtliche Zitate oder forensische Genauigkeit erfordern

Wichtige Einschränkungen:

Die Verarbeitung erfolgt vollständig automatisiert. Eine menschliche Qualitätskontrolle ist nicht Bestandteil des Prozesses.
Das System kann bei stark fehlerhaften Transkripten keine Wunder vollbringen. Die Qualität der Ausgabe hängt maßgeblich von der Qualität der Eingabe ab.
Fachliche Fehler im Original werden möglicherweise nicht korrigiert, sondern nur sprachlich umformuliert.
Die Verarbeitungsgeschwindigkeit ist begrenzt. Bei sehr langen Texten kann die Verarbeitung mehrere Stunden dauern.
Es besteht keine Garantie oder Haftung für die Qualität der Verarbeitung durch den CMS der HU Berlin.

Zusammenfassung#

STT-Helper ist ein spezialisiertes Werkzeug zur Transformation maschinell generierter Transkripte in professionell aufbereitete Dokumente. Es automatisiert einen Prozess, der manuell sehr zeitaufwändig wäre, und nutzt dazu kaskadierende LLM-Workflows.

Die Qualität der Ergebnisse hängt wesentlich von drei Faktoren ab: der Qualität des Eingangstranskripts, der Präzision Ihrer Kontextangaben und der Angemessenheit der gewählten Verarbeitungsstufe für Ihren Verwendungszweck.

Sie bleiben verantwortlich für die abschließende Qualitätskontrolle. STT-Helper übernimmt die zeitintensive Erstaufbereitung – die fachliche Prüfung und gegebenenfalls Nachbearbeitung obliegt Ihnen.