Anwenderdokumentation: Document Translation System#
Einsatzzweck#
Das Document Translation System ist ein webbasiertes Werkzeug zur Übersetzung von Texten und Dokumenten. Es nutzt lokal betriebene Large Language Models über standardisierte Schnittstellen und ermöglicht die Verarbeitung umfangreicher Dokumente unter Beibehaltung ihrer ursprünglichen Struktur und Formatierung.
Das Grundprinzip basiert auf einem mehrstufigen Verarbeitungsprozess: Dokumente werden zunächst in ein einheitliches Format konvertiert, intelligent in übersetzbare Segmente unterteilt, parallel übersetzt und anschließend wieder zusammengeführt. Dies gewährleistet sowohl Kontexterhalt als auch hohe Verarbeitungsgeschwindigkeit.
Funktionsumfang#
Das System bietet folgende Kernfunktionen:
- Textübersetzung: Direkte Übersetzung von eingegebenem Text mit konfigurierbaren Übersetzungsstilen (Professionell, Akademisch, Einfach, Technisch)
- Dokumentenverarbeitung: Verarbeitung strukturierter Dokumente in den Formaten
.pdf,.docx,.txtund.mdmit automatischer Formatierungserkennung - Automatische Spracherkennung: Identifikation der Ausgangssprache ohne manuelle Auswahl
- Glossarverwaltung: Definition konsistenter Übersetzungen für Fachterminologie
- Intelligentes Chunking: Aufteilung großer Dokumente in kontextwahrende Übersetzungseinheiten
- Parallele Verarbeitung: Simultane Übersetzung mehrerer Segmente zur Beschleunigung
- Vergleichsansicht: Side-by-Side-Darstellung von Original und Übersetzung mit Statistiken
- Mehrformat-Export: Ausgabe in Markdown, Word, HTML, PDF oder JSON mit optionalen Metadaten
- Fortschrittstracking: Echtzeit-Anzeige des Verarbeitungsstatus
Bedienung#
Systemvoraussetzungen und Start#
Vor der ersten Nutzung stellen Sie sicher, dass ein OpenAI-kompatibler LLM-Server läuft. Empfohlen wird Ollama mit einem geeigneten Modell. Nach Konfiguration der Verbindungsparameter in config/config.yaml starten Sie die Anwendung mit python -m src.app und öffnen die Web-Oberfläche unter http://localhost:7860.
Übersetzungsprozess#
Schritt 1: Verbindungsprüfung Klicken Sie auf “Test Connection”, um die Verbindung zum LLM-Server zu verifizieren. Eine erfolgreiche Verbindung ist Voraussetzung für alle Übersetzungsvorgänge.
Schritt 2: Eingabe vorbereiten Wählen Sie zwischen Texteingabe oder Dokumentenupload. Bei Dokumenten aktivieren Sie relevante Verarbeitungsoptionen (Tabellenerkennung, Überschriftenerkennung, Formatierungserhalt). Klicken Sie auf “Process Input” zur Aufbereitung.
Schritt 3: Übersetzungsparameter festlegen
Wählen Sie Ausgangs- und Zielsprache. Für die Ausgangssprache steht “Auto-detect” zur Verfügung. Definieren Sie den gewünschten Übersetzungsstil und fügen Sie bei Bedarf Glossareinträge im Format Quellbegriff,Zielbegriff hinzu.
Schritt 4: Übersetzung durchführen Klicken Sie auf “Translate”. Bei großen Dokumenten wird der Fortschritt in Echtzeit angezeigt. Die Übersetzung erscheint im rechten Ausgabefeld.
Schritt 5: Export Wechseln Sie zum Export-Tab, wählen Sie das gewünschte Ausgabeformat und optionale Metadaten. Laden Sie die fertige Datei herunter.
Wichtige Bedienelemente#
- Input Type Toggle: Umschaltung zwischen Text- und Dokumentenmodus
- Processing Options: Steuerung der Dokumentenanalyse (nur bei Dokumenten-Upload)
- Style Selector: Bestimmung des Übersetzungscharakters
- Advanced Settings: Anpassung von Chunk-Größe und Parallelisierung
- Comparison Tab: Analyse der Übersetzungsqualität durch direkten Vergleich
Besondere Hinweise#
Das System verarbeitet Dokumente bis 20 MB Größe. Legacy-Formate wie .doc müssen vor Upload in .docx konvertiert werden. Übersetzungen erfolgen Token-basiert mit konfigurierbaren Limits (Standard: 2000 Token pro Chunk). Die Verarbeitungsgeschwindigkeit ist abhängig von der LLM-Performance und der gewählten Parallelisierung.
Anwendungsbeispiel#
Ausgangssituation: Sie haben einen 15-seitigen technischen Bericht in englischer Sprache im Format .docx und benötigen eine deutsche Übersetzung unter Beibehaltung aller Formatierungen, Tabellen und Fachbegriffe.
Durchführung:
- Nach erfolgreicher Verbindungsprüfung wählen Sie “Document” als Input Type
- Laden Sie die Datei hoch und aktivieren “Extract Tables”, “Detect Headers” sowie “Preserve Formatting”
- Nach dem Processing wählen Sie “English” als Quellsprache und “Deutsch” als Zielsprache
- Wählen Sie den Stil “Technical” für fachgerechte Übersetzung
- Fügen Sie projektspezifische Terminologie als Glossar hinzu (z.B. “Machine Learning,Maschinelles Lernen”)
- Starten Sie die Übersetzung und beobachten den Fortschritt (ca. 47 Chunks bei 15 Seiten)
- Prüfen Sie im Comparison-Tab die Übersetzungsqualität durch Vergleich kritischer Abschnitte
- Exportieren Sie das Ergebnis als Word-Dokument mit Metadaten
Ergebnis: Sie erhalten ein formatierungsidentisches deutsches Dokument mit konsistent übersetzter Fachterminologie in etwa 3-5 Minuten Verarbeitungszeit.
Empfehlungen für die effiziente Nutzung#
- Nutzen Sie Glossare konsequent bei technischen oder fachspezifischen Texten zur Sicherstellung terminologischer Konsistenz
- Wählen Sie den Übersetzungsstil passend zum Dokumenttyp: “Academic” für wissenschaftliche Arbeiten, “Professional” für Geschäftskommunikation
- Erhöhen Sie die Chunk-Größe für Dokumente mit hoher kontextueller Abhängigkeit (z.B. philosophische Texte)
- Aktivieren Sie alle Verarbeitungsoptionen bei strukturierten Dokumenten mit Tabellen und Listen
- Verwenden Sie die Vergleichsansicht zur Qualitätskontrolle bei kritischen Übersetzungen
- Steigern Sie die Parallelverarbeitung bei großen Dokumenten auf maximal 10 Worker (Hardware-abhängig)
- Exportieren Sie in JSON für weitere automatisierte Verarbeitung der Übersetzungsdaten
- Prüfen Sie regelmäßig die LLM-Verbindung bei längeren Arbeitssitzungen
Systemgrenzen#
Das Document Translation System kann folgende Aufgaben nicht durchführen:
- Übersetzung von bildbasierten PDFs ohne OCR-Vorverarbeitung
- Verarbeitung passwortgeschützter Dokumente
- Übersetzung von Inhalten in Bildern oder gescannten Dokumenten
- Erhaltung komplexer Layoutelemente wie mehrspaltiger Satz oder Textrahmen
- Echtzeitübersetzung oder Streaming-Übersetzung während der Eingabe
- Cloud-basierte Übersetzung (erfordert lokalen LLM-Server)
- Automatische Qualitätsbewertung oder Korrekturvorschläge
- Übersetzung von Programmcode unter Erhaltung der Funktionalität
- Verarbeitung von Dokumenten über 20 MB
Technische Einschränkungen bestehen hinsichtlich der maximalen Token-Anzahl pro LLM-Anfrage. Die Übersetzungsqualität ist direkt abhängig von der Leistungsfähigkeit des verwendeten Sprachmodells.
Zusammenfassung#
Das Document Translation System ist ein professionelles Werkzeug für die strukturerhaltende Übersetzung umfangreicher Dokumente mittels lokal betriebener Sprachmodelle. Es eignet sich für Anwender, die Kontrolle über ihre Daten behalten möchten und gleichzeitig von fortgeschrittenen Übersetzungsfunktionen wie intelligentem Chunking und Glossarverwaltung profitieren wollen.
Ihre Rolle als Nutzer besteht in der sachgerechten Konfiguration der Übersetzungsparameter, der Bereitstellung relevanter Glossare und der Qualitätskontrolle der Ergebnisse. Das System unterstützt Sie durch automatisierte Verarbeitung und parallele Übersetzung, die finale Verantwortung für die inhaltliche Korrektheit verbleibt jedoch bei Ihnen.