Manuell angepasst#

Methodische Erkenntnisse aus der Entwicklung eines Multi-Agent-Systems mit LLMs#

In einem mehrtägigen Experiment wurde ein Präsentationsvorbereitungs-Tool mit einer Zwei-Agenten-Architektur entwickelt, um mehr Erfahrungen mit agentischen Ansätzen und LLM-Systemen zu gewinnen.

Projektrahmen#

Das Tool unterstützt bei der Strukturierung von Präsentationen basierend auf hochgeladenen Dokumenten. Anders als viele andere Lösungen erstellt es keine Inhalte, sondern strukturiert vorhandene Informationen nach den eigenen Wünschen, wie z.B. Zielgruppe und Vortragszeit. Die Architektur besteht aus zwei spezialisierten Agenten: Ein Chat-Agent führt die Konversation mit den Nutzenden, während ein Artefakt-Agent die Präsentationsstruktur als Markdown-Dokument pflegt.

Funktionsweise im Überblick#

Ein typischer Workflow sieht so aus: Die Nutzenden laden ein oder mehrere Dokumente hoch (PDF, DOCX, Text, Markdown oder PPTX). Das System erstellt daraus automatisch ein initiales Artefakt – ein strukturiertes Markdown-Dokument, das die Präsentation repräsentiert. Dieses Artefakt enthält Folientitel als Markdown-Überschriften, Stichpunkte als Bulletpoints und Sprechernotizen als Blockquotes.

Im anschließenden Chat klärt der Nutzer Details wie “Die Präsentation ist für Führungskräfte, 20 Minuten Vortragsdauer” oder “Fokus sollte auf den Ergebnissen liegen, nicht auf der Methodik”. Nach jedem Chat-Turn analysiert der Artefakt-Agent, ob strukturrelevante Informationen im Chat enthalten sind, und aktualisiert das Artefakt entsprechend. Fehlen Informationen, leitet er Fragen an den Chat-Agenten weiter. Das finale Artefakt kann als Markdown, PowerPoint oder Word exportiert werden.

Entwicklungsprozess#

Der Entwicklungsprozess folgte einer bewährten Methodik: Zunächst wurde eine funktionale Spezifikation erarbeite, dann eine technische Spezifikation entwickelt - insgesamgt ca. 2 Stunden über mehrere Iterationen. Die eigentliche Code-Implementierung mit etwa 3000 Zeilen dauerte nur 30-60 Minuten entlang der detaillierten Spezifikation.

Wichtige Ergebnisse#

Prompt-Following als Erfolgsfaktor: Eine wichtige Erkenntnis betrifft die Prompt-Following-Fähigkeiten von LLMs für agentische Systeme. Initial wurde davon ausgegangen, dass klare Systemprompts ausreichen würden. In der Praxis zeigte sich jedoch, dass Unschärfen in der Agent-Ausführung ein strukturiertes Kommunikationsprotokoll zwischen den Agenten erforderten. Die Implementierung eines “Rückkanals” – ein JSON-basiertes Protokoll, über das der Artefakt-Agent Nachfragen an den Chat-Agent stellen kann – verbesserte die Ergebnisqualität erheblich. Freitext-Kommunikation zwischen Agenten erwies sich als zu fehleranfällig.

Bedeutung detaillierter Spezifikationen: Die Trennung zwischen funktionaler und technischer Spezifikation war entscheidend. In der funktionalen Phase wurden 4-5 Iterationen benötigt, um Architekturentscheidungen zu klären – beispielsweise die genaue Interaktion zwischen Chat und Artefakt-Agent. Besonders wichtig waren Diskussionen über technische Machbarkeit und Komplexitätsabschätzungen, um schlanke Lösungen zu identifizieren. Die technische Spezifikation definierte dann exakte Datenstrukturen, Schnittstellen und Error-Handling-Strategien. Diese Klarheit ermöglichte die schnelle Code-Generierung ohne weitere Iterationen.

LLM-wartbare Codebasis: Code-Dateien unter 1000 Zeilen sind deutlich besser für LLM-gestützte Wartung geeignet. Dies erfordert konsequente Modularisierung, zahlt sich jedoch in der Entwicklungsgeschwindigkeit aus. Die größte Komponente, der Artefakt-Agent mit etwa 900 Zeilen, blieb noch gut handhabbar. Die iterativ mit dem LLM entwickelte Modulstruktur (core/, agents/, export/) entstand gezielt mit Blick auf diese Wartbarkeit.

Modellwahl nach Prompt-Following: Für die Produktiv-Agenten wurde Mistral Small 2506 eingesetzt. Die Wahl kleinerer Modelle sollte primär nach deren Prompt-Following-Fähigkeiten erfolgen, nicht ausschließlich nach allgemeinen Benchmarks. Mistral Small erwies sich als ausreichend, wobei größere Modelle vermutlich präziser gearbeitet hätten. Die hohe Inferenzgeschwindigkeit (Response-Zeiten von wenigen Sekunden) sorgte jedoch für ein gutes Nutzererlebnis.

Praktische Validierung#

Das Tool wurde von verschiedenen Stakeholdern mit realen Dokumenten getestet (Umfang: wenige bis 60 Seiten). Besonders überraschend war die Qualität bei zeitlicher Planung und Zielgruppenanpassung. Hier zeigt sich ein “inspirativer Wert” – das Tool liefert strukturierte Vorschläge, die als Ausgangsbasis für die weitere Ausarbeitung dienen. Die Strukturierung von Präsentationsabläufen basierend auf hochgeladenen Dokumenten funktionierte ebenfalls robust.

Übertragbare Prinzipien#

Für kommende Multi-Agent-Projekte mit LLMs lassen sich folgende Prinzipien ableiten:

Investitionen in detaillierte Spezifikationen lohnen. Die 2 Stunden für funktionale und technische Specs ermöglichten eine 30-60-minütige Implementierung.
Strukturierte Protokolle für Agent-Kommunikation sind hilfreich. JSON-basierte Schnittstellen sind robuster als Freitext.
Kommunikation in beide Richtungen: Der Rückkanal hilft, wenn Agenten koordiniert arbeiten müssen. Unidirektionale Datenflüsse waren unzureichend.
Modularisierbar mit Blick auf LLM-Wartbarkeit. Der <1000-Zeilen-Richtwert pro Datei hat sich bewährt.
Wahl der Modelle nach Prompt-Following-Fähigkeiten für agentische Anwendungen.

Die strukturierte Vorgehensweise – funktionale Spezifikation, technische Spezifikation, dann Implementierung – hat sich als reproduzierbarer Workflow etabliert und wird in weiteren Projekten beibehalten.

Dieser Beitrag ist Teil einer Serie zur methodischen Dokumentation von LLM-gestützten Entwicklungsprojekten.