05 — KI- und Multi-Agenten-Systeme

Eine funktionierende Multi-Agenten-Infrastruktur

Die Infrastruktur, die den Rest der Arbeit möglich macht.

Ein maßgeschneidertes, bidirektionales Multi-Agenten-Betriebssystem läuft kontinuierlich auf dedizierter Hardware. Es wurde von Grund auf entworfen und gebaut — nicht aus Open-Source-Frameworks zusammengesetzt.

Was es ist

Dies ist der Schwerpunkt der aktuellen Arbeit. Alles andere auf dieser Website wird durch sie ausgeliefert oder von ihr koordiniert.

Eine Multi-Agenten-Betriebsinfrastruktur läuft kontinuierlich auf einem dedizierten Server. Sie ist bidirektional und stets aktiv: Die Agenten halten persistenten Speicher und eine persistente Runtime, sodass sie nicht jedes Mal kalt starten, wenn ich auf sie zurückgreife. Das System wurde von Grund auf entworfen und gebaut — nicht aus Open-Source-Agenten-Frameworks zusammengesetzt — weil die Anforderungen spezifisch waren und die Koordination meine sein musste, von Anfang bis Ende kontrollierbar.

Es gibt unterschiedliche Agentenklassen, jede mit einer definierten Rolle. Ein zentrales Orchestrierungsgehirn interpretiert die Absicht und leitet die Arbeit weiter. Botschafter übersetzen diese Absicht in das jeweils eigene Protokoll jedes Anbieters und Systems. Auditoren verifizieren, was andere Agenten erzeugen. Boten bewegen Information verlustfrei zwischen den Schichten. Forscher sammeln Kontext und spielen ihn zurück. Senior-Executoren leisten Arbeit voller Leistungsfähigkeit, bis zu sechzehn auf einmal; unter ihnen fächern sich engere Sub-Agenten auf — mehr als dreihundert parallel, wenn die Last es verlangt.

Ich kommandiere die Flotte von mehreren Oberflächen aus. Von der Workstation über VSCode und die Linux-CLI; von Mobilgeräten in Echtzeit; über bidirektionale Verbindungen auf Socket-Ebene, die offen bleiben statt zu pollen; und über Echtzeit-Sprachanrufe mit laufenden Instanzen. Der Sinn der Breite ist nicht Neuheit — es ist, dass dieselbe Infrastruktur von dort erreichbar ist, wo die Arbeit gerade anfällt.

0

Senior-Executor-Instanzen, volle Leistungsfähigkeit, gleichzeitig laufend

300+

engere Sub-Agenten parallel, wenn die Last es erfordert

0

gleichzeitig orchestrierte LLM-Anbieter — Anthropic, OpenAI, Google, xAI, Moonshot

24/7

immer aktiv, auf dedizierter Hardware, mit persistentem Speicher und Runtime

Betriebsparameter

Die Zahlen, mit denen sie tatsächlich läuft.

Infrastruktur / Dauerbetrieb

Senior-Executor-Instanzen
bis zu 16 gleichzeitig
Sub-Agenten
300+ parallel
LLM-Anbieter
5, gleichzeitig orchestriert
Transport
auf Socket-Ebene, bidirektional, geringe Latenz
Befehlsoberflächen
Workstation · Mobil · Sprache
Runtime-Host
dedizierter Dell-Server, immer aktiv
Betriebszustand
persistent — die Agenten starten nie kalt
Agent zu Agent
protokollvermittelt, auditiert
Kontextschnittstellen
Function Calling · MCP · RAG
Ursprung
von Grund auf gebaut — kein Framework-Zusammenbau
Topologie

Ein Gehirn, mehrere Klassen, viele Arbeiter.

Die Absicht tritt am Zentrum ein. Sie wird zerlegt, an die für die Aufgabe geeignete Klasse weitergeleitet, ausgeführt und verifiziert — dann kehrt das Ergebnis ins Zentrum zurück, das das einzige vollständige Bild hält.

Agententopologie Ein zentrales Orchestrierungsgehirn verbindet sich mit vier Koordinationsklassen — Botschafter, Auditoren, Boten und Forscher —, die sich mit Senior-Executoren verbinden, welche sich zu vielen Sub-Agenten-Arbeitern auffächern. Orchestrierung Koordinationsklassen Senior-Executoren · bis zu 16 Sub-Agenten · 300+ parallel Orchestrierungsgehirn Botschafter Auditoren Boten Forscher

Schema. Die Klassenrollen sind fest; die Instanzanzahl skaliert mit der Last.

Die Klassen, in der Tiefe

Wofür jede Schicht verantwortlich ist.

Das zentrale Gehirn hält das gesamte Problem.

Ein Orchestrierungsgehirn sitzt im Zentrum. Es interpretiert die Absicht, zerlegt eine Mission in Aufgaben, leitet diese Aufgaben an die dafür am besten geeigneten Agenten weiter und hält den globalen Kontext, den kein einzelner Arbeiter für sich allein sehen kann.

Es löst außerdem Konflikte zwischen Agenten und erhält den Betriebszustand über den gesamten Lauf hinweg. Wenn zwei Pfade uneinig sind, wird die Entscheidung hier getroffen, mit dem vollständigen Bild — nicht am Rand durch einen Arbeiter, der nur seinen eigenen Ausschnitt kennt.

  • Interpretiert die Absicht und zerlegt sie in einzelne Aufgaben
  • Leitet die Arbeit an die für jede Aufgabe geeignete Agentenklasse weiter
  • Hält den globalen Kontext und löst Konflikte
  • Erhält den Betriebszustand über den gesamten Lauf hinweg
Leerlaufzeit
Metallisches Ikosaeder — abstrakte Darstellung der Agentenflotte.

Leerlaufkapazität wird zu Vorbereitungskapazität

Wenn es keine Aufgabe gibt, studiert die Flotte.

Wenn keine Aufgabe zugewiesen ist, bleiben die Agenten nicht untätig. Sie treten in eine Schleife aus selbstgesteuertem Studium und Cross-Training ein: Sie arbeiten Material durch, vergleichen Ansätze und lehren einander über die Klassen hinweg.

Dieses Lernen wird nicht als Transkript belassen. Implementierer-Agenten nehmen das Studierte, feintunen das studierte Modell damit und injizieren das resultierende Wissen für den künftigen Betrieb zurück ins System. Die Flotte, die die Arbeit von morgen erledigt, ist messbar vorbereiteter als jene, die die von heute beendet hat.

  • Selbstgesteuertes Studium und Cross-Training während der Leerlauffenster
  • Implementierer-Agenten feintunen das studierte Modell anhand des Gelernten
  • Wissen wird für den künftigen Betrieb zurückgespielt, nicht nur protokolliert
Modelle

Anbieterneutral — und in der Lage, Gewichte direkt zu modifizieren.

Anbieter-Routing

  • Anthropic
  • OpenAI
  • Google
  • xAI
  • Moonshot

Eine Aufgabe, das Modell, das zu ihr passt. Keine Anbieterbindung.

Fine-Tuning · LoRA · eine Forschungsrichtung

Nicht an einen Anbieter gebunden — und nicht auf das Prompting beschränkt.

Die Infrastruktur orchestriert mehrere LLM-Anbieter zugleich — Anthropic, OpenAI, Google, xAI, Moonshot — und leitet jede Aufgabe an das Modell, das zu ihr passt. Sie ist nicht an einen einzelnen Anbieter gebunden. Wo es hilft, gehe ich unter den Prompt: Fine-Tuning, LoRA und fortgeschrittene Gewichts- und Bias-Modifikation an Modellen mit offenen Gewichten.

Es gibt außerdem eine aktive Forschung, die ich nur auf hoher Ebene beschreiben werde. Sie nutzt kleine Modelle mit offenen Gewichten im Bereich von vier bis zwanzig Milliarden Parametern, mit einem proprietären Verfahren, das nur einen minimalen Teil — im Speicher — sehr viel größerer Modelle im Bereich von hundert bis sechshundert Milliarden aktiviert und das in die kleinen Modelle integriert. Die Methode wird zurückgehalten; die Richtung hat großes Potenzial, und mehr werde ich hier nicht sagen.

  • Fünf Anbieter gleichzeitig orchestriert, pro Aufgabe weitergeleitet
  • Fine-Tuning, LoRA, Gewichts-/Bias-Modifikation an Modellen mit offenen Gewichten
  • Forschung an kleinen Modellen (~4–20B), die selektive Aktivierung größerer (~100–600B) integriert — Methode zurückgehalten

Dies ist die Infrastruktur, die den Rest der Arbeit möglich macht.

Fähigkeiten

Was sie erreichen kann und wie sie solide bleibt.

01

Function Calling

Die Agenten handeln über typisierte Werkzeugschnittstellen — lesen, schreiben, abfragen, ausführen — statt Prosa auszugeben, die ich von Hand interpretieren muss.

02

MCP

Das Model Context Protocol verbindet Agenten über einen gemeinsamen Vertrag mit Werkzeugen und Datenquellen, sodass eine einmal hinzugefügte Fähigkeit der gesamten Flotte zur Verfügung steht.

03

RAG

Die Abrufung versorgt die Agenten mit dem spezifischen Kontext, den eine Aufgabe aus einem Arbeitsspeicher braucht, statt sich darauf zu verlassen, worauf ein Modell zufällig trainiert wurde.

04

Persistenter Speicher

Zustand, frühere Entscheidungen und angesammelter Kontext überdauern zwischen den Sitzungen. Die Infrastruktur erinnert sich; nichts muss jeden Morgen neu erklärt werden.

05

Observability

Was jeder Agent getan hat, warum und gegen welche Eingaben, wird aufgezeichnet — damit das Verhalten im Nachhinein inspiziert und nicht nur im Moment vertraut werden kann.

06

Sicherheits-Selbstaudit

Kontinuierliches, autorisiertes Selbstaudit mit BlackArch Linux über lokale und Cloud-Server. Bis heute: keine offenen Sicherheitslücken und kein Informationsleck.

Missionszerlegung

Wie aus einem Ziel koordinierte Arbeit wird.

Eine Anfrage geht nicht direkt an einen Arbeiter. Sie wird als ein einziges Ziel gelesen, in geordnete Aufgaben zerlegt, nach Klasse weitergeleitet, ausgeführt, verifiziert und ans Zentrum zurückgegeben. Jede Stufe hat einen definierten Verantwortlichen.

Vom Eingang zur Rückgabe

  1. 01 Eingang Die Absicht trifft von einer Befehlsoberfläche ein und wird als ein einziges Ziel gelesen, noch nicht als Plan.
  2. 02 Zerlegen Das Orchestrierungsgehirn bricht das Ziel in einzelne, geordnete Aufgaben mit expliziten Abhängigkeiten auf.
  3. 03 Weiterleiten Jede Aufgabe wird der dafür geeigneten Agentenklasse zugewiesen — einem Senior-Executor oder einem Aufgebot von Sub-Agenten.
  4. 04 Ausführen Die Arbeit läuft parallel, wo der Abhängigkeitsgraph es erlaubt, gegen typisierte Werkzeugschnittstellen.
  5. 05 Auditieren Ein separater Agent verifiziert jedes Ergebnis auf Korrektheit, Sicherheit und Kohärenz, bevor es zählt.
  6. 06 Zurückgeben Die verifizierte Ausgabe fließt zurück ins Zentrum, das als Einziges das vollständige Bild des Laufs hält.
Ablauf der Missionszerlegung Ein einziges Ziel tritt in das Orchestrierungsgehirn ein, wird in parallele Aufgaben aufgeteilt, die an Executor-Klassen weitergeleitet werden, jedes Ergebnis wird auditiert, und die verifizierte Ausgabe kehrt ins Zentrum zurück. Ziel eine Anfrage Orchestrierung zerlegen · weiterleiten Aufgabe · Executor Aufgabe · Executor Aufgabe · Sub-Agenten Auditieren · zurückgeben verifiziertes Ergebnis das Ergebnis kehrt zum einzigen vollständigen Bild zurück
Transport

Verbindungen bleiben in beide Richtungen offen.

Die Verbindung zwischen einer Befehlsoberfläche und einer laufenden Instanz ist auf Socket-Ebene und bidirektional. Sie bleibt offen, statt zu pollen, sodass ich in eine Instanz pushen kann und sie zurückpushen kann — mitten in der Aufgabe, nicht nur bei Abschluss.

Bidirektionaler Socket

Bidirektionale Socket-Kommunikation Eine Befehlsoberfläche und eine laufende Agenteninstanz halten einen offenen Socket; Nachrichten reisen entlang davon in beide Richtungen. Befehlsoberfläche ich Agenteninstanz laufend, warm offener Socket Anweisung · Kontext Fortschritt · Fragen · Ergebnisse

Eine Leitung, offen gehalten, in beide Richtungen genutzt.

Auf Socket-Ebene · bidirektional · geringe Latenz

Kein Anfragen-und-Warten. Eine offen gehaltene Leitung.

Die meiste Automatisierung spricht mit einem Modell, indem sie eine Frage stellt und auf eine Antwort wartet. Diese nicht. Der Transport ist ein persistenter Socket in beide Richtungen: Ich sende Anweisung oder Kontext in eine lebende Instanz, und die Instanz sendet Fortschritt, Fragen und Ergebnisse auf derselben offenen Leitung zurück.

Weil die Verbindung gehalten statt pro Nachricht neu aufgebaut wird, bleibt die Latenz gering und ein Austausch kann fortlaufend sein. Ein Agent kann mich mitten in einer Aufgabe etwas fragen und auf die Antwort hin handeln, ohne den Kanal abzubauen und neu aufzubauen.

  • Persistenter Socket — kein Reconnect-Overhead pro Nachricht
  • Beide Enden können initiieren — hineinpushen, zurückpushen
  • Fortlaufender Austausch mitten in der Aufgabe, kein Anfragen-und-Warten
Befehlsoberflächen

Erreichbar von dort, wo die Arbeit ist.

Dieselbe Infrastruktur antwortet drei Oberflächen. Die Breite dient nicht der Neuheit — sie bedeutet, dass die Flotte von der Workstation, von einem Telefon und per Sprache erreichbar ist, ohne ein eigenes System für jede.

Befehlsoberflächen Die Oberflächen Workstation, Mobil und Sprache verbinden sich alle über bidirektionale Sockets mit einem einzigen Orchestrierungskern, der die Agentenflotte steuert. Orchestrierungskern Workstation VSCode · Linux CLI Mobil in Echtzeit, im Feld Sprache Workstation, Mobil, Sprache eine Infrastruktur hinter allen dreien socket socket socket

Alle drei Oberflächen nutzen denselben bidirektionalen Transport in einen Kern.

Die Lernschleife

Leerlauf, studieren, feintunen, injizieren — dann wiederholen.

Die Vorbereitung der Flotte ist beim Deployment nicht festgelegt. Zwischen den aktiven Aufgaben studiert sie, konsolidiert das Studierte zu einer Modelländerung und spielt das Ergebnis zurück. Die Schleife ist es, die die Flotte von morgen vorbereiteter macht als die von heute.

Schleife von Leerlauf-Studium zu Fine-Tuning zu Injektion Vier Stufen — Studium während der Leerlaufzeit, Konsolidierung, Fine-Tuning des Modells mit offenen Gewichten und Injektion des Ergebnisses zurück in die Flotte — als geschlossener Kreislauf angeordnet. Studieren Leerlauffenster Konsolidieren Implementierer Feintunen LoRA · Gewichte Injizieren zurück zur Flotte eine vorbereitetere Flotte tritt erneut in die Schleife ein
  1. Aktive Aufgabe Die Flotte arbeitet gegen eine Mission. Die Absicht wird zerlegt, weitergeleitet, parallel ausgeführt, auditiert und zurückgegeben. Der persistente Zustand wird im Laufe der Ausführung aktualisiert.
  2. Leerlauffenster Selbstgesteuertes Studium und Cross-Training. Ohne zugewiesene Aufgabe arbeiten die Agenten Material durch, vergleichen Ansätze und lehren einander über die Klassen hinweg, statt untätig zu sein.
  3. Konsolidierung Studiertes Material wird zu einer Modelländerung. Implementierer-Agenten feintunen das studierte Modell mit offenen Gewichten anhand des Gelernten — LoRA und direkte Gewichts- und Bias-Modifikation, wo es hilft.
  4. Injektion Wissen wird für den künftigen Betrieb zurückgespielt. Das Ergebnis wird ins System injiziert, nicht als Transkript belassen, sodass der nächste Lauf vorbereiteter beginnt, als der vorherige geendet hat.
Speicher und Kontext

Was die Flotte weiß und wie sie es erreicht.

Ein Agent verlässt sich nicht darauf, worauf ein Modell zufällig trainiert wurde. Der Kontext wird für die anstehende Aufgabe geholt, der Zustand überdauert zwischen den Sitzungen, und jede Aktion läuft durch einen typisierten Vertrag. Nichts muss jeden Morgen neu erklärt werden.

Speicher- und RAG-Architektur Ein Agent holt aufgabengebundenen Kontext aus einem Arbeitsspeicher-Store über Abrufung, handelt durch typisierte Werkzeugverträge und schreibt verifizierte Ergebnisse und Entscheidungen in den persistenten Zustand zurück. Agent braucht Kontext Abrufung · RAG aufgabengebundene Suche Arbeitsspeicher Store Werkzeugvertrag MCP · Function Calling Persistenter Zustand überdauert Sitzungen abfragen holen handeln schreiben

Kontextschnittstellen

Arbeitsspeicher-Store
aufgabengebundener Kontext, auf Abruf geholt
Abrufung
RAG — der spezifische Kontext, den eine Aufgabe braucht, nicht die Trainingsvermutung eines Modells
Persistenter Zustand
Entscheidungen und angesammelter Kontext überdauern zwischen Sitzungen
Werkzeugvertrag
MCP — eine einmal hinzugefügte Fähigkeit ist flottenweit erreichbar
Aktionsschnittstelle
Function Calling — typisiertes Lesen / Schreiben / Abfragen / Ausführen
Herkunft
was jeder Agent getan hat, warum und gegen welche Eingaben, wird aufgezeichnet
Selbstaudit

Die Infrastruktur prüft sich selbst.

Dieselbe Flotte, die die Arbeit macht, wird einem nach innen gerichteten Sicherheitsaudit unterzogen. Es läuft kontinuierlich, mit Autorisierung, gegen meine eigenen Server — lokal und Cloud — unter Verwendung des BlackArch-Werkzeugsatzes.

01

Autorisierter Umfang

Das Selbstaudit läuft gegen meine eigenen lokalen und Cloud-Server, kontinuierlich und mit ausdrücklicher Autorisierung. Es ist eine nach innen gerichtete Übung, keine nach außen gerichtete.

02

BlackArch-Werkzeugsatz

BlackArch Linux liefert die Werkzeuge, mit denen das Audit läuft — dieselben Instrumente, mit denen man ein System sondiert, werden auf die Infrastruktur gerichtet, die die Flotte beherbergt.

03

Aktuelles Ergebnis

Bis heute meldet das Audit keine offenen Sicherheitslücken und kein Informationsleck. Es ist eine wiederkehrende Prüfung, daher ist das Ergebnis ein aktueller Zustand und kein einmaliges Zertifikat.

Open to the right work

Wenn Ihr Problem eine derart bewusst gestaltete Betriebsschicht braucht, ist das das Gespräch.

If you are holding a problem that doesn't fit inside one field, that is the conversation I want.

NextIndustrial Automation