Der Agentic AI Tech Stack: Modelle, Tools, Speicher und Orchestrierung

Jazmie Jamaludin

Wenn Leute „KI-Agent“ hören, stellen sie sich normalerweise das Modell vor – das große Sprachmodell, das die Denkarbeit leistet. Doch ein produktionsreifer Agent ist weit mehr als nur ein Modell. Er ist ein Stack: eine Reasoning Engine, die in Anweisungen verpackt ist, mit Tools verbunden, durch Speicher unterstützt, von einer Orchestrierungsschicht koordiniert und von Monitoring und Guardrails überwacht wird. Das Verständnis dieses Stacks unterscheidet Teams, die zuverlässige Agenten ausliefern, von denen, deren beeindruckende Demos in der Produktion still und heimlich scheitern.

Dieser Artikel bildet den agentischen KI-Tech-Stack Schicht für Schicht ab. Wir werden erklären, was jede Schicht leistet, welche Entscheidungen Sie auf jeder Ebene treffen müssen und wie die Teile zu einem System zusammenpassen, dem Sie vertrauen können. Ziel ist es nicht, einen bestimmten Anbieter zu bewerben, sondern Ihnen ein nachhaltiges mentales Modell zu vermitteln, damit Sie Tools bewerten, Architekturen entwerfen und über mögliche Fehlerursachen nachdenken können.

Warum in einem Stack denken?

Ein einziges leistungsfähiges Modell kann bemerkenswerte Ergebnisse liefern, aber allein kann es keine zuverlässigen Aktionen ausführen, vergangene Interaktionen speichern, sich von Fehlern erholen oder gesteuert werden. Jede dieser Fähigkeiten ist in einer eigenen Schicht des Stacks angesiedelt. Das Denken in Schichten hilft Ihnen, Probleme zu isolieren – eine halluzinierte Tatsache ist ein Modell- und Grundierungsproblem, ein fehlgeschlagenes Update ist ein Toolproblem, ein vergessenes Detail ist ein Speicherproblem – und es ermöglicht Ihnen, eine Schicht auszutauschen, ohne den Rest neu aufbauen zu müssen. Es spiegelt die Art und Weise wider, wie das breitere Thema wie KI-Agenten funktionieren in Reasoning, Acting und Observing zerfällt.

Das Modell macht etwa 20 % der Arbeit aus

Praktiker berichten, dass Tools, Speicher, Orchestrierung und Evaluierung den Großteil des Aufwands bei der Bereitstellung eines zuverlässigen Agenten ausmachen.

Quelle: MIT Sloan Management Review

Schicht 1: Das Modell

An der Basis sitzt das Reasoning-Modell. Seine Aufgabe ist es, Anweisungen zu interpretieren, zu planen, zu entscheiden, welches Tool verwendet werden soll, und Sprache zu generieren. Modelle variieren entlang mehrerer Achsen, die in der Praxis von Bedeutung sind: rohe Reasoning-Fähigkeit, Kontextfenstergröße, Latenz, Kosten pro Token und wie gut sie Anweisungen befolgen und Tools aufrufen. Es gibt kein einziges bestes Modell; es gibt das richtige Modell für die Aufgabe. Ein Agent für die Fallprüfung mit hohem Volumen kann ein schnelles, kostengünstiges Modell verwenden, während ein komplexer Planungsagent ein größeres, leistungsfähigeres Modell rechtfertigt. Die Disziplin der Auswahl des richtigen KI-Modells ist selbst eine bedeutsame Designentscheidung, und viele ausgereifte Systeme leiten verschiedene Unteraufgaben an verschiedene Modelle weiter.

Es ist hilfreich, sich daran zu erinnern, dass diese Reasoning Engines selbst eine Art großes Sprachmodell sind, mit all den damit verbundenen Stärken und Einschränkungen: fließend und flexibel, aber anfällig für selbstbewusste Fehler, wenn sie unbegründet sind. Diese einzige Tatsache prägt die meisten Schichten darüber.

Schicht 2: Anweisungen und Grundierung

Das Modell wird durch Anweisungen – den System-Prompt, der seine Rolle, Regeln, Tonlage und Abbruchbedingungen definiert – gesteuert und durch relevante Daten geerdet. Grounding ist das, was einen Agenten faktisch korrekt hält. Anstatt sich auf das zu verlassen, was das Modell zufällig gespeichert hat, werden durch Retrieval autoritative Inhalte zur Laufzeit eingebracht: eine Wissensdatenbank, ein Richtliniendokument, ein Kundendatensatz. Retrieval-Augmented Generation, bei der der Agent relevante Passagen abruft, bevor er antwortet, ist hier die bewährte Technik. Gutes Grounding verwandelt einen plausibel klingenden Generalisten in einen zuverlässigen Spezialisten, der Ihre tatsächlichen Daten zitiert.

Die Schichten des agentischen KI-Stacks
Schicht	Verantwortlichkeit	Typischer Fehler, wenn fehlend
Modell	Denken und Sprache	Schwache oder falsche Entscheidungen
Grounding	Faktischen Kontext liefern	Halluzinierte Antworten
Tools	Auf externen Systemen agieren	Nur reden, nicht handeln
Speicher	Kontext behalten und abrufen	Wiederholung, verlorener Kontext
Orchestrierung	Schritte und Agenten sequenzieren	Chaos bei komplexen Aufgaben
Guardrails	Einschränken und validieren	Unsichere oder richtlinienwidrige Handlungen

Schicht 3: Tools

Tools sind die Hände des Agenten. Sie ermöglichen es ihm, eine Datenbank abzufragen, eine API aufzurufen, das Web zu durchsuchen, eine Berechnung durchzuführen oder einen Datensatz zu aktualisieren. Ein Modell ohne Tools kann nur sprechen; ein Modell mit den richtigen Tools kann handeln. Die Kunst dieser Schicht besteht darin, Tools mit klaren Beschreibungen zur Verfügung zu stellen, über die das Modell nachdenken kann, ihre Eingaben und Ausgaben zu validieren und ihre Berechtigungen streng zu begrenzen. Die Praxis der Integration von KI-Agenten mit Tools – und die entstehenden Standards, die Tools über Agenten hinweg portabel machen – ist der Bereich, in dem der Großteil des technischen Werts einer Agentenplattform tatsächlich liegt.

Schicht 4: Speicher

Speicher ist das, was einem Agenten ermöglicht, über eine lange Aufgabe oder über viele Interaktionen hinweg kohärent zu bleiben. Er kommt in verschiedenen Ausprägungen vor. Kurzzeit- oder Arbeitsspeicher hält die aktuelle Konversation und Zwischenergebnisse innerhalb des Kontextfensters. Langzeitspeicher speichert Fakten und Präferenzen über Sitzungen hinweg, typischerweise in einem Vektorspeicher, den der Agent semantisch durchsuchen kann. Episodischer Speicher zeichnet auf, was in früheren Durchläufen passiert ist, damit der Agent aus Erfahrungen lernen kann. Die Wahl, wie viel gespeichert werden soll, was vergessen werden soll und wie lange Verläufe zusammengefasst werden können, ohne den Faden zu verlieren, ist ein wirklich schwieriges Designproblem, und hier verschlechtern sich viele Agenten still und leise, wenn Gespräche länger werden.

Kontext, nicht Fähigkeit, ist der übliche Engpass

Viele Agentenfehler stammen eher von schlechter Speicherung und Grundierung als von einem schwachen Modell – dem Agenten fehlten einfach die richtigen Informationen zum richtigen Zeitpunkt.

Quelle: Stanford HAI

Schicht 5: Orchestrierung

Orchestrierung ist der Dirigent des Stacks. Sie steuert den Loop des Agenten – entscheidet, wann gedacht, wann ein Tool aufgerufen, wann angehalten werden soll – und koordiniert in fortgeschritteneren Systemen mehrere Agenten. Dies ist die Schicht, die ein denkfähiges Modell in ein System verwandelt, das mehrstufige Arbeiten zuverlässig erledigt. Orchestrierungs-Frameworks handhaben Wiederholungen, Verzweigungen, parallele Tool-Aufrufe und die Weiterleitung von Unteraufgaben zwischen spezialisierten Agenten. Wenn ein Workflow über einen einzelnen Agenten hinauswächst, ist die Orchestrierung das Bindeglied, das ein Multi-Agenten-System zusammenhält, und es ist der natürliche Ort für die Art von strukturierten agentischen Workflows, die komplexe Prozesse erfordern.

Schicht 6: Guardrails, Evaluierung und Observability

Die oberste Schicht des Stacks macht einen Agenten sicher für den Einsatz. Guardrails schränken das Verhalten ein: Eingabe- und Ausgabefilter, Berechtigungsgrenzen für Tools, Begrenzungen für Loops und Ausgaben sowie menschliche Genehmigungsschranken für folgenreiche Aktionen. Die Evaluierung misst die Qualität anhand von Testdatensätzen und in der Produktion und fängt Regressionen ab, bevor Benutzer dies tun. Observability – detaillierte Protokollierung und Nachverfolgung jeder Entscheidung, jedes Tool-Aufrufs und jeder Übergabe – ermöglicht es Ihnen, das Verhalten nachträglich zu verstehen und zu debuggen. Zusammen operationalisieren diese Schichten die Prinzipien etablierter Risiko-Frameworks und untermauern jeden ernsthaften Ansatz zur Agentic AI Governance und Compliance. Ohne diese Schicht ist ein Agent eine Demo; mit ihr ist ein Agent ein Produkt.

Das durchgehende Anliegen: Evaluierungsdaten

Eine Sache, die das Schichtenmodell verdecken kann, ist, dass ein qualitativ hochwertiger Agent von etwas abhängt, das neben jeder Schicht steht: einem guten Evaluierungsdatensatz. Bevor Sie behaupten können, dass ein Modell gut genug ist, dass Ihre Grundierung präzise ist oder dass eine Orchestrierungsänderung die Dinge verbessert hat, benötigen Sie eine repräsentative Sammlung realer Aufgaben mit bekannten guten Ergebnissen, um sie zu testen. Ohne diese wird jede Entscheidung über den Stack zu einer Vermutung, und jede Änderung birgt das Risiko einer stillen Regression, die Sie erst entdecken, wenn Benutzer sich beschweren.

Der Aufbau dieses Evaluierungsdatensatzes ist eine der wertvollsten Aufgaben, die Sie erledigen können, und er zahlt sich über den gesamten Stack aus. Dieselben Beispiele ermöglichen es Ihnen, Kandidatenmodelle zu vergleichen, zu überprüfen, ob das Retrieval den richtigen Kontext liefert, zu bestätigen, dass ein neues Tool funktioniert, und zu erkennen, wann eine Orchestrierungsänderung einen zuvor funktionierenden Pfad unterbricht. Reife Teams behandeln ihren Evaluierungsdatensatz als lebendiges Gut und erweitern ihn, wann immer ein neuer Fehler in der Produktion auftritt, damit derselbe Fehler nicht unbemerkt erneut auftreten kann. Diese Gewohnheit ist das verbindende Element zwischen einem beeindruckenden Prototyp und einem System, das Sie mit Zuversicht weiter verbessern können, und sie untermauert jeden rigorosen Ansatz zur Messung der Leistung von KI-Agenten im Laufe der Zeit.

Wie die Schichten zusammenpassen

In einem funktionierenden Agenten kommt eine Anfrage an, und die Orchestrierungsschicht startet den Loop. Das Modell, gesteuert von Anweisungen und geerdet durch abgerufenen Kontext, entscheidet über eine Aktion. Es ruft ein Tool auf, beobachtet das Ergebnis und aktualisiert seinen Speicher. Guardrails überprüfen jeden Schritt, und die Observability zeichnet alles auf. Der Loop wird fortgesetzt, bis das Ziel erreicht ist oder eine Abbruchbedingung eintritt. Jede Schicht hängt von den anderen ab: Ein brillantes Modell ohne Grounding halluziniert; perfekte Tools ohne Orchestrierung bleiben untätig; makellose Orchestrierung ohne Guardrails ist gefährlich. Deshalb bedeutet die Bewertung einer Agentenplattform, den gesamten Stack zu betrachten, nicht nur das mitgelieferte Modell – das gleiche Systemdenken, das KI-Agenten von traditioneller regelbasierter Automatisierung unterscheidet.

Wo der Stack typischerweise bricht

Die Kenntnis der Schichten zeigt Ihnen auch, wo Sie suchen müssen, wenn ein Agent sich falsch verhält, denn Fehler treten vorhersehbar auf. Eine selbstbewusst falsche Antwort weist fast immer auf eine mangelhafte Grundierung hin – dem Agenten wurden die benötigten Fakten nicht gegeben, und er füllte die Lücke aus seinem eigenen parametrischen Gedächtnis. Eine Aktion, die still und leise nichts tut, bedeutet normalerweise, dass ein Tool fehlgeschlagen ist und der Fehler verschluckt wurde, anstatt angezeigt zu werden. Ein Agent, der den Faden mitten in einer langen Aufgabe verliert, hat ein Speicherproblem, oft verursacht durch ein überlaufendes Kontextfenster oder eine Zusammenfassung, die ein entscheidendes Detail weggelassen hat. Und ein Agent, der endlos in einer Schleife hängt oder eine alarmierende Rechnung verursacht, ist ein Orchestrierungs- und Guardrail-Fehler: Es wurde keine sinnvolle Abbruchbedingung festgelegt.

Die praktische Lehre ist, jede Schicht zu instrumentieren, damit Sie diese Unterschiede erkennen können. Wenn etwas schiefgeht, sollten Ihre Traces es Ihnen ermöglichen zu sagen: „Das Modell hat korrekt geschlossen, aber der Abruf lieferte nichts“, anstatt Sie raten zu lassen. Diese Art der geschichteten Observability verwandelt das Debugging von Archäologie in eine schnelle Diagnose und ist ein wiederkehrendes Thema bei disziplinierten Ansätzen zur Messung der Leistung von KI-Agenten.

Jede Schicht bauen, kaufen oder zusammenstellen

Man baut selten den gesamten Stack von Grund auf neu, und man kauft ihn auch selten komplett. Die meisten Teams stellen zusammen: ein Modell von einem Anbieter, ein Orchestrierungs-Framework, das Open Source oder kommerziell sein kann, einen verwalteten Vektorspeicher für den Arbeitsspeicher, Konnektoren zu internen Systemen für Tools und eine Evaluierungs- und Überwachungsschicht obendrauf. Die Entscheidung auf jeder Ebene hängt von denselben Fragen ab: wie einzigartig Ihre Anforderungen sind, wie viel Kontrolle Sie benötigen und wie viel Ingenieurkapazität Sie haben. Standardisierte Schichten wie das Modell und der Vektorspeicher werden normalerweise gekauft; die Tools, die Ihre proprietären Systeme berühren, werden normalerweise selbst entwickelt; die Orchestrierung liegt dazwischen und hängt davon ab, wie komplex Ihre Workflows werden. Diese Entscheidungen bewusst zu treffen, anstatt sich auf das zu verlassen, was ein einzelner Anbieter bündelt, hält einen Stack flexibel, wenn sich Ihre Anforderungen entwickeln, und parallelen der breiteren Disziplin der Wahl einer Automatisierungsplattform.

Ihren Stack wählen

Sie bauen selten jede Schicht selbst. Die meisten Teams stellen einen Stack aus einem Modellanbieter, einem Orchestrierungs-Framework, einem Speicher- oder Vektorspeicherdienst und Konnektoren zu ihren eigenen Systemen zusammen und fügen dann Evaluierung und Überwachung hinzu. Die richtige Kombination hängt von Ihren Einschränkungen ab: Datenresidenz und Datenschutz, Latenz- und Kostenobergrenzen, die Systeme, die Sie integrieren müssen, und die technische Kapazität Ihres Teams. Beginnen Sie mit einem minimalen Stack, der ein echtes Problem löst, instrumentieren Sie ihn gut und fügen Sie nur dort Komplexität hinzu, wo Messungen dies erforderlich machen. Wenn Sie Hilfe bei der Abbildung eines Stacks auf Ihre Umgebung benötigen, stehen Spezialisten über die Kontaktseite zur Verfügung, und ein strukturierter Plan kann der gleichen Logik wie ein umfassenderer Agentic AI Implementierungs-Fahrplan folgen.

Häufig gestellte Fragen

Ist das Modell der wichtigste Teil des Stacks?+

Es ist unerlässlich, aber selten der Engpass. Die meiste Produktionsarbeit fließt in die Grundierung, Tools, Speicher, Orchestrierung und Evaluierung. Ein starkes Modell mit schwachen unterstützenden Schichten wird immer noch unzuverlässige Ergebnisse liefern, daher sollte der Stack als Ganzes entworfen werden.

Was ist der Unterschied zwischen Speicher und Grundierung?+

Grounding liefert externe Fakten zum Zeitpunkt der Beantwortung, normalerweise über Retrieval. Der Speicher behält den Kontext über eine Aufgabe oder über Sitzungen hinweg bei, sodass der Agent kohärent bleibt und sich an vergangene Interaktionen erinnert. Beide reduzieren Halluzinationen, lösen aber unterschiedliche Probleme.

Benötige ich ein Orchestrierungs-Framework für einen einzelnen Agenten?+

Für einen einfachen einzelnen Agenten kann ein leichter Loop ausreichen. Orchestrierung lohnt sich, wenn Aufgaben mehrstufig werden oder mehrere Agenten umfassen, indem sie Wiederholungen, Verzweigungen und Routing handhabt, die sonst brüchig handgeschriebene Logik wären.

Wie fügen sich Schutzmechanismen in den Stack ein?+

Schutzmechanismen erstrecken sich über den gesamten Stack: Sie filtern Ein- und Ausgaben, begrenzen Tool-Berechtigungen, limitieren Schleifen und Ausgaben und erfordern menschliche Genehmigung für risikoreiche Aktionen. Sie sind der Unterschied zwischen einer vielversprechenden Demo und einem System, das sicher in der Produktion eingesetzt werden kann.

Referenzen

MIT Sloan Management Review. "Building the agentic enterprise." sloanreview.mit.edu.
Stanford HAI. "AI Index Report." hai.stanford.edu.
NIST. "AI Risk Management Framework." nist.gov.
IBM. "What are AI agents?" ibm.com.

Zurück zum Blog

Artikel wurde in den Warenkorb gelegt

Der Agentic AI Tech Stack: Modelle, Tools, Speicher und Orchestrierung

Warum in einem Stack denken?

Schicht 1: Das Modell

Schicht 2: Anweisungen und Grundierung

Schicht 3: Tools

Schicht 4: Speicher

Schicht 5: Orchestrierung

Schicht 6: Guardrails, Evaluierung und Observability

Das durchgehende Anliegen: Evaluierungsdaten

Wie die Schichten zusammenpassen

Wo der Stack typischerweise bricht

Jede Schicht bauen, kaufen oder zusammenstellen

Ihren Stack wählen

Häufig gestellte Fragen

Referenzen

AUTOMATISIEREN. OPTIMIEREN. DOMINIEREN.

Land/Region

Sprache

Warum in einem Stack denken?

Schicht 1: Das Modell

Schicht 2: Anweisungen und Grundierung

Schicht 3: Tools

Schicht 4: Speicher

Schicht 5: Orchestrierung

Schicht 6: Guardrails, Evaluierung und Observability

Das durchgehende Anliegen: Evaluierungsdaten

Wie die Schichten zusammenpassen

Wo der Stack typischerweise bricht

Jede Schicht bauen, kaufen oder zusammenstellen

Ihren Stack wählen

Häufig gestellte Fragen

Referenzen

AUTOMATISIEREN. OPTIMIEREN. DOMINIEREN.