Wie Transformer die moderne KI antreiben

Jazmie Jamaludin

Lesen Sie diesen Satz: „Der Pokal passte nicht in den Koffer, weil er zu groß war.“ Was war zu groß, der Pokal oder der Koffer? Sie wussten sofort, dass es der Pokal war, weil Sie verstanden, wie die Wörter zueinander in Beziehung stehen. Jahrzehntelang war es extrem schwierig, einem Computer diese Art von Verbindung beizubringen, zu verstehen, welche Wörter von welchen abhängen. Dann erschien 2017 ein neues Design, das dies knackte, und die moderne KI blickt seitdem nicht mehr zurück. Es wird als Transformer bezeichnet.

Wenn Sie in letzter Zeit einen Chatbot, einen KI-Schreibassistenten oder einen automatischen Übersetzer verwendet haben, haben Sie einen Transformer benutzt. Es ist die wichtigste Architektur in der heutigen KI, das „T“ in vielen berühmten Modellnamen. Doch kaum jemand außerhalb des Fachgebiets kann erklären, was er tatsächlich tut. Dieser Leitfaden schafft Abhilfe. Wir erklären die eine große Idee hinter Transformatoren, warum sie so gut funktioniert und wie sie zum Motor der aktuellen KI-Ära wurde – alles in einfachem Deutsch.

Das Problem, das Transformatoren gelöst haben

Vor Transformatoren bestand die führende Methode zur Sprachverarbeitung darin, sie Wort für Wort der Reihe nach zu lesen, wie wenn man mit dem Finger über eine Textzeile fährt. Diese früheren neuronalen Netze hatten zwei große Probleme. Erstens waren sie langsam, weil jedes Wort auf das vorherige warten musste. Zweitens hatten sie ein kurzes Gedächtnis; bis das System das Ende eines langen Absatzes erreichte, hatte es oft den Anfang halb vergessen. Das machte das Verständnis langer, komplexer Texte wirklich schwierig.

Der Transformer hat die Regel des der Reihe nach Lesens aufgegeben. Stattdessen betrachtet er alle Wörter gleichzeitig und ermittelt, wie jedes einzelne mit jedem anderen zusammenhängt. Plötzlich konnte das System den gesamten Satz als ein Beziehungsgeflecht und nicht als eine Einbahnstraße sehen. Diese Verschiebung vom sequenziellen Lesen zum gleichzeitigen Erfassen alles dessen hat den Sprung in der Leistungsfähigkeit ermöglicht. Transformatoren sind eine Art von Deep Learning, aufgebaut aus denselben Neuronen und Schichten, nur intelligenter angeordnet.

Die große Idee: Aufmerksamkeit

Der Trick, der Transformatoren funktioniert, wird Aufmerksamkeit genannt, und die alltägliche Bedeutung des Wortes ist ein guter Wegweiser. Beim Lesen schenken Sie natürlich den Wörtern mehr Aufmerksamkeit, die für das Verständnis des aktuellen Wortes wichtig sind. In unserem Pokalsatz konzentriert sich Ihr Verstand, um herauszufinden, worauf sich „er“ bezieht, auf „Pokal“ und „Koffer“ und nicht auf „weil“. Aufmerksamkeit ermöglicht es einem Transformer, dasselbe zu tun: Für jedes Wort entscheidet er, welche anderen Wörter am relevantesten sind, und konzentriert sich auf sie.

Stellen Sie sich vor, jedes Wort hebt die Hand und fragt den Rest des Satzes: „Wer ist hier für mich wichtig?“ Die wichtigsten Wörter erhalten die lauteste Antwort. Der Transformer tut dies für jedes Wort gleichzeitig und erstellt eine umfassende Karte, wie alles miteinander verbunden ist. Wiederholen Sie dies über viele Schichten hinweg, und das System entwickelt ein tiefes Verständnis für Bedeutung, Grammatik und Kontext. Es sind keine festen Sprachregeln einprogrammiert, es lernt diese Beziehungen aus Beispielen, das Kennzeichen des maschinellen Lernens.

Aufmerksamkeit ist alles, was es brauchte
Indem jedes Wort seine Beziehung zu jedem anderen Wort gleichzeitig abwägen kann, erfasste der Transformer Kontext, den ältere Designs verpassten, und das viel schneller, weil er aufhörte, Wort für Wort zu lesen.
Quelle: Google AI

Warum dies alles zuvor Dagewesene übertraf

Der Aufmerksamkeitsansatz hatte zwei enorme Vorteile gegenüber den alten Wort-für-Wort-Systemen, und zusammen änderten sie die Entwicklung der KI.

Transformatoren im Vergleich zu älteren sequentiellen Modellen
Aspekt Ältere sequentielle Modelle Transformatoren
Lesereihenfolge Ein Wort nach dem anderen, sequentiell Alle Wörter werden gleichzeitig betrachtet
Trainingsgeschwindigkeit Langsam, schwer parallelisierbar Schnell, passt hervorragend zu modernen Chips
Langzeitgedächtnis Verblasst über lange Passagen hinweg Verbindet entfernte Wörter direkt

Die zweite Zeile ist wichtiger, als es aussieht. Da Transformatoren alles auf einmal verarbeiten, nutzen sie die leistungsstarken parallelen Chips, die verfügbar wurden, hervorragend aus, was bedeutete, dass Forscher viel größere Modelle als je zuvor trainieren konnten. Es stellte sich heraus, dass die Skalierung bemerkenswerte neue Fähigkeiten mit sich brachte. Dies ist die Grundlage der großen Sprachmodelle, die jetzt schreiben, zusammenfassen und konversieren, und der breiten Basismodelle, die auf demselben Bauplan basieren.

Von Wörtern zu fast allem

Obwohl Transformatoren für die Sprache erfunden wurden, erwies sich ihre Kernidee, herauszufinden, wie jedes Eingabestück mit jedem anderen zusammenhängt, als äußerst universell. Forscher erkannten, dass man Bildausschnitte, Audio-Schnipsel oder sogar Proteinsegmente eingeben konnte, und die Aufmerksamkeit würde immer noch die bedeutungsvollen Verbindungen finden. Diese Flexibilität ist der Grund, warum Transformatoren jetzt Systeme antreiben, die Bilder und Ton sowie Text verarbeiten – das Reich der multimodalen KI.

Ein Design, viele Sinne
Dieselbe Architektur, die die Sprache beherrscht, verarbeitet jetzt auch Bilder, Audio und mehr, weshalb der Transformer oft als das Arbeitspferd der modernen KI bezeichnet wird.
Quelle: Stanford HAI

Es gibt jedoch eine praktische Grenze. Ein Transformer kann jeweils nur eine bestimmte Menge Text verarbeiten, sein Kontextfenster. Alles innerhalb dieses Fensters kann miteinander in Beziehung gesetzt werden, was mächtig ist, aber es bedeutet auch, je mehr Text Sie einbeziehen, desto mehr Arbeit leistet das System. Die Erweiterung dieses Fensters ist derzeit eines der aktivsten Forschungsgebiete der KI.

Wie ein Transformer eine Antwort generiert

Wenn Sie einem Chatbot etwas fragen, plant der Transformer keine ganze Antwort im Voraus. Er sagt den nächsten kleinen Textabschnitt voraus, dann den nächsten, dann den nächsten, wobei er jedes Mal die Aufmerksamkeit nutzt, um alles zu gewichten, was er bisher gesehen hat – Ihre Frage plus das, was er bereits geschrieben hat. Die Abschnitte, die er jongliert, werden Tokens genannt, und das Aneinanderreihen dieser Tokens, eines nach dem anderen, lässt einen flüssigen Absatz entstehen.

Diese schrittweise Vorhersage erklärt sowohl die Stärken als auch die Eigenheiten dieser Systeme. Sie sind erstaunlich gut darin, kohärente, relevante Texte zu produzieren. Da sie jedoch vorhersagen, was plausibel klingt, anstatt Fakten zu überprüfen, können sie gelegentlich mit voller Überzeugung etwas Falsches behaupten, ein Fehler, der als Halluzination bekannt ist. Zu wissen, dass sie vorhersagen und nicht „wissen“, hilft Ihnen, sie sinnvoll einzusetzen.

Leistungsstark, aber dennoch begrenzt

Transformatoren sind ein echter Durchbruch, doch sie denken oder verstehen nicht wie Menschen. Sie spiegeln Muster in ihren Trainingsdaten wider, einschließlich ihrer Verzerrungen, und sie haben kein eingebautes Gefühl für die Wahrheit. Für einen ausgewogenen Blick darauf, wo diese Systeme an ihre Grenzen stoßen, ist unser Artikel über die Grenzen der KI eine gute Ergänzung zu diesem.

Warum das für Sie wichtig ist

Sie müssen keinen Transformer bauen, um von dessen Verständnis zu profitieren. Zu wissen, dass moderne KI durch die Berücksichtigung von Beziehungen in Texten funktioniert und Text Stück für Stück vorhersagt, hilft Ihnen, bessere Prompts zu schreiben, zu erkennen, wann eine Antwort unzuverlässig sein könnte, und zu beurteilen, welche Aufgaben diese Tools gut bewältigen. Wenn Sie erforschen, wie solche Systeme die reale Arbeit unterstützen könnten, zeigt unser Leitfaden zu einer agentischen KI-Geschäftsstrategie die praktischen Anwendungen, und Sie können sich jederzeit mit uns in Verbindung setzen, um Ihre eigene Situation zu besprechen.

Häufig gestellte Fragen

Was bedeutet der Name „Transformer“ eigentlich?+
Es ist einfach der Name, den die Forscher der Architektur bei ihrer Einführung gaben. Er bezieht sich darauf, wie das Design Eingaben Schicht für Schicht in nützliche interne Darstellungen transformiert. Es hat nichts mit elektrischen Transformatoren oder Spielzeugen zu tun, es ist nur eine Bezeichnung, die sich zufällig durchgesetzt hat.
Ist Aufmerksamkeit wirklich das ganze Geheimnis?+
Aufmerksamkeit ist die zentrale Innovation, aber ein Transformer basiert auch auf Schichten, dem Training auf riesigen Datensätzen und viel Ingenieurskunst drumherum. Aufmerksamkeit ist jedoch das, was das Design funktionieren ließ, wo andere scheiterten, weshalb es im Mittelpunkt steht, wenn erklärt wird, wie Transformatoren „denken“.
Funktionieren Transformatoren nur mit Text?+
Nein. Sie wurden für die Sprache erfunden, aber derselbe Ansatz verarbeitet jetzt Bilder, Audio, Video und andere Daten. Sie zerlegen die Eingabe in Teile und lassen die Aufmerksamkeit die Beziehungen finden. Diese Vielseitigkeit ist ein Hauptgrund, warum Transformatoren in so vielen Bereichen der KI zum dominierenden Design wurden.
Warum kann sich ein Transformer nicht an ein ganzes langes Dokument erinnern?+
Er kann sich nur auf eine feste Textmenge gleichzeitig konzentrieren, sein Kontextfenster. Über diese Grenze hinaus verschwindet älterer Text aus der Sicht. Größere Fenster sind möglich, kosten aber mehr Rechenleistung, daher gibt es einen praktischen Kompromiss, und die Erweiterung dieser Grenze ist ein aktiver Forschungsschwerpunkt.

Referenzen

  1. Google AI. „Transformer Architecture and Attention.“ ai.google.
  2. Stanford HAI. „Foundation Models and Transformers.“ hai.stanford.edu.
  3. DeepLearning.AI. „How Transformers Work.“ deeplearning.ai.
Zurück zum Blog

AUTOMATISIEREN. OPTIMIEREN. DOMINIEREN.

Optimieren Sie Ihre Betriebsabläufe und bieten Sie ein reibungsloses Kundenerlebnis. Unsere Experten implementieren modernste Technologien und optimierte Arbeitsabläufe, damit Sie sich auf Ihre Kernkompetenzen konzentrieren können.