Tokens und Tokenisierung in der KI erklärt

Jazmie Jamaludin

Hier ist ein kleines Rätsel, das fast jeden verwirrt, der neu in der KI-Welt ist. Man bittet einen Chatbot um etwas, und er erwähnt, dass man eine bestimmte Anzahl von "Tokens" verwendet hat. Die Rechnung, falls man für das Tool bezahlt, wird in Tokens gemessen. Die Textmenge, die die KI gleichzeitig verarbeiten kann, wird ebenfalls in Tokens gezählt. Was zum Teufel ist also ein Token? Es klingt wie eine Arcade-Münze, aber es ist tatsächlich eines der nützlichsten Konzepte, um zu verstehen, wie moderne KI funktioniert, und sobald man es verstanden hat, fangen viele rätselhafte Verhaltensweisen an, Sinn zu ergeben.

Die Kurzfassung: Eine KI liest Wörter nicht so, wie Sie es tun. Bevor sie Ihren Text verarbeiten kann, zerlegt sie alles in kleine Stücke, die Tokens genannt werden. Dieser einzelne Schritt, bekannt als Tokenisierung, beeinflusst stillschweigend, wie viel Dinge kosten, wie viel sich eine KI merken kann und sogar, warum sie manchmal bei einfachen Aufgaben stolpert. In diesem Leitfaden erklären wir Tokens in einfachem Deutsch, zeigen Ihnen, warum sie in der Praxis wichtig sind, und helfen Ihnen, mit ihnen zu arbeiten, anstatt gegen sie.

Was ein Token eigentlich ist

Ein Token ist ein Textabschnitt, der normalerweise kleiner ist als ein ganzes Wort. Manchmal ist ein Token ein vollständiges kurzes Wort wie "Katze" oder "der". Oft ist es ein Fragment; längere oder ungewöhnliche Wörter werden in Teile zerlegt. Das Wort "unglaublich" könnte zum Beispiel zu "un", "glaub" und "lich" werden. Leerzeichen und Satzzeichen zählen ebenfalls. Eine grobe Faustregel im Englischen ist, dass ein Token etwa vier Zeichen umfasst und ein typisches Wort im Durchschnitt etwas mehr als ein Token ist.

Warum nicht einfach ganze Wörter verwenden? Weil Sprache unendlich ist, ständig neue Wörter, Namen, Tippfehler und Slang auftauchen, und kein festes Wörterbuch sie alle abdecken könnte. Indem Texte in kleinere, wiederverwendbare Stücke zerlegt werden, kann eine KI absolut jeden Text, sogar Wörter, die sie noch nie gesehen hat, durch Zusammensetzen aus bekannten Fragmenten darstellen. Es ist ein bisschen so, wie eine Handvoll Buchstaben jedes Wort buchstabieren kann. Diese clevere Aufteilung ermöglicht es großen Sprachmodellen, die unübersichtliche Realität menschlicher Schrift zu handhaben.

Tokenisierung: der Zerlegungsschritt

Tokenisierung ist einfach der Prozess, Text in diese Tokens zu zerlegen, bevor die KI etwas damit anfängt. Es geschieht sofort und unsichtbar jedes Mal, wenn Sie eine Nachricht senden. Das Modell sieht Ihren Satz niemals als eine fließende Wortreihe; es sieht eine Liste von nummerierten Teilen. Alles, was die KI als Nächstes tut, das gesamte Musterabgleichen des Deep Learning, geschieht an diesen Tokens, nicht am Roh-Text.

KI liest in Stücken, nicht in Wörtern

Bevor sie etwas verarbeitet, zerlegt ein Modell Ihren Text in Tokens, oft kleinere Abschnitte als ein Wort, weshalb ein einzelnes Wort als mehr als ein Token zählen kann.

Quelle: Google AI

Warum Tokens für Sie wichtig sind

Tokens sind nicht nur ein technisches Detail, sie beeinflussen direkt drei Dinge, die Sie bei der Verwendung von KI bemerken werden: Kosten, Kapazität und Geschwindigkeit. Dies zu verstehen, verwandelt ein verwirrendes Messgerät in ein Werkzeug, mit dem Sie tatsächlich planen können.

Wie Tokens Ihr tägliches KI-Erlebnis prägen
Was Sie bemerken	Wie Tokens beteiligt sind	Praktische Auswirkung
Kosten	Kostenpflichtige Tools berechnen normalerweise pro Token ein- und ausgehend	Längere Prompts und Antworten kosten mehr
Speicherlimit	Das Kontextfenster wird in Tokens gemessen	Sehr lange Eingaben können überlaufen und abgeschnitten werden
Geschwindigkeit	Antworten werden Token für Token generiert	Längere Antworten dauern länger, bis sie erscheinen

Die mittlere Zeile ist besonders wichtig. Die Textmenge, die eine KI auf einmal berücksichtigen kann, ihr Kontextfenster, wird in Tokens gezählt, nicht in Seiten oder Wörtern. Wenn Sie ein Dokument einfügen, das länger als das Fenster ist, fällt der älteste Teil einfach aus dem Blickfeld, weshalb ein Chatbot den Anfang eines sehr langen Gesprächs "vergessen" kann.

Warum KI Text Token für Token generiert

Wenn eine KI eine Antwort schreibt, verfasst sie nicht das Ganze und liefert es ab. Sie sagt das wahrscheinlichste nächste Token voraus, fügt es hinzu, sagt dann das nächste auf der Grundlage alles bisherigen voraus und wiederholt dies. Deshalb sehen Sie oft, wie Antworten Wort für Wort erscheinen, fast so, als ob die KI tippen würde. Jedes Token ist eine neue Vorhersage, die auf dem Transformer basiert, der alle vorhergehenden Tokens gewichtet.

Das erklärt vieles am Charakter der KI. Deshalb sind die Antworten flüssig und kontextbezogen, jedes Token passt zu dem, was vorher kam. Es erklärt auch, warum sich Fehler schnell ausbreiten können: Wenn ein frühes Token die Antwort auf einen falschen Weg lenkt, bauen spätere Tokens auf diesem falschen Start auf. Und da das Modell plausiblen Text vorhersagt, anstatt Fakten zu überprüfen, kann es gelegentlich selbstbewusste Fehler produzieren, ein Phänomen, das als Halluzination bekannt ist.

Ein Token nach dem anderen

Eine KI erstellt ihre Antwort, indem sie das nächste Token immer wieder vorhersagt, weshalb Text allmählich ausgegeben wird und warum ein früher falscher Weg die gesamte Antwort fehlleiten kann.

Quelle: DeepLearning.AI

Die Macken, die Tokens erklären

Haben Sie schon einmal eine KI gefragt, wie viele Buchstaben ein Wort hat, oder etwas zu zählen, und zugesehen, wie sie eine Aufgabe, die ein Kind erledigen könnte, verpatzt hat? Tokens sind oft der Übeltäter. Weil das Modell "Erdbeere" als ein paar Tokens und nicht als neun einzelne Buchstaben sieht, sind Fragen auf Zeichenebene für es nicht natürlich. Es ist nicht dumm, es betrachtet Text einfach nie so, wie Sie es angenommen haben.

Die Tokenisierung erklärt auch, warum die Verarbeitung mancher Sprachen teurer ist als die anderer. Sprachen und Schriftsysteme, auf denen das Modell nicht intensiv trainiert wurde, können für dieselbe Bedeutungsmenge in viel mehr Tokens zerlegt werden, was ihre Handhabung langsamer und teurer macht. Und ungewöhnliche Formatierungen, lange Zahlenketten oder seltene Symbole können die Token-Anzahl unerwartet in die Höhe treiben. All dies sind Folgen davon, wie Maschinenlernsysteme Text zerlegen, bevor sie überhaupt mit dem Denken beginnen.

Cleverer mit Tokens arbeiten

Sie können dieses Wissen zu Ihrem Vorteil nutzen. Wenn Sie pro Token bezahlen, sparen Sie durch das Kürzen ausschweifender Prompts Geld, ohne die Ergebnisse zu beeinträchtigen. Wenn Sie ein langes Dokument eingeben, hilft das Zusammenfassen oder Aufteilen, innerhalb des Kontextfensters zu bleiben. Und wenn eine KI in einem langen Gespräch den Faden verliert, löscht ein Neustart die alten Tokens, die ihren Speicher überfüllen. All dies erfordert keine technischen Kenntnisse, sondern nur ein Bewusstsein dafür, was unter der Haube passiert.

Diese Grundlagen liegen auch den breit nutzbaren Grundlagenmodellen zugrunde, die die heutigen Tools antreiben, und sie gelten ebenso für Systeme, die Bilder und Audio verarbeiten, die Welt der multimodalen KI, wo Pixel und Ton auf ihre eigene Weise tokenisiert werden. Für ein ehrliches Bild davon, wo all dies noch zu kurz kommt, rundet unser Artikel über die Grenzen der KI das Bild ab.

Eine kleine Idee mit großen Konsequenzen

Tokens gehören zu jenen Konzepten, die, einmal verstanden, KI weit weniger geheimnisvoll erscheinen lassen. Sie stehen am Anfang jedes Modells und beeinflussen Kosten, Kapazität, Geschwindigkeit und Verhalten. Wenn Sie darüber nachdenken, wie diese Tools in reale Arbeitsabläufe passen könnten, wo Token-Kosten und -Limits zu echten Planungsfragen werden, ist unser Leitfaden für eine agile KI-Geschäftsstrategie ein nützlicher nächster Schritt, und Sie können uns gerne kontaktieren, um einen genaueren Blick zu werfen.

Häufig gestellte Fragen

Ist ein Token dasselbe wie ein Wort?+

Nicht genau. Ein Token ist oft ein Teil eines Wortes und nicht ein ganzes. Kurze, gebräuchliche Wörter können ein einzelnes Token sein, während längere oder ungewöhnliche Wörter in mehrere aufgeteilt werden. Als grobe Richtlinie im Englischen entspricht ein typisches Wort im Durchschnitt etwas mehr als einem Token.

Warum werde ich nach Tokens abgerechnet?+

Weil Tokens die eigentlichen Arbeitseinheiten sind, die die KI verarbeitet. Sowohl der Text, den Sie senden, als auch der Text, den sie generiert, werden gezählt, sodass längere Prompts und längere Antworten mehr Tokens verbrauchen und mehr kosten. Das Kürzen unnötiger Wörter ist eine einfache Möglichkeit, die Nutzung effizient zu halten.

Warum tun sich KI-Tools schwer, Buchstaben in einem Wort zu zählen?+

Weil sie Text als Tokens und nicht als einzelne Zeichen sehen. Ein Wort könnte ein oder zwei Tokens sein statt seiner einzelnen Buchstaben, daher sind zeichenbezogene Aufgaben wie das Zählen von Buchstaben für sie nicht natürlich. Es ist eine Nebenwirkung der Art und Weise, wie der Text zerlegt wird, bevor das Modell ihn überhaupt liest.

Wie kann ich herausfinden, wie viele Tokens mein Text verwendet?+

Viele KI-Anbieter bieten kostenlose Zähltools an, die die Gesamtzahl der Tokens für beliebigen Text anzeigen. Als schnelle Schätzung im Englischen können Sie die Anzahl Ihrer Zeichen durch etwa vier teilen oder etwas mehr als ein Token pro Wort annehmen. Es ist immer nur eine Annäherung, aber eine nützliche.

Referenzen

Google AI. "Tokenization and Language Models." ai.google.
DeepLearning.AI. "How Language Models Process Text." deeplearning.ai.
Stanford HAI. "Foundations of Language Models." hai.stanford.edu.

Zurück zum Blog

Artikel wurde in den Warenkorb gelegt

Tokens und Tokenisierung in der KI erklärt

Was ein Token eigentlich ist

Tokenisierung: der Zerlegungsschritt

Warum Tokens für Sie wichtig sind

Warum KI Text Token für Token generiert

Die Macken, die Tokens erklären

Cleverer mit Tokens arbeiten

Eine kleine Idee mit großen Konsequenzen

Häufig gestellte Fragen

Referenzen

AUTOMATISIEREN. OPTIMIEREN. DOMINIEREN.

Land/Region

Sprache

Was ein Token eigentlich ist

Tokenisierung: der Zerlegungsschritt

Warum Tokens für Sie wichtig sind

Warum KI Text Token für Token generiert

Die Macken, die Tokens erklären

Cleverer mit Tokens arbeiten

Eine kleine Idee mit großen Konsequenzen

Häufig gestellte Fragen

Referenzen

AUTOMATISIEREN. OPTIMIEREN. DOMINIEREN.