Modell-Destillation: KI kleiner und günstiger machen

Jazmie Jamaludin

Denken Sie an die erfahrenste Person, mit der Sie je zusammengearbeitet haben. Die Art von Kollegen, die jedes Problem zweimal gesehen hat und es im Schlaf lösen kann. Stellen Sie sich nun vor, diese Person würde ein paar Monate lang einen klugen, ehrgeizigen Lehrling ausbilden und ihm nicht nur die Antworten, sondern auch die Instinkte und Abkürzungen dahinter vermitteln. Der Lehrling wird nie ganz so viel wissen wie der Meister, aber er wird schneller, kostengünstiger im Unterhalt und gut genug für fast alles, was anfällt. Das ist, mehr oder weniger, was passiert, wenn Ingenieure ein KI-Modell destillieren.

Modelldestillation ist eine der praktischsten Ideen in der modernen künstlichen Intelligenz, und sie erklärt einen stillen Trend, den Sie vielleicht bemerkt haben: KI-Tools werden schneller und günstiger, ohne offensichtlich schlechter zu werden. In diesem Leitfaden werden wir erklären, was Destillation ist, wie die Ausbildung tatsächlich funktioniert, warum Unternehmen sich die Mühe machen, was dabei verloren geht und was dies für die Tools bedeutet, die Sie täglich verwenden. Es ist kein technischer Hintergrund erforderlich.

Das Problem mit großen Modellen

Die leistungsfähigsten KI-Systeme von heute sind enorm. Sie enthalten Milliarden interner Einstellungen und erfordern erhebliche Rechenleistung, um zu laufen. Diese Leistung ist nicht kostenlos. Jede Antwort, die ein riesiges Modell produziert, verbraucht Energie, Zeit und Geld, ein laufender Kostenpunkt, den die Industrie Inferenz nennt. Wenn Sie sich jemals gefragt haben, woher die Kosten kommen, erklärt unser Artikel zum Verständnis der KI-Inferenzkosten dies deutlich.

Für viele reale Aufgaben ist diese volle Feuerkraft jedoch übertrieben. Das Sortieren von Support-E-Mails, das Taggen von Produktbewertungen oder das Beantworten allgemeiner Kundenfragen erfordert kein Modell, das auch Sonette schreiben und über Philosophie debattieren kann. Man möchte etwas Genaues, Schnelles und Erschwingliches. Genau diese Lücke erforscht kleine versus große KI-Modelle, und die Destillation ist eine der klügsten Wege, sie zu überbrücken.

Die meisten Fähigkeiten, ein Bruchteil der Größe
Ein gut destilliertes Modell kann um ein Vielfaches kleiner sein als sein Lehrer, während es die meisten seiner nützlichen Genauigkeit bei den relevanten Aufgaben beibehält.
Quelle: Originalforschung zur Knowledge Distillation, Hinton et al.

Lehrer und Schüler

Die Destillation beinhaltet immer zwei Modelle: einen großen, fähigen "Lehrer" und einen kleineren "Schüler". Das Ziel ist es, so viel der Fähigkeit des Lehrers wie möglich auf den Schüler zu übertragen, damit der Schüler die Aufgabe danach alleine erledigen kann. Der Lehrer wird dann von dieser bestimmten Aufgabe entbunden, nachdem er seinen Zweck erfüllt hat.

Dies ist der Teil, der die Menschen überrascht. Der Schüler lernt nicht nur aus einer Liste richtiger Antworten. Er lernt, wie der Lehrer denkt. Wenn das große Modell eine Frage beantwortet, wählt es nicht einfach eine Option aus; es erzeugt eine ganze Bandbreite von Vertrauen über die Möglichkeiten hinweg, wobei es sich stark zu einigen und sanft zu anderen neigt. Dieses reichhaltigere Signal, das Zögern und die Sicherheit des Lehrers, trägt weitaus mehr Informationen als ein einfaches Richtig-oder-Falsch-Label.

Die Grautöne lernen

Stellen Sie sich vor, Sie bringen jemandem bei, Hunderassen zu erkennen. Ein einfacher Antwortbogen sagt nur: "Das ist ein Husky". Aber ein erfahrener Experte fügt Nuancen hinzu: "Das ist hauptsächlich Husky, mit einem Hauch von Malamute, und definitiv kein Pudel". Diese Grautöne helfen dem Schüler, ein viel besseres Gespür für das Terrain zu entwickeln, als es ein einfaches Label je könnte. Indem der Schüler die nuancierten Vertrauensniveaus des Lehrers kopiert und nicht nur seine endgültige Wahl, nimmt er ein reichhaltigeres Verständnis aus denselben Beispielen auf. Deshalb entstand die Destillation aus der breiteren Geschichte, wie KI-Modelle trainiert werden, und warum sie so viel effektiver sein kann, als ein kleines Modell von Grund auf neu zu trainieren.

Warum Unternehmen darin investieren

Die Motivation ist überwiegend praktisch. Ein kleineres Modell ist günstiger im Betrieb, reagiert schneller und passt an Orte, an die ein Riese nie passen würde, wie ein Telefon oder ein bescheidener Server. Für ein Unternehmen, das Tausende von Anfragen pro Tag bearbeitet, potenzieren sich die Einsparungen schnell. Die gleiche Antwort zu einem Zehntel der Kosten, in einem Bruchteil der Zeit geliefert, ist ein ernsthafter kommerzieller Vorteil.

Geschwindigkeit zählt genauso viel wie Geld. Benutzer geben langsame Tools auf. Ein destilliertes Modell, das fast sofort antwortet, fühlt sich besser an als ein brillantes, aber träges Riesenmodell, selbst wenn der Riese geringfügig genauer ist. Für interaktive Produkte kann diese Reaktionsfähigkeit mehr wert sein als die letzten paar Prozentpunkte an Qualität.

Lehrermodell versus destillierter Schüler, im Alltag
Was Ihnen auffällt Großer Lehrer Destillierter Schüler
Betriebskosten Hoch Viel niedriger
Reaktionsgeschwindigkeit Langsamer Schneller, oft sofort
Umfang der Fähigkeiten Sehr breit Enger, fokussiert
Wo es laufen kann Leistungsstarke Server Telefone, bescheidene Hardware
Am besten für Schwierige, vielfältige Aufgaben Spezifische, wiederholte Aufgaben

Was bei der Übertragung verloren geht

Destillation ist ein Kompromiss, kein Gratisangebot. Der Schüler ist kleiner, daher kann er einfach nicht alles behalten, was der Lehrer wusste. Bei der spezifischen Aufgabe, für die er trainiert wurde, kann er dem Lehrer beeindruckend nahekommen. Aber wenn er außerhalb dieser Komfortzone, bei ungewöhnlichen oder unerwarteten Anfragen, eingesetzt wird, zeigt sich die Lücke. Der Lehrling ist hervorragend im Tagesgeschäft und wackliger bei unerwarteten Problemen.

Es gibt auch ein subtileres Risiko. Wenn der Lehrer einen blinden Fleck oder eine schlechte Angewohnheit hatte, kann der Schüler diese treu erben. Destillation kopiert Verhalten, Fehler eingeschlossen. Ein Lehrer, der gelegentlich Fakten erfindet, kann diese Tendenz weitergeben, was ein weiterer Grund ist, die Ausgaben menschlich zu überwachen. Wenn Sie verstehen wollen, warum diese Systeme überhaupt Dinge erfinden, ist unser Erklärungsartikel, warum KI-Modelle halluzinieren, eine nützliche Begleitlektüre, und er passt natürlich gut dazu, über die versteckten Kosten von KI-Tools jenseits des Listenpreises nachzudenken.

Hervorragend im Tagesgeschäft
Destillierte Modelle glänzen bei den spezifischen Aufgaben, für die sie trainiert wurden, und schwanken bei ungewohnten Aufgaben.
Quelle: NIST AI-Leitlinien

Destillation versus andere Schrumpfungstricks

Destillation ist nicht der einzige Weg, KI kleiner und günstiger zu machen. Ingenieure verwenden auch Techniken wie die Quantisierung, die die Präzision der internen Zahlen eines Modells reduziert, um es zu verschlanken. Die beiden Ansätze werden oft kombiniert: Man destilliert ein Modell auf eine kleinere Größe und quantisiert es dann, um es noch weiter zu verkleinern. Jeder Ansatz geht das Größenproblem aus einem anderen Blickwinkel an.

Es ist erwähnenswert, wie die Destillation mit anderen Anpassungsmethoden der KI zusammenhängt. Sie ist nicht dasselbe wie Fine-Tuning, das das Verhalten eines bestehenden Modells anhand neuer Beispiele anpasst, und sie ist nicht Retrieval, das einem Modell zum Zeitpunkt der Anfrage frische Informationen zuführt. Bei der Destillation geht es darum, die erlernte Fähigkeit eines Lehrers in einen brandneuen, kleineren Körper zu übertragen. Das Verständnis dieser Unterscheidungen hilft, wenn Sie abwägen, welches KI-Modell für Ihr Unternehmen das richtige ist.

Warum es für die Tools, die Sie verwenden, wichtig ist

Sie verwenden mit ziemlicher Sicherheit bereits destillierte Modelle. Wenn ein Unternehmen eine "Lite"-, "Mini"- oder "Fast"-Version seines Flaggschiff-KI-Produkts anbietet, ist die Destillation oft Teil der Entstehung dieser kleineren Version. Dies sind keine beeinträchtigten Spielzeuge; sie sind bewusst so gebaut, dass sie den Großteil des Werts zu einem Bruchteil der Kosten liefern, was genau das ist, was den breiten, erschwinglichen Zugang zu KI ermöglicht.

Es gibt auch einen Datenschutzaspekt. Kleinere, destillierte Modelle können manchmal näher an dem Ort laufen, an dem Ihre Daten liegen, sogar auf Ihren eigenen Geräten, anstatt alles an einen entfernten Server zu senden. Das hat reale Auswirkungen auf KI und Datenschutz und hängt mit der umfassenderen Frage zusammen, KI-Modelle lokal auszuführen, anstatt immer die Cloud zu nutzen.

Sollte Sie interessieren, welchen Ansatz Ihr Anbieter verwendet hat?

Für die meisten Teams lautet die ehrliche Antwort: Nein. Wichtig ist, ob das Tool genau genug, schnell genug und erschwinglich genug für die Aufgabe ist. Destillation ist ein Mittel zum Zweck, kein Selbstzweck. Ein kleineres, destilliertes Modell, das Ihren spezifischen Anwendungsfall perfekt erfüllt, übertrifft einen Giganten, der langsamer und teurer ist, als Sie benötigen.

Dennoch macht Sie das Wissen um die Idee zu einem schärferen Käufer. Wenn ein Anbieter eine günstigere Stufe anbietet, können Sie die richtige Frage stellen: Ist diese Version immer noch stark bei den Aufgaben, die mir tatsächlich wichtig sind, oder nur bei einem engen Ausschnitt? Die gleiche Skepsis, die Ihnen bei der gesamten Familie der Grundlagenmodelle gute Dienste leistet, gilt auch hier. Wenn Sie Hilfe bei der Auswahl der richtigen Stufe für Ihre Ziele und Ihr Budget wünschen, können Sie sich gerne mit uns in Verbindung setzen.

Häufig gestellte Fragen

Ist ein destilliertes Modell einfach eine schlechtere Version des Originals?+
Es ist kleiner und weniger breit aufgestellt, aber bei der spezifischen Aufgabe, für die es destilliert wurde, kann es dem Lehrer sehr nahe kommen. Betrachten Sie es eher als fokussierter denn als einfach schlechter. Es tauscht Breite gegen Geschwindigkeit und Kosten ein.
Wie unterscheidet sich die Destillation vom Fine-Tuning?+
Fine-Tuning passt das Verhalten eines bestehenden Modells mithilfe neuer Beispiele an. Destillation überträgt die erlernten Fähigkeiten eines großen Modells auf ein brandneues, kleineres Modell. Das eine formt ein bereits vorhandenes Modell um; das andere erstellt eine schlankere Kopie davon.
Kann ein destilliertes Modell die Fehler des Lehrers erben?+
Ja. Da der Schüler das Verhalten des Lehrers kopiert, können alle blinden Flecken oder schlechten Angewohnheiten übernommen werden. Dies ist ein weiterer Grund, warum es ratsam ist, eine menschliche Überprüfung beizubehalten, insbesondere bei wichtigen Entscheidungen.
Brauche ich ein destilliertes Modell oder einfach nur ein kleines?+
Für die meisten Käufer ist das Etikett weniger wichtig als das Ergebnis. Entscheidend ist, ob das Tool für Ihre Aufgabe genau, schnell und erschwinglich ist. Destillation ist einfach ein guter Weg, um ein kleines Modell zu produzieren, das über seine Gewichtsklasse hinaus Leistungen erbringt.

Referenzen

  1. Hinton, G. et al. "Destillieren des Wissens in einem neuronalen Netzwerk." research.google.
  2. IBM. "Was ist Wissensdestillation?" ibm.com.
  3. NIST. "KI-Risikomanagement-Framework." nist.gov.
Zurück zum Blog

AUTOMATISIEREN. OPTIMIEREN. DOMINIEREN.

Optimieren Sie Ihre Betriebsabläufe und bieten Sie ein reibungsloses Kundenerlebnis. Unsere Experten implementieren modernste Technologien und optimierte Arbeitsabläufe, damit Sie sich auf Ihre Kernkompetenzen konzentrieren können.