Letztes Jahr im März schrieben wir einen Blogbeitrag, in dem wir sechs KI-Durchbrüche für das nächste Jahr vorhersagten. Seitdem war es ein arbeitsreiches Jahr. Angesichts so vieler bemerkenswerter Entwicklungen wollten wir einen Schritt zurücktreten, um über unsere Vorhersagen nachzudenken und einen Ausblick auf die spannenden Dinge zu wagen, die das kommende Jahr bringen wird.
Wo waren wir im Jahr 2023?
Lassen Sie uns einige der wichtigsten Einschränkungen der LLMs zu Beginn des Jahres 2023 überprüfen.
Inhaltliche Halluzinationen: Besonders als die LLMs noch an Fahrt aufnahmen, gaben die Modelle oft zu selbstbewusst falsche Antworten oder gaben Antworten, die viel aussagen, ohne tatsächlich die Antwort zu geben.
Kleiner Abfragekontext: Für komplizierte Aufgaben benötigen LLMs möglicherweise mehr Informationen, als sie trainiert wurden, z. B. kontextbezogene Hintergrundinformationen, die mehr Details zur Lösung eines Problems liefern. Leider hatten LLMs oft kleine Eingabegrößen, die sie daran hinderten, diese zusätzlichen Informationen aufzunehmen.
Magie der Eingabeaufforderung: LLMs reagierten extrem empfindlich auf die Eingabeaufforderungen der Nutzer, so dass die Änderung von nur wenigen Wörtern oder die Neuformulierung der Aufforderung zu drastisch anderen Ergebnissen führen konnte, was die Verallgemeinerbarkeit von LLMs erschwerte.
In unserem letztjährigen Aufsatz haben wir den entscheidenden Unterschied zwischen Wissen (Verständnis eines bestimmten Themas oder Bereichs) und Intelligenz (die Fähigkeit, Wissen anzuwenden, um zu denken, zu lernen und neue Probleme zu lösen) hervorgehoben. GPT und andere populäre Modelle waren hochgradig wissensbasierte Systeme, aber sie waren noch nicht ganz auf der Ebene der Intelligenz. Letztes Jahr haben wir sechs Vorhersagen gemacht, von denen wir annahmen, dass sie uns der unbestreitbaren künstlichen Intelligenz näher bringen würden. Schauen wir uns an, wie unsere Vorhersagen ausgefallen sind, und freuen wir uns auf die neuen Entwicklungen, die wir für das Jahr 2024 erwarten.
Was 2023 geschah – und was 2024 kommen wird
Wenn Sie nur ein paar Minuten Zeit haben, finden Sie hier eine kurze Zusammenfassung der KI-Fortschritte der letzten Jahre (und was wir dieses Jahr und darüber hinaus erwarten).
1) LLM-Informationsgrundlagen und Referenzierung
Wir sagten voraus, dass neue Verfahren und Techniken das Problem der „Inhaltshalluzination“ verringern würden, indem sie Informationen außerhalb des ursprünglichen Datensatzes, auf dem ein Modell trainiert wurde, zu Grunde legen und referenzieren. Im Jahr 2023 sahen wir den Aufschwung von RAG-Systemen (Retrieval Augmented Generation) als eine Technik zur Informationserfassung für LLMs.
RAG ist nicht ganz neu, denn es wurde erstmals in einer von Meta research im Jahr 2020 veröffentlichten Arbeit vorgestellt. Es gab jedoch eine Reihe von Änderungen, die die Popularität und Verwendung von RAG-Techniken erhöhten. OpenAI hat die Suchmaschine Bing von Microsoft in ChatGPT integriert, um die Leistung des Chatbots zu erhöhen, indem er Zugang zu aktuellen Informationen aus dem Internet erhält.
Was 2024 zu erwarten ist RAG wird weiter florieren und zum Goldstandard und zu einem Muss für alle LLM-Systeme in 2024 und 2025 werden. Und neue Tools wie LlamaIndex, die darauf ausgerichtet sind, die Integration von RAG in LLM-Workflows zu erleichtern, werden ebenfalls an Popularität gewinnen und weit verbreitet sein.
2) Effiziente Verknüpfung von LLMs mit Tools
Im Jahr 2023 sprachen wir über LangChain als ein frühes Beispiel für ein Entwicklerwerkzeug, das den Trend der LLM-Erdung mit externen Datenquellen ermöglicht. Ein Jahr später ist LangChain in seiner Popularität explodiert und mit neuen Funktionen wie LangGraph, die kompliziertere, zustandsbehaftete LLM-Anwendungsabläufe ermöglichen, sehr ausgereift.
Wie bereits kurz erwähnt, gewannen Tools wie LlamaIndex, eine Bibliothek, die speziell für die Rationalisierung von RAG-Workflows entwickelt wurde, aufgrund des steigenden Interesses an RAG ebenfalls an großer Beliebtheit. LlamaIndex ist auch ein großartiges Beispiel für das Sprichwort „Eine steigende Flut hebt alle Boote“ in der KI-Industrie, da es eine Bibliothek ist, die direkt auf LangChain und dessen Popularität aufbaut.
Abschließend möchten wir die Zunahme von Open-Source-Bibliotheken hervorheben, die die Entwicklung mit LLMs einfacher als je zuvor machen. Bibliotheken wie vLLM ermöglichen es jedem Entwickler, mit einer Vielzahl von LLMs auf seinen eigenen Maschinen zu experimentieren, während sie gleichzeitig einfach einzurichten, zu warten und anzupassen sind.
Was im Jahr 2024 zu erwarten ist: LangChain und andere Entwickler-Tools, die sich auf LLM-Pipelines konzentrieren, werden sich weiter ausbreiten, und die Weiterentwicklung von infrastrukturähnlichen Tools (wie LangChain) wird die Entwicklung von spezialisierteren Tools (wie LlamaIndex) unterstützen. Code-Bibliotheken, die den einfachen Zugang zu Open-Source-LLMs erleichtern, werden ebenfalls ein Wachstumsbereich für das nächste Jahr sein.
3) Größere Kontextgrößen
Als GPT-4 zum ersten Mal offiziell von OpenAI in einem Blogbeitrag angekündigt wurde, war die Kontextgröße der Modelle noch auf ein absolutes Maximum von 32.000 Token begrenzt. Jetzt haben wir Modelle wie Googles Gemini 1.5, die Kontextgrößen von einer Million Token haben. Innerhalb des nächsten Jahres sollten die Kontextgrößen kein Problem mehr darstellen, da die Modelle nahezu unendliche Speicherkapazitäten erreichen.
Größere Kontexte bringen jedoch auch eine Reihe von Problemen mit sich. Versteht der LLM bei so vielen Eingabemarken all diese Eingaben richtig und nutzt sie, um seine Ausgabe zu erstellen? Die Leute waren zu Recht neugierig und haben „Nadel im Heuhaufen“-Tests entwickelt, um herauszufinden, ob LLMs Schlüsselinformationen, die in einer großen Eingabeaufforderung versteckt sind, korrekt finden können. Bisher waren die Ergebnisse gemischt, so dass wir große Verbesserungen in diesem Bereich erwarten, wenn größere Kontextgrößen für LLMs zur Norm werden.
Was im Jahr 2024 zu erwarten ist: LLM-Systeme werden zu nahezu unbegrenzten Speicherkapazitäten tendieren und immer besser in der Lage sein, den gesamten Eingabekontext für Aufgaben zu nutzen.
4) Reife des LLM-Ökosystems führt zu Kostensenkungen
Wenn eine Branche reift, werden die Prozesse effizienter, was zu niedrigeren Kosten auf breiter Front führt. LLMs im Bereich der KI sind da keine Ausnahme. Damals, im März 2023, kostete der GPT3.5-Turbo von OpenAI 0,002 $ pro tausend Token oder 2 $ pro Million Token. Das gleiche Modell ist heute viermal billiger und kostet 0,50 Dollar pro Million Token. Dies ist gut, aber es ist immer noch weit weg von dem, was ideal ist – und weit weg von dem, was wahrscheinlich im Laufe des nächsten Jahres oder so passieren wird.
Es gibt auch einen Trend in der Branche, verkleinerte und billigere Versionen von bestehenden Modellen anzubieten. Neben OpenAIs GPT-Turbo haben Anthropic, die Schöpfer der beliebten Claude-Modellfamilie, ihr eigenes günstigeres Angebot namens Haiku veröffentlicht. Mit einem Preis von nur 0,25 $ pro Million Token zielt es auf Geschwindigkeit und Preiseffizienz im Vergleich zu seinen größeren Cousins in Parametergröße ab.
Im Allgemeinen sind Closed-Source-Modelle (wie GPT von OpenAI und Claude von Anthropic), die nur über APIs zugänglich sind, bekanntermaßen teurer. Dies wird durch diese praktische Tabelle bestätigt, die einen guten Überblick über die Kosten vieler heutiger Modelloptionen gibt. Mehr noch als ihre Gated-Pendants haben Open-Source-Modelle große Fortschritte bei der Kostensenkung gemacht, wobei LLM-Computing-Plattformen wie Anyscale jetzt Open-Source-Angebote für nur 0,15 $ pro Million Token anbieten.
Wir glauben, dass weitere Kostensenkungen wahrscheinlich von mehr Startups kommen werden, die an effizienter LLM-Inferenz arbeiten. Im November wurde Grok von xAI mit einem Blogpost vorgestellt, in dem der Schwerpunkt auf dem „Training von LLMs mit außergewöhnlicher Effizienz“ lag. Kontinuierliche Geschwindigkeits- und Effizienzverbesserungen der Modelle werden sich durchsetzen und dazu beitragen, die Endkosten für Entwickler und Endnutzer gleichermaßen zu senken.
Was im Jahr 2024 zu erwarten ist: Eine höhere Modelleffizienz wird dazu beitragen, die LLM-Kosten auf breiter Front zu senken. Und Start-ups (wie Foundry) sollten zur Kostensenkung beitragen, indem sie die Datenverarbeitung zugänglicher, zuverlässiger und kostengünstiger machen.
5) Verbesserung der Feinabstimmung
Letztes Jahr haben wir die Feinabstimmung als einen Prozess zur Verbesserung des Wissens und der Genauigkeit eines Modells bei bestimmten Aufgaben hervorgehoben. RAG ist mittlerweile das Hauptinstrument für LLM-Systeme zur Verbesserung der faktischen Genauigkeit eines Modells, vor allem weil es einfacher ist, es mit neuen Informationen zu aktualisieren, ohne den teuren Aufwand für das Neutraining eines Modells, der mit der Feinabstimmung einhergeht.
Die Feinabstimmung als Technik hat sich jedoch weiterentwickelt und erfüllt nun einen neuen Zweck. Anstatt sich auf eine oberflächliche faktische Genauigkeit in einer Vielzahl von Bereichen zu konzentrieren (etwas, das sich besser für RAG eignet), ist die Feinabstimmung von Modellen perfekt geeignet, um die Tiefe und die Fähigkeiten von Modellen in spezialisierten Bereichen zu erhöhen, insbesondere wenn Unternehmen über die notwendigen großen Mengen an vormarkierten Daten verfügen, um ein Modell neu zu trainieren. Dies ist genau die Art von Feinabstimmung, die Codium so gut macht, um nützliche und genaue Tests für Entwickler zu erstellen.
Trotz einer Kurskorrektur in Bezug auf den Zweck der Feinabstimmung gab es im vergangenen Jahr große Fortschritte in der Feinabstimmungsforschung. LoRA ist beispielsweise eine verbesserte Feinabstimmungsmethode, die auf Effizienz durch Feinabstimmung kleinerer „Adapter“ abzielt, die dann in das ursprüngliche, vortrainierte Modell geladen werden, anstatt das ursprüngliche Modell vollständig neu zu trainieren.
Dieser praktische Artikel beschreibt, wie die RAG und die Feinabstimmung des Modells jetzt zusammen verwendet werden können, um verschiedene Teile eines LLM-Systems zu verbessern. Wir erwarten, dass die Feinabstimmung weiterhin Fortschritte bei Geschwindigkeit und Genauigkeit bringt.
Was im Jahr 2024 zu erwarten ist: Die Feinabstimmungsmodelle werden sich in ihrer Wirkung, ihrer Geschwindigkeit und ihrem Zweck weiter verbessern und weiterentwickeln.
6) KI-Ausrichtung
Wie bei jeder neuen Technologie, die wir in der Vergangenheit erlebt haben, sind die ersten Jahre immer ein wilder Westen in Bezug auf die Regulierung. Da Lebenslanges Lernen immer alltäglicher und bekannter wird, gibt es auch neue Bestrebungen, um sicherzustellen, dass jedes zukünftige Wachstum in eine sichere und ethische Richtung gelenkt wird.
Im März 2024 verabschiedeten Regierungen auf der ganzen Welt das erste globale Abkommen über KI. Die Generalversammlung der Vereinten Nationen nahm diese Resolution an, um den Schutz der Privatsphäre und der Datenrechte im Zusammenhang mit den Entwicklungen der KI zu fördern.
Wir gehen davon aus, dass weiterhin Maßnahmen zur „KI-Anpassung“ eingeleitet werden, und zwar sowohl von Regierungsstellen als auch von führenden KI-Firmen.
Was im Jahr 2024 zu erwarten ist: Maßnahmen von Spitzenunternehmen, Persönlichkeiten und Regierungen, um die KI zum Wohle der Gesellschaft einzusetzen. Ob diese Maßnahmen ihre erklärten Absichten tatsächlich erreichen werden, ist jedoch eine andere Frage (und Gegenstand vieler Diskussionen).
Vom Prompt-Engineering zum Flow-Engineering: Der Mentalitätswechsel im Jahr 2024
Letztes Jahr haben wir einige laufende Forschungsbereiche zur Verbesserung des LLM-Schlussfolgerns hervorgehoben, einer davon ist das Chain-of-Thought-Schlussfolgern. Chain-of-Thought ist ein großartiges Beispiel für eine breitere Verlagerung im Bereich der KI von einem einzelnen „Prompt-Engineering“-Ansatz, bei dem versucht wurde, das Modelldenken durch die Änderung einzelner Teile eines Systems (Umschreiben einzelner Eingabeaufforderungen) zu verbessern, hin zu einem mehrstufigen „Flow-Engineering“-Ansatz, bei dem das KI-Denken stattdessen durch ein interaktives und schrittweises Verfahren verbessert wird.
Nehmen Sie unsere AlphaCodium-Forschung als Beispiel. Wir haben herausgefunden, dass ein mehrstufiger Ansatz zur Codegenerierung, der zahlreiche Schritte zur Generierung von Lösungen, zur Generierung von Testfällen und zur anschließenden Überarbeitung des Codes auf der Grundlage der Testergebnisse umfasst, GPT-4 dabei hilft, genauere Codelösungen zu generieren als einzelne, gut konstruierte Aufforderungen. Wir glauben, dass dies eine große Sache ist (und andere Leute denken das auch).
Das Schöne an dieser Idee ist, dass sie einen Rahmen für die Entwicklung darstellt: Derselbe mehrstufige Codegenerierungsansatz kann für verschiedene Modelle verwendet werden – nicht nur für GPT-4. Allgemeiner ausgedrückt: Die Idee, nicht mehr viel Zeit mit „Prompt-Engineering“ zu verbringen, sondern sich auf den Aufbau eines iterativen Schritt-für-Schritt-Flow-Ansatzes zu konzentrieren, ist auch auf andere KI-bezogene Aufgaben außerhalb der Codegenerierung anwendbar.
Dieser Paradigmenwechsel im Flow-Engineering ist der Höhepunkt all der oben genannten Punkte: Ein Wechsel zu LLM-Pipelines, die es ermöglichen, dass Datenverarbeitungsschritte, externe Datenabrufe (RAG) und dazwischen liegende Modellaufrufe zusammenarbeiten, um die KI-Folgerung zu fördern, was durch eine kostengünstigere Infrastruktur und benutzerfreundlichere Entwicklerwerkzeuge erleichtert wird. Wir glauben, dass hier im nächsten Jahr der nächste große Sprung im AI-Reasoning stattfinden wird.