Yang Likun: Es ist Unsinn zu glauben, dass man durch LLM AGI erreichen kann. Die Zukunft der KI benötigt das JEPA-Weltmodell (GTC-Konferenz, tausendwörtliches Interview)

動區BlockTempo

2025-04-19 06:02:58

AGI0,54%

Dieser Artikel enthält ein wörtliches Transkript eines öffentlichen Gesprächs zwischen Yann LeCun, Metas leitendem KI-Wissenschaftler und Turing-Preisträger, und NVIDIA-Chefwissenschaftler Bill Dally. LeCun erklärt, warum er glaubt, dass große Sprachmodelle (LLM) AGI nie wirklich implementieren können. (Synopsis: OpenAI veröffentlicht o3 und o4-mini Die stärksten Inferenzmodelle: können über Bilder nachdenken, automatisch Werkzeuge auswählen und Durchbrüche in Mathematik und Codierungsleistung erzielen) (Hintergrundergänzung: OpenAI schafft heimlich eine eigene “eigene Community-Plattform” und verweist auf Musks X) Wenn große Sprachmodelle (LLM) die weltweite Akzeptanz von KI beschleunigen, Yann LeCun, bekannt als Vater der Convolutional Neural Networks und jetzt leitender KI-Wissenschaftler bei Meta, sagte kürzlich überraschend, dass sein Interesse an LLM nachgelassen hat und er glaubt sogar, dass es nahe am Engpass der LLM-Entwicklung ist. In einem ausführlichen Gespräch mit NVIDIA Chief Scientist Bill Dally im vergangenen Monat erläuterte LeCun seine einzigartigen Einblicke in die zukünftige Richtung der KI und betonte, dass das Verständnis der physischen Welt, das dauerhafte Gedächtnis, die Denk- und Planungsfähigkeiten sowie die Bedeutung des Open-Source-Ökosystems der Schlüssel sind, um die nächste Welle der KI-Revolution anzuführen. Bill Dally: Yann, im vergangenen Jahr sind im KI-Bereich viele interessante Dinge passiert. Was war Ihrer Meinung nach die spannendste Entwicklung des vergangenen Jahres? Yann LeCun: Zu viele, um sie zu zählen, aber lassen Sie mich Ihnen eine Sache sagen, die einige von Ihnen überraschen könnte. Ich interessiere mich nicht mehr so sehr für große Sprachmodelle (LLMs). LLMs befinden sich bereits am Ende der Phase, sie befinden sich in den Händen der Produktexperten in der Branche, aber sie verbessern sich auf der marginalen Ebene und versuchen, mehr Daten zu erhalten, mehr Rechenleistung, synthetische Daten zu generieren. Ich denke, es gibt interessantere Probleme in vier Bereichen: Wie kann man Maschinen dazu bringen, die physische Welt zu verstehen, wie kann man ihnen ein dauerhaftes Gedächtnis geben, worüber nicht viel gesprochen wird, und die letzten beiden sind, wie man sie dazu bringt, zu denken und zu planen. Natürlich gab es einige Bemühungen, LLM dazu zu bringen, zu argumentieren, aber meiner Meinung nach ist dies eine sehr vereinfachte Art, das Denken zu betrachten. Ich denke, es könnte einen besseren Weg geben, dies zu tun. Ich freue mich also auf Dinge, die viele Leute in der Tech-Community vielleicht erst in fünf Jahren begeistern werden. Aber jetzt sehen sie weniger aufregend aus, weil es sich um obskure akademische Arbeiten handelt. Das Weltmodell und die physische Welt verstehen Bill Dally: Aber was wäre es, wenn LLM nicht über die physische Welt nachdenken würde, kein beständiges Gedächtnis hätte und nicht planen würde? Wie sieht das zugrundeliegende Modell aus? Yann LeCun: Es gibt also viele Leute, die am Weltmodell arbeiten. Was ist ein Weltmodell? Wir alle haben Modelle der Welt im Kopf. Es ist im Grunde etwas, das es uns ermöglicht, unseren Verstand zu manipulieren. Wir haben ein Modell der heutigen Welt. Weißt du, wenn ich diese Flasche von oben schiebe, kippt sie wahrscheinlich um, aber wenn ich sie von unten schiebe, rutscht sie. Wenn ich zu fest drücke, kann es platzen. Screenshot des Interviews mit Yann LeCun Wir haben Modelle der physischen Welt, die wir uns in den ersten Monaten unseres Lebens aneignen, die es uns ermöglichen, mit der realen Welt zurechtzukommen. Der Umgang mit der realen Welt ist viel schwieriger als der Umgang mit Sprache. Wir brauchen eine Systemarchitektur, die wirklich mit realen Systemen umgehen kann, die völlig anders sind als das, womit wir es derzeit zu tun haben. Der LLM prognostiziert Token, aber Token können alles sein. Unser selbstfahrendes Automodell verwendet Token von Sensoren und generiert Token, die das Fahrzeug steuern. In gewisser Weise geht es darum, über die physische Welt nachzudenken, zumindest darüber, wo es sicher ist, zu fahren und wo man nicht gegen eine Säule stößt. Bill Dally: Warum ist Token nicht der richtige Weg, um die physische Welt darzustellen? Yann LeCun: Token sind diskret. Wenn wir von Token sprechen, meinen wir in der Regel eine endliche Menge von Möglichkeiten. In einem typischen LLM liegt die Anzahl der möglichen Token bei etwa 100.000. Wenn Sie ein System für die Vorhersage von Token trainieren, können Sie es niemals so trainieren, dass es genau folgende Token in einer Textsequenz vorhersagt. Sie können eine Wahrscheinlichkeitsverteilung über alle möglichen Token in Ihrem Wörterbuch generieren, die nur ein langer Vektor von 100.000 Zahlen zwischen Null und Eins mit einer Summe von eins ist. Wir wissen, wie das geht, aber wir wissen nicht, was wir mit dem Film anfangen sollen, mit diesen hochdimensionalen, kontinuierlichen organischen Daten. Jeder Versuch, ein System dazu zu bringen, die Welt zu verstehen oder ein mentales Modell der Welt zu erstellen, indem man es darauf trainiert, Filme auf Pixelebene vorherzusagen, ist weitgehend gescheitert. Selbst das Trainieren eines Systems, das einer Art neuronalem Netz ähnelt, um eine gute Darstellung eines Bildes zu lernen, scheitert daran, das Bild aus einer beschädigten oder konvertierten Version zu rekonstruieren. Sie funktionieren ein wenig, aber nicht so gut wie alternative Architekturen, die wir Joint Embedding nennen und die im Grunde nicht versuchen, auf Pixelebene neu aufzubauen. Sie versuchen, eine abstrakte Darstellung eines Bildes, eines Films oder eines natürlichen Signals zu lernen, das trainiert wird, damit Sie in diesem abstrakten Darstellungsraum Vorhersagen treffen können. Yann LeCun: Das Beispiel, das ich oft verwende, ist, wenn ich ein Video von diesem Raum aufnehme, die Kamera bewege und hier anhalte, und dann das System bitte, vorherzusagen, was auf diesen Film folgt, könnte es vorhersagen, dass dies ein Raum ist, in dem Menschen sitzen und so weiter. Sie kann nicht vorhersagen, wie jeder von euch aussehen wird. Das ist ab dem ersten Filmmaterial völlig unvorhersehbar. Es gibt viele Dinge auf der Welt, die einfach unvorhersehbar sind. Wenn Sie ein System darauf trainieren, Vorhersagen auf Pixelebene zu treffen, wird es all seine Ressourcen darauf verwenden, Details herauszufinden, die es einfach nicht erfinden kann. Das ist eine völlige Verschwendung von Ressourcen. Jedes Mal, wenn wir es versucht haben, und ich arbeite seit 20 Jahren daran, funktioniert es nicht, ein selbstüberwachtes Lerntrainingssystem zu verwenden, indem Videos vorhergesagt werden. Sie ist nur gültig, wenn sie auf Präsentationsebene erfolgt. Dies bedeutet, dass diese Schemas nicht generativ sind. Bill Dally: Wenn Sie im Grunde sagen, dass Transformatoren diese Fähigkeit nicht haben, aber die Leute haben Vision-Transformer und erzielen großartige Ergebnisse. Yann LeCun: Das habe ich nicht gemeint, denn dafür kann man einen Transformator verwenden. Sie können Transformatoren in diese Architekturen einbauen. Es ist nur so, dass die Art von Architektur, von der ich spreche, als Joint Embedding Predictive Architecture bezeichnet wird. Nehmen Sie also einen Film oder ein Bild oder was auch immer, lassen Sie es durch einen Encoder laufen, Sie erhalten eine Darstellung, und dann nehmen Sie die nachfolgenden Teile dieser konvertierten Version dieses Textes, Films oder Bildes, lassen Sie sie ebenfalls durch einen Encoder laufen und versuchen Sie nun, Vorhersagen in diesem Darstellungsraum zu treffen, nicht im Eingaberaum. Sie können die gleiche Trainingsmethode verwenden, d. h. die Lücken ausfüllen, aber Sie tun dies in diesem latenten Raum und nicht in der ursprünglichen Darstellung. Yann LeCun: Das Schwierige daran ist, dass das System abstürzt, wenn man nicht aufpasst und keine clevere Technologie einsetzt. Es ignoriert die Eingabe vollständig und erzeugt nur eine konstante, nicht vorhandene Menge an Eingabeinformationen.

Original anzeigen

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Distanger

· 2025-04-19 06:55

Die nächste Entwicklungswelle kommt unweigerlich.

Original anzeigenAntworten0