DeepSeek kündigt die nächste Generation des V4-Modells an, das vollständig auf inländischen Chips basiert und nicht mehr auf NVIDIA-GPUs angewiesen ist. Vom ZTE-Vorfall bis zu den drei Chip-Embargos durch die USA, verfolgt die chinesische KI-Industrie drei parallele Strategien: Algorithmusoptimierung, inländische Alternativen und Token-Export.
(Vorheriger Kontext: Lao Gao spricht über DeepSeek: Absolut kein Plagiat von ChatGPT, sondern technologische Umgehung der NVIDIA CUDA-Plattform)
(Hintergrund: FBI und Weiße Haus untersuchen! Verdacht: DeepSeek nutzt Singapore White Gloves, um NVIDIA-Chips zu erhalten)
Vor acht Jahren kam ZTE zum Stillstand. Am 16. April 2018 verhängte das US-Handelsministerium eine Exportkontrolle, die ZTE, den weltweit viertgrößten Anbieter von Kommunikationstechnologie mit 80.000 Mitarbeitern und einem Jahresumsatz von über 100 Milliarden, über Nacht lahmlegte. Die Regelung war einfach: Für die nächsten sieben Jahre ist es US-Unternehmen verboten, Komponenten, Waren, Software und Technologien an ZTE zu verkaufen.
Ohne Qualcomm-Chips, keine Basisstationen. Ohne Google Android-Lizenz, kein funktionierendes Mobiltelefon. Nach 23 Tagen gab ZTE eine Erklärung ab, dass die Hauptgeschäftstätigkeiten nicht mehr fortgeführt werden können.
Doch ZTE überlebte letztlich, allerdings zu einem hohen Preis: 1,4 Milliarden US-Dollar.
Eine Strafe von 1 Milliarde US-Dollar wurde sofort bezahlt; 400 Millionen US-Dollar Kaution auf Treuhandkonten in den USA hinterlegt. Zudem wurden alle Führungskräfte ausgetauscht und ein US-Compliance-Team überwacht. Im Jahr 2018 verzeichnete ZTE einen Nettoverlust von 7 Milliarden RMB, der Umsatz sank im Jahresvergleich um 21,4%.
Der damalige ZTE-Vorstandsvorsitzende Yin Yimin schrieb in einem internen Brief: „Wir befinden uns in einer Branche, die hochkomplex ist und stark von globalen Lieferketten abhängt.“ Diese Worte waren damals eine Reflexion, aber auch eine Art Resignation.
Acht Jahre später, am 26. Februar 2026, kündigte das chinesische KI-Start-up DeepSeek an, dass sein kommendes V4-Multimodalmodell in enger Zusammenarbeit mit inländischen Chip-Herstellern entwickelt wird. Es wird erstmals eine vollständige Pipeline von Pretraining bis Feinabstimmung ohne NVIDIA realisiert.
Kurz gesagt: Wir brauchen NVIDIA nicht mehr.
Die Ankündigung löste zunächst Skepsis im Markt aus. NVIDIA hält über 90 % des globalen Marktes für KI-Trainingschips. Ist es wirtschaftlich sinnvoll, darauf zu verzichten?
Doch hinter DeepSeek’s Entscheidung steckt ein viel größeres Problem als nur die Geschäftslogik: Was bedeutet „Unabhängigkeit“ in der Rechenleistung für Chinas KI?
Viele glauben, dass das Chip-Embargo die Hardware betrifft. Doch was China wirklich lähmt, ist etwas namens CUDA.
CUDA, Compute Unified Device Architecture, ist eine parallele Rechenplattform und Programmiermodell, das NVIDIA 2006 vorstellte. Es erlaubt Entwicklern, direkt die Rechenleistung der NVIDIA-GPUs zu nutzen, um komplexe Aufgaben zu beschleunigen.
Vor der Ära der KI war CUDA nur eine Nische für Technik-Enthusiasten. Mit dem Aufstieg des Deep Learning wurde CUDA jedoch zum Grundpfeiler der KI-Industrie.
Das Training großer KI-Modelle basiert im Wesentlichen auf massiven Matrixberechnungen – genau das, was GPUs besonders gut können.
NVIDIA hat mit einer mehrjährigen Vorarbeit eine komplette Toolchain von Hardware bis Anwendung aufgebaut, die auf CUDA basiert. Heute sind alle führenden KI-Frameworks, von Google TensorFlow bis Meta PyTorch, tief in CUDA integriert.
Ein KI-PhD-Student lernt von Anfang an in einer CUDA-Umgebung, programmiert und experimentiert dort. Jede Zeile Code stärkt die Position von NVIDIA.
Bis 2025 hat sich das CUDA-Ökosystem auf über 4,5 Millionen Entwickler ausgeweitet, die mehr als 3.000 GPU-gestützte Anwendungen nutzen. Über 40.000 Unternehmen weltweit setzen CUDA ein. Das bedeutet, über 90 % der globalen KI-Entwickler sind an NVIDIA gebunden.
CUDA ist ein Teufelskreis: Mehr Nutzer bedeuten mehr Tools, Bibliotheken und Code, was das Ökosystem noch attraktiver macht. Dieses Wachstum ist kaum aufzuhalten.
NVIDIA verkauft die teuersten Werkzeuge und definiert die einzige Art des „Mining“. Will man wechseln? Kein Problem. Aber man muss all die Erfahrungen, Tools und Codes, die in den letzten Jahren entstanden sind, neu schreiben.
Wer trägt die Kosten?
Als im Oktober 2022 die erste Runde der US-Exportkontrollen für NVIDIA A100 und H100 nach China umgesetzt wurde, fühlten chinesische KI-Firmen erstmals eine Art Ohnmacht – ähnlich wie bei ZTE. NVIDIA reagierte mit „China-spezifischen“ Versionen wie A800 und H800, die die Bandbreite einschränkten, um die Versorgung aufrechtzuerhalten.
Doch nur ein Jahr später, im Oktober 2023, wurden diese erneut eingeschränkt, A800 und H800 verboten, 13 chinesische Firmen auf die Entity List gesetzt. NVIDIA brachte eine weiter reduzierte Version H20 auf den Markt. Bis Dezember 2024, unter der Biden-Administration, wurde der letzte Schritt vollzogen: Der Export von H20 wurde streng limitiert.
Drei Runden, immer verschärft.
Doch diesmal verlief die Entwicklung anders als bei ZTE.
Viele glaubten, dass die KI-Modelle in China dadurch zum Stillstand kommen. Doch sie irrten.
Statt frontal zu kämpfen, begannen chinesische Firmen, sich durch Algorithmus-Optimierungen zu befreien. Der erste Angriffspunkt war nicht die Hardware, sondern die Software.
Ende 2024 bis 2025 konzentrierten sich chinesische KI-Unternehmen auf eine Technik: Hybride Expert-Modelle.
Kurz gesagt: Ein großes Modell wird in viele kleine Spezialisten aufgeteilt. Bei Aufgaben werden nur die relevantesten Experten aktiviert, anstatt das ganze Modell laufen zu lassen.
DeepSeek’s V3 ist ein Paradebeispiel. Es hat 671 Milliarden Parameter, nutzt aber nur 37 Milliarden (5,5 %) bei der Inferenz. Für das Training wurden 2.048 NVIDIA H800 GPUs 58 Tage lang eingesetzt, mit Gesamtkosten von 5,576 Millionen USD. Zum Vergleich: Schätzungen zufolge kostet das Training von GPT-4 etwa 78 Millionen USD – ein Unterschied im Größenordnungsbereich.
Durch algorithmische Optimierungen sinken die Kosten erheblich. DeepSeek’s API kostet nur 0,028 bis 0,28 USD pro Million Tokens bei Eingaben, 0,42 USD bei Ausgaben. Im Vergleich zu GPT-4, das bei Eingaben 5 USD und bei Ausgaben 15 USD kostet, ist das eine enorme Ersparnis. Claude Opus ist noch teurer: 15 USD für Eingaben, 75 USD für Ausgaben. Damit ist DeepSeek 25 bis 75 Mal günstiger.
Diese Preisunterschiede haben enorme Auswirkungen auf den globalen Entwicklermarkt. Im Februar 2026 stieg die Nutzung von chinesischen KI-Modellen auf der Plattform OpenRouter innerhalb von drei Wochen um 127 %, erstmals übertraf China die USA. Ein Jahr zuvor lag der Anteil chinesischer Modelle bei unter 2 %. Nach einem Jahr stieg er auf fast 60 %, eine Steigerung um 421 %.
Hinter diesen Zahlen steckt eine wichtige strukturelle Veränderung: Seit der zweiten Hälfte 2025 verschieben sich die Hauptanwendungen von Chat zu Agenten. Bei Agenten ist der Token-Verbrauch pro Aufgabe 10- bis 100-mal höher als bei einfachem Chat. Wenn die Token-Kosten exponentiell steigen, wird der Preis zum entscheidenden Faktor. Chinas Modelle bieten das beste Preis-Leistungs-Verhältnis in diesem Szenario.
Doch die niedrigeren Inferenzkosten lösen nicht das Grundproblem: Das Training eines großen Modells muss kontinuierlich mit aktuellen Daten erfolgen, sonst verliert es schnell an Leistungsfähigkeit. Und das Training bleibt die große Herausforderung – der unüberwindbare Black Hole der Rechenleistung.
Woher also die „Schaufel“ fürs Training?
In Jiangsu, in der kleinen Stadt Xinghua, bekannt für Edelstahl und gesunde Lebensmittel, gab es bisher keine Verbindung zur KI. Doch 2025 wurde hier eine 148 Meter lange inländische Server-Fertigungslinie für Rechenleistung in Betrieb genommen – in nur 180 Tagen von Vertragsabschluss bis Produktion.
Im Kern bestehen diese Server aus zwei vollständig inländischen Chips: dem Longxin 3C6000-Prozessor und der Taichu Yuanqi T100 AI-Beschleunigerkarte. Der Longxin 3C6000 wurde vollständig eigenentwickelt, von Befehlssatz bis Mikroarchitektur. Die Taichu Yuanqi basiert auf einem heterogenen Multi-Core-Design, entwickelt vom nationalen Supercomputing-Zentrum Wuxi und Tsinghua-Teams.
Bei voller Produktion können alle 5 Minuten ein Server hergestellt werden. Die Investition beträgt 1,1 Milliarden RMB, mit einer geplanten Jahreskapazität von 100.000 Einheiten.
Noch wichtiger: Mit diesen inländischen Chips gebaute Cluster hat bereits echte große Modelle im Training übernommen.
Im Januar 2026 veröffentlichten Zhipu AI und Huawei das GLM-Image, das erste vollständig inländisch trainierte State-of-the-Art-Bildgenerierungsmodell. Im Februar wurde das milliardenschwere „Xingchen“-Modell der China Telecom auf einem inländischen Cluster in Shanghai vollständig trainiert.
Diese Beispiele beweisen: Inländische Chips sind vom reinen Inferenz- zum Trainings-Equipment geworden – ein Quantensprung. Während Inferenz nur das bereits trainierte Modell nutzt, erfordert das Training enorme Rechenleistung, komplexe Gradientenberechnungen und Parameter-Updates – Anforderungen, die die Chips, die Bandbreite und die Software-Ökosysteme auf ein neues Level heben.
Das Herzstück für diese Aufgaben sind Huaweis Ascend-Chips. Bis Ende 2025 hat die Ascend-Community über 4 Millionen Entwickler, mehr als 3.000 Partner und 43 große Modelle, die auf Ascend vortrainiert wurden. Über 200 Open-Source-Modelle wurden angepasst. Auf der MWC im März 2026 präsentierte Huawei die neue Rechenplattform SuperPoD für den internationalen Markt.
Der Ascend 910B erreicht im FP16-Modus die Leistung eines A100. Zwar besteht noch eine Lücke, doch die Nutzung ist möglich, und die Bedienbarkeit verbessert sich. Die Ökosystementwicklung darf nicht auf die perfekte Chip-Generation warten, sondern muss in einer ausreichenden Phase großflächig starten, um durch reale Anwendungen die Chips und Software weiterzuentwickeln. Ziel ist es, die inländischen Rechenzentren, wie ByteDance, Tencent und Baidu, bis 2026 zu verdoppeln. Laut MIIT erreicht Chinas KI-Rechenkapazität 1590 EFLOPS – das Jahr 2026 wird zum Jahr der inländischen Recheninfrastruktur.
Anfang 2026 pausierten in Virginia, der wichtigsten US-Datenzentrum-Region, die Genehmigungen für neue Projekte. Georgia folgte, und die Genehmigungsstopps dauern bis 2027. Illinois und Michigan schritten ebenfalls ein.
Laut IEA verbrauchen US-Datenzentren 2024 bereits 183 TWh Strom – etwa 4 % des nationalen Verbrauchs. Bis 2030 soll sich dieser Wert auf 426 TWh verdoppeln, mit einem Anteil von über 12 %. Arm-CEO prognostiziert, dass KI-Datenzentren bis 2030 20-25 % des US-Stromverbrauchs ausmachen werden.
Das US-Stromnetz ist überlastet. Das PJM-Netz, das 13 Bundesstaaten im Osten versorgt, hat ein Kapazitätsdefizit von 6 GW. Bis 2033 wird die Lücke auf 175 GW anwachsen – genug, um 130 Millionen Haushalte zu versorgen. Die Stromkosten in den wichtigsten Datenzentrum-Regionen sind im Vergleich zu vor fünf Jahren um 267 % gestiegen.
Der Endpunkt der Rechenkapazität ist Energie. Und im Energiebereich ist die Kluft zwischen China und den USA noch größer als bei Chips – nur in umgekehrter Richtung.
Chinas Jahresstromerzeugung beträgt 10,4 Billionen kWh, die der USA 4,2 Billionen kWh – China produziert 2,5-mal mehr. Noch entscheidender: Der Anteil der Haushaltsenergie am Gesamtverbrauch ist in China nur 15 %, in den USA jedoch 36 %. Das bedeutet, China hat deutlich mehr industriellen Stromüberschuss, der in Rechenzentren investiert werden kann.
Bei den Stromkosten liegt die US-Industrie bei 0,12 bis 0,15 USD pro kWh, während die Industrie in Westchina nur etwa 0,03 USD zahlt – nur ein Viertel bis Fünftel der US-Preise.
Chinas Stromzuwachs ist siebenmal so hoch wie der der USA.
Während die USA mit Energieproblemen kämpfen, expandiert Chinas KI-Export still und leise. Dieses Mal geht es nicht um Produkte oder Fabriken, sondern um Token.
Token, die kleinste Verarbeitungseinheit in KI-Modellen, werden zu neuen digitalen Gütern. Sie entstehen in chinesischen Rechenzentren und werden via Glasfaserkabel weltweit verschickt.
DeepSeek’s Nutzerverteilung zeigt: 30,7 % in China, 13,6 % in Indien, 6,9 % in Indonesien, 4,3 % in den USA, 3,2 % in Frankreich. Es unterstützt 37 Sprachen und ist in Schwellenländern wie Brasilien sehr beliebt. Über 26.000 Unternehmen haben Konten, 3.200 Organisationen setzen die Enterprise-Version ein.
2025 integrierten 58 % der neuen KI-Start-ups DeepSeek in ihre Tech-Stacks. In China hält DeepSeek 89 % Marktanteil. In anderen sanktionierten Ländern liegt der Anteil zwischen 40 % und 60 %.
Dieses Bild erinnert stark an den Kampf um technologische Autonomie vor vierzig Jahren.
1986 in Tokio, unter enormem Druck der USA, unterzeichnete Japan das „Japan-USA Halbleiterabkommen“. Kernpunkte: Öffnung des japanischen Marktes, US-Chips sollten mindestens 20 % Marktanteil erreichen; Export unterhalb der Kosten wurde verboten; 3 Milliarden USD an Chips wurden mit 100 % Strafzöllen belegt. Zudem wurde Fujitsu die Übernahme von Quick Semiconductor verweigert.
Damals war Japans Halbleiterindustrie auf dem Höhepunkt. 1988 kontrollierte Japan 51 % des Weltmarktes, die USA nur 36,8 %. Die Top 10 der Halbleiterfirmen waren japanisch: NEC, Toshiba, Hitachi, Fujitsu, Mitsubishi, Panasonic. Intel verlor 1985 bei den US-Japan-Kriegen 173 Millionen USD und stand kurz vor dem Bankrott.
Doch nach dem Abkommen änderte sich alles.
Die USA setzten mit 301- und anderen Untersuchungen die japanischen Firmen massiv unter Druck. Gleichzeitig förderten sie koreanische Firmen wie Samsung und Hynix, die mit niedrigeren Preisen den japanischen Markt angriffen. Japans Anteil an DRAM sank von 80 % auf 10 %. 2017 lag Japans Anteil am IC-Markt bei nur noch 7 %. Die einst dominanten Giganten wurden zerschlagen, übernommen oder verließen den Markt in endlosen Verlusten.
Das Scheitern Japans lag darin, dass es sich auf die Rolle des besten Herstellers in einem globalen, von externen Kräften dominierten System beschränkte, ohne eine eigene, unabhängige Ökologie aufzubauen. Als die Wasser zurückgingen, blieb nur die Produktion – alles andere war verloren.
Heute steht Chinas KI-Industrie an einem ähnlichen, aber grundlegend anderen Scheideweg.
Ähnlich ist, dass wir ebenfalls enormen externen Druck spüren: die drei Chip-Embargos, die CUDA-Ökologie mit ihren hohen Barrieren.
Anders ist, dass wir diesmal einen schwierigeren Weg wählen: Von Algorithmus-Optimierung bis hin zu inländischen Chips, die vom Inferenz- zum Trainings-Equipment aufsteigen, von der Ascend-Community mit 4 Millionen Entwicklern bis zum Token-Export in globale Märkte. Jeder Schritt baut eine eigene, unabhängige Industrie-Ökologie auf, die Japan damals nie hatte.
Am 27. Februar 2026 veröffentlichten drei chinesische KI-Chip-Unternehmen ihre Quartalszahlen:
Cambricon verzeichnete ein Umsatzplus von 453 % und erreichte erstmals Gewinn. Moore Threads wuchs um 243 %, machte aber immer noch 1 Milliarde USD Verlust. Muxi steigerte den Umsatz um 121 %, verlor aber fast 800 Millionen USD.
Halb Feuer, halb Meer.
Feuer: Die extreme Marktnachfrage. Die 95 % ungenutzte Kapazität von NVIDIA wird durch die Umsatzzahlen dieser Firmen Schritt für Schritt gefüllt. Egal wie effizient, egal wie das Ökosystem – der Markt braucht eine zweite Alternative zu NVIDIA. Das ist eine historische Chance, die durch geopolitische Spannungen entstanden ist.
Das Meer: Die enormen Kosten für den Aufbau eines eigenen Ökosystems. Jeder Verlust ist eine Investition in die Unabhängigkeit. Forschung und Entwicklung, Software-Subventionen, Ingenieure vor Ort, die Probleme lösen – all das sind Kriegssteuern für den Aufbau einer eigenen Ökologie.
Diese drei Quartalsberichte sind ehrlicher als jede Branchenanalyse. Sie zeigen: Es ist kein Siegeszug, sondern ein blutiger Stellungskrieg, bei dem man ständig blutet und vorn bleibt.
Doch die Kriegsführung hat sich verändert. Vor acht Jahren ging es um das Überleben. Heute geht es um den Preis, den man für das Überleben zahlt.
Der Preis ist Fortschritt.