freigeben: 2026/05/07 20:37 lesen: 0
Ursprünglicher Autor:あ みつけたわよ。旧・成れの果て戦
Originalquelle:https://www.youtube.com/embed/HympcQeB38g
#remotion #codex #ai Das ist eine grobe Erklärung. Erzählen Sie mir bitte die Hälfte der Geschichte. Das Audio wurde mit irodoriTTS erstellt, mit sbv2.7 trainiert und mit aivisspeech verwendet. Habe Remotion verwendet, um ein Video mit Codex zu erstellen. Der Charakter des Bildes ist das PixAIsunflower-Modell und GPTImage2.0.kv-Cache ist eine Abkürzung für Key-Value Cache. Ich habe es falsch verstanden. Referenzpapier: https://arxiv.org/abs/2511.00739 Artikel: https://note.com/atom_/n/n1a3ae798251c Warum der CPU-Bedarf im Zeitalter der KI-Agenten steigen wird Wenn man sich die Entwicklung der generativen KI ansieht, denken viele zuerst an GPUs. Es trainiert ein riesiges KI-Modell, generiert Bilder, generiert Videos und verarbeitet große Mengen an Matrixoperationen mit hoher Geschwindigkeit. GPUs sind die Halbleiter im Herzen der modernen KI und man kann sie als Symbol für Investitionen in die KI-Infrastruktur bezeichnen. Wenn man jedoch über die zukünftige KI-Infrastruktur nachdenkt, ist es wichtig zu verstehen, dass es nicht mehr so einfach ist wie „GPU ist leistungsstark, also müssen wir uns nur auf GPU konzentrieren“. Tatsächlich gilt: Je leistungsfähiger die GPU, desto wichtiger werden die CPU, der Arbeitsspeicher, das Netzwerk, der Speicher und der Scheduler um sie herum. Dies liegt daran, dass die GPU warten muss, egal wie leistungsstark Ihre GPU ist, wenn der Mechanismus zur Weitergabe von Arbeit an die GPU langsam ist. Der Schlüssel zum Erfolg in der KI-Infrastruktur liegt darin, über die Leistung eines einzelnen Chips hinaus zu einem Gesamtdesign zu gelangen, das den effizienten Betrieb riesiger Rechenressourcen ermöglicht. Das Wesen der GPU ist die massiv parallele Berechnung. Es ist sehr stark in Anwendungen wie Transformer, Attention, Bildgenerierung, Videogenerierung und Simulation, wo eine große Anzahl gleichartiger Berechnungen auf einmal verarbeitet werden. GPUs zeigen eine überwältigende Leistung bei Matrixberechnungen, die den Kern von KI-Modellen bilden. Daher werden GPUs weiterhin eine zentrale Rolle beim KI-Lernen und groß angelegten Inferenzen spielen. Dies ist nicht das Ende der GPU-Nachfrage. Tatsächlich gilt: Je wichtiger KI wird, desto wichtiger werden auch GPUs bleiben. Der gesamte KI-Dienst besteht jedoch nicht nur aus Matrixoperationen. In tatsächlichen KI-Diensten findet eine große Menge detaillierter Steuerungsverarbeitung statt, wie API-Empfang, Benutzerauthentifizierung, Anforderungsverteilung, Tokenisierung, Warteschlangenverwaltung, Stapelverarbeitung, Protokollierung, Abrechnung, Sicherheit, Fehlerbehandlung usw. Dabei handelt es sich nicht um die riesigen parallelen Berechnungen, in denen GPUs gut sind, sondern in den Verzweigungs- und Kontrollbereichen, in denen CPUs gut sind. Gerade im Zeitalter der KI-Agenten wird diese CPU-seitige Verarbeitung noch anspruchsvoller. KI-Agenten können mehr als nur Fragen beantworten. Es führt Suchvorgänge durch, öffnet Browser, durchsucht Datenbanken, führt Python aus, liest Dateien, ruft externe APIs auf und versucht es erneut, wenn es fehlschlägt. Dabei handelt es sich eher um echten Papierkram als um eine Berechnung innerhalb eines Modells. Mit anderen Worten: Je intelligenter der KI-Agent wird, desto mehr Kontrolle, Konnektivität, Entscheidungsfindung und erneute Ausführung finden außerhalb des Modells statt. In diesem Fall spielt die CPU nicht nur eine unterstützende Rolle. Die CPU ist die Kommandozentrale, die die nächste Arbeit an das Modell weitergibt, die zurückkommenden Ergebnisse prüft, bei Bedarf andere Tools aufruft und den gesamten Prozess vorantreibt. Wenn die GPU ein riesiger Schmelzofen ist, ist die CPU der Manager, der Materialien transportiert, die Reihenfolge bestimmt, Prozesse verwaltet und vor Ort reagiert, wenn etwas schief geht. Je höher die Leistung der GPU, desto wichtiger ist die Fähigkeit der CPU, die GPU im Leerlauf zu halten. Diese Struktur wird deutlich, wenn man sich die LLM-Argumentation anschaut. Die Inferenz umfasst das Vorfüllen, das alle eingegebenen Sätze auf einmal verarbeitet, und die Dekodierung, die Wort für Wort Fortsetzungen generiert. Das Vorfüllen lässt sich relativ einfach parallelisieren und ist ein Prozess, in dem GPUs gut sind. Andererseits ist die Dekodierung sequentiell und erfordert das vorherige Ergebnis, um das nächste Token zu erzeugen, sodass die GPU nicht immer mit maximaler Effizienz laufen kann. Hier wird die Leistung der Inferenzplattform stark davon beeinflusst, wie Anforderungen gemischt werden, wann sie gestapelt werden und wie Speicher verwendet wird. Noch wichtiger ist der KV-Cache. Der KV-Cache ist ein riesiger Arbeitsspeicher zum Speichern des Kontexts während der Generierung. Der KV-Cache wird erweitert, wenn lange Textkontexte, mehrere Benutzer gleichzeitig, die Generierung mehrerer Kandidaten und die internen Schleifen des Agenten zunehmen. Es ist größtenteils eine Aufgabe des Betriebssystems, diesen Speicher nach Bedarf zuzuweisen, freizugeben, wiederzuverwenden und hierarchisch zu verwalten. Auch hier wird das Gesamtdesign einschließlich CPU, DRAM, HBM, CXL, SSD und NIC getestet. Mit anderen Worten: Die KI-Inferenz entwickelt sich von einer Welt, in der nur GPU-Berechnungen durchgeführt werden, zu einem mehrschichtigen System, in dem CPUs, GPUs, Arbeitsspeicher, Netzwerke und Massenspeicher zusammenarbeiten. Wer nur auf die GPU schaut, übersieht verstopfte Leitungen. Unabhängig davon, wie leistungsstark ein GPU-Cluster ist, verbessert sich die Gesamtleistung nicht, wenn die Planung auf der CPU-Seite schwach ist, die Speicherbandbreite nicht ausreicht, das Netzwerk verstopft ist oder der Speicher langsam ist. Die KI-Infrastruktur muss als Gesamtsystem betrachtet werden, nicht nur als einzelner Chip. Das Wesentliche der CPU ist die Verzweigung und Steuerung. Interrupts, Ausnahmen, privilegierte Modi, virtueller Speicher, Kontextwechsel, E/A. Die CPU ist ein Prozessor, der eine Welt verwaltet, in der wir nicht wissen, was kommt. Obwohl es der GPU hinsichtlich der Effizienz bei der Verarbeitung großer Mengen derselben Berechnungen auf einmal unterlegen ist, ist es bei unregelmäßiger Verarbeitung, externen Verbindungen, detaillierten Beurteilungen und Reaktion auf Fehler stark. Diese Flexibilität ist in Systemen wie KI-Agenten, in denen sich die Situation jedes Mal ändert, sehr wichtig. Andererseits ist TPU ein dedizierter ASIC für Tensorberechnungen. Seine Stärken liegen in großen stilisierten Matrixoperationen, Masseninferenzen in der Cloud und rechnerischen Diagrammen, die von einem Compiler verfestigt werden können. In einer Umgebung wie Google, in der Modelle, Compiler, Cloud und Hardware vertikal integriert werden können, werden TPUs zu sehr effizienten dedizierten Fabriken. In einem Bereich mit vielen dynamischen Formen, detaillierten Verzweigungen und einzigartigen Berechnungen ist sie jedoch nicht so flexibel wie eine GPU. Obwohl es in der standardisierten Verarbeitung stark ist, weist es Einschränkungen in Forschung, Entwicklung und Feldreaktion auf, die schnellen Änderungen unterliegen. LPU ist eine spezialisierte Engine für Sprachinferenz, insbesondere für die Token-Generierung mit geringer Latenz. Mit menschlichem Chat, Sprach-KI, kurzen Überlegungen und schnellen Gedankenschleifen innerhalb des Agenten ist die Reaktionsgeschwindigkeit von großem Wert. KI, die schnell reagiert, sorgt für ein natürliches Benutzererlebnis. Es ist jedoch unwahrscheinlich, dass LPUs eine zentrale Rolle bei der Bilderzeugung, Videoerzeugung, 3D, Robotik und groß angelegtem Lernen spielen. Obwohl es stark in der Sprachinferenz mit geringer Latenz ist, ist es nicht als Allzweck-KI-Fabrik positioniert. Auf diese Weise ist die CPU für die Steuerung verantwortlich, die GPU für die flexible massive Parallelität, die TPU für die Berechnung fester Tensoren und die LPU für die Sprachinferenz mit geringer Latenz. Was zählt, ist nicht, wer der Größte ist. Die Frage ist, welche Aufgabe welchem Halbleiter anvertraut werden sollte. Die KI-Infrastruktur entwickelt sich zu einer Arbeitsteilung nach Anwendungsfällen statt zu einem einzigen Gewinner, der alle dominiert. Im Zeitalter der KI-Agenten wird die CPU für Verhaltensmanagement, RAG, DB, API, Sicherheit, Protokolle, Abrechnung und Wiederholungsversuche verantwortlich sein. Die GPU ist für die groß angelegte Inferenz und Generierung verantwortlich, die TPU verarbeitet effizient große Mengen stilisierter Inferenz und die LPU beschleunigt kurze Gedankenschleifen und Gesprächsantworten. Wenn hier die CPU schwach ist, bleibt der Agent bei jedem Aufruf eines Tools hängen. Selbst wenn die GPU stark ist, müssen sowohl der Mensch als auch die GPU warten, wenn die Suchwartezeit, die API-Wartezeit und die DB-Wartezeit zunehmen. Darüber hinaus wird sich diese Struktur im Zeitalter der physischen KI auf die reale Welt ausweiten. Bei Robotern und VLA muss die KI tatsächlich sehen, greifen, gehen, ausweichen und Fehler korrigieren, nicht nur auf dem Bildschirm. Hier ist die CPU für die Steuerung des Betriebssystems, des ROS, der Sensoren, der Motoren, der E/A, des sicheren Stopps, der Berechtigungsverwaltung, der Protokolle usw. auf der Gehäuseseite verantwortlich. Selbst wenn der VLA beschließt, „den Becher zu ergreifen“, ist die CPU dafür verantwortlich, den Arm tatsächlich sicher zu bewegen. Auch bei physischer KI bleibt die GPU stark. Es wird als Motor zur Generierung virtueller Welten für das Lernen über die Realität wichtig sein, einschließlich visuellem Verständnis, VLA-Lernen, Videogenerierung, Weltmodellen, 3D-Simulationen, synthetischen Daten und digitalen Zwillingen. Fehlerbeispiele und Randfälle sind im Robotertraining sehr wichtig. Es ist gefährlich und teuer, Schüler im wirklichen Leben wiederholt zum Scheitern zu bringen, deshalb lassen wir sie viel im virtuellen Raum üben. Aus diesem Grund ist die GPU nicht nur ein Chat-Chip, sondern ein Gerät, mit dem Sie Welten erstellen und üben können. Zusammenfassend lässt sich sagen, dass die Geschichte der Top-GPU nicht zu Ende ist, sondern in das zweite Kapitel übergeht. GPUs werden weiterhin das Herzstück der KI sein. Mit der Verbreitung von KI-Agenten und physischer KI werden jedoch periphere Schichten wie CPU, DRAM, HBM, CXL, NIC, SSD und Scheduler größer. KI wird nicht länger ein einzelner Chip sein, sondern ein Ausführungssystem in Zivilisationsgröße. Unter anderem verbindet die CPU Aktionen mit der GPU im Zentrum, die TPU unterstützt Routineberechnungen und die LPU beschleunigt die Reaktion. Bei der Betrachtung der zukünftigen KI-Infrastruktur ist es wichtig, nicht nur GPUs zu betrachten, sondern auch die enorme Arbeitsteilung in der Halbleiterbranche zu verstehen, die sich um sie herum ausbreitet.
BobbV
2026-05-08 07:20
oriol andre 99
2026-05-08 07:20
HD Ultra rare coins
2026-05-08 07:20
Old world coins vault
2026-05-08 07:20
SMART CRIPTOATIVOS
2026-05-08 07:20
코인신사
2026-05-08 07:00
DARK AXIS MILITARY
2026-05-08 06:57
Economic Policy Institute
2026-05-08 06:38
Coin Servisi
2026-05-08 06:38
Währung auswählen
US Dollar
USD
Chinese Yuan
CNY
Japanese Yen
JPY
South Korean Won
KRW
New Taiwan Dollar
TWD
Canadian Dollar
CAD
Euro
EUR
Pound Sterling
GBP
Danish Krone
DKK
Hong Kong Dollar
HKD
Australian Dollar
AUD
Brazilian Real
BRL
Swiss Franc
CHF
Chilean Peso
CLP
Czech Koruna KČ
CZK
Singapore Dollar
SGD
Indian Rupee
INR
Saudi Riyal
SAR
Vietnamese Dong
VND
Thai Baht
THB
Währung auswählen
US Dollar
USD-$
Chinese Yuan
CNY-¥
Japanese Yen
JPY-¥
South Korean Won
KRW -₩
New Taiwan Dollar
TWD-NT$
Canadian Dollar
CAD-$
Euro
EUR - €
Pound Sterling
GBP-£
Danish Krone
DKK-KR
Hong Kong Dollar
HKD- $
Australian Dollar
AUD-$
Brazilian Real
BRL -R$
Swiss Franc
CHF -FR
Chilean Peso
CLP-$
Czech Koruna KČ
CZK -KČ
Singapore Dollar
SGD-S$
Indian Rupee
INR -₹
Saudi Riyal
SAR -SAR
Vietnamese Dong
VND-₫
Thai Baht
THB -฿