prix: $0.15090 2.9605%

Valeur marchande: $22.92B 0.7601%

Chiffre d’affaires (24h): 1.55B 0%

Dominance: 0.7601%

DOGEHOME

Price: $0.15090 2.9605%

Valeur marchande: $22.92B 0.7601%

Chiffre d’affaires (24h): 1.55B 0%

Dominance: 0.7601% 0.7601%

prix: $0.15090 2.9605%
Valeur marchande: 22.92B 0.7601%
Chiffre d’affaires (24h): 1.55B 0%
Dominance: 0.7601% 0.7601%
prix: $0.15090 2.9605%

première page > 视频 > Qu'est-ce qui vient après la puissance du GPU | Raisons pour lesquelles la demande de processeurs augmentera à l'ère des agents IA [Zettai Noia]

Qu'est-ce qui vient après la puissance du GPU | Raisons pour lesquelles la demande de processeurs augmentera à l'ère des agents IA [Zettai Noia]

libérer: 2026/05/07 20:37 lire: 0

Auteur original：あ　みつけたわよ。旧・成れの果て戦

Source originale：https://www.youtube.com/embed/HympcQeB38g

#remotion #codex #ai Ceci est une explication approximative. S'il vous plaît, racontez-moi la moitié de l'histoire. L'audio a été créé avec irodoriTTS, formé avec sbv2.7 et utilisé avec aivisspeech. J'ai utilisé Remotion pour créer une vidéo avec le codex. Le caractère de l'image est le modèle PixAIsunflower et le cache GPTImage2.0.kv est une abréviation de Key-Value Cache. Je l'ai mal lu. Document de référence : https://arxiv.org/abs/2511.00739 Article : https://note.com/atom_/n/n1a3ae798251c Pourquoi la demande de CPU va augmenter à l'ère des agents d'IA Lorsqu'on examine le développement de l'IA générative, beaucoup de gens pensent d'abord aux GPU. Il entraîne un énorme modèle d'IA, génère des images, génère des vidéos et traite de grandes quantités d'opérations matricielles à grande vitesse. Les GPU sont les semi-conducteurs au cœur de l’IA moderne et peuvent être considérés comme un symbole d’investissement dans les infrastructures d’IA. Cependant, lorsque l'on réfléchit à la future infrastructure d'IA, il est important de comprendre que ce n'est plus aussi simple que « le GPU est puissant, il suffit donc de regarder le GPU ». En fait, plus le GPU est puissant, plus le CPU, la mémoire, le réseau, le stockage et le planificateur qui l'entourent deviennent importants. En effet, quelles que soient les performances de votre GPU, si le mécanisme permettant de transmettre le travail au GPU est lent, le GPU devra attendre. La clé du succès de l’infrastructure d’IA consiste à aller au-delà des performances d’une seule puce pour atteindre une conception globale permettant le fonctionnement efficace d’énormes ressources informatiques. L’essence du GPU est le calcul massivement parallèle. Il est très performant dans des applications telles que Transformer, Attention, la génération d'images, la génération de vidéos et la simulation, où un grand nombre de calculs du même type sont traités en même temps. Les GPU démontrent des performances écrasantes dans les calculs matriciels, qui sont au cœur des modèles d’IA. Les GPU continueront donc à jouer un rôle central dans l’apprentissage de l’IA et l’inférence à grande échelle. Ce n’est pas la fin de la demande de GPU. En fait, plus l’IA devient importante, plus les GPU continueront de l’être. Cependant, l’ensemble du service d’IA n’est pas uniquement constitué d’opérations matricielles. Dans les services d'IA réels, une grande quantité de traitements de contrôle détaillés ont lieu, tels que la réception des API, l'authentification des utilisateurs, la distribution des requêtes, la tokenisation, la gestion des files d'attente, le traitement par lots, la journalisation, la facturation, la sécurité, la gestion des erreurs, etc. Il ne s'agit pas des énormes calculs parallèles pour lesquels les GPU sont bons, mais des domaines de branchement et de contrôle dans lesquels les CPU sont bons. Surtout à l’ère des agents IA, ce traitement côté CPU deviendra encore plus exigeant. Les agents IA font bien plus que simplement répondre aux questions. Il effectue des recherches, ouvre des navigateurs, parcourt des bases de données, exécute Python, lit des fichiers, appelle des API externes et, en cas d'échec, réessaye. Cela ressemble plus à de la paperasse réelle qu'à un calcul à l'intérieur d'un modèle. En d’autres termes, plus l’agent IA devient intelligent, plus le contrôle, la connectivité, la prise de décision et la réexécution ont lieu en dehors du modèle. Dans ce cas, le CPU ne joue pas seulement un rôle de support. Le CPU est le centre de commande qui transmet le travail suivant au modèle, vérifie les résultats qui reviennent, appelle d'autres outils si nécessaire et fait avancer l'ensemble du processus. Si le GPU est un gigantesque four, le CPU est le gestionnaire qui transporte les matériaux, détermine l'ordre, gère les processus et répond sur site en cas de problème. Plus les performances du GPU sont élevées, plus la capacité du CPU à maintenir le GPU inactif est importante. Cette structure est claire lorsque l’on regarde le raisonnement LLM. L'inférence inclut le pré-remplissage, qui traite les phrases saisies en même temps, et le décodage, qui génère des continuations mot par mot. Le pré-remplissage est relativement facile à paralléliser et constitue un processus dans lequel les GPU excellent. D'un autre côté, le décodage est séquentiel et nécessite le résultat précédent pour produire le jeton suivant, de sorte que le GPU ne peut pas toujours fonctionner avec une efficacité maximale. Ici, les performances de la plateforme d'inférence sont grandement influencées par la manière dont les requêtes sont mélangées, le moment où elles sont regroupées et la manière dont la mémoire est utilisée. Le cache KV est encore plus important. Le cache KV est une énorme mémoire de travail pour conserver le contexte pendant la génération. Le cache KV s'étendra à mesure que les contextes de texte longs, plusieurs utilisateurs simultanément, la génération de plusieurs candidats et les boucles internes des agents augmenteront. Il s'agit principalement du travail du système d'exploitation consistant à allouer, libérer, réutiliser et gérer cette mémoire de manière hiérarchique selon les besoins. Là encore, la conception globale comprenant le CPU, la DRAM, le HBM, le CXL, le SSD et la NIC est testée. En d’autres termes, l’inférence IA évolue d’un monde où seuls les calculs GPU sont effectués vers un système en couches dans lequel les CPU, les GPU, la mémoire, les réseaux et le stockage fonctionnent ensemble. Si vous regardez uniquement le GPU, vous négligerez les tuyaux bouchés. Quelle que soit la puissance d'un cluster GPU, les performances globales ne s'amélioreront pas si la planification côté CPU est faible, si la bande passante mémoire est insuffisante, si le réseau est obstrué ou si le stockage est lent. L’infrastructure d’IA doit être considérée comme un système global, et non comme une seule puce. L'essence du processeur est la branchement et le contrôle. Interruptions, exceptions, modes privilégiés, mémoire virtuelle, changements de contexte, E/S. Le CPU est un processeur qui gère un monde où l'on ne sait pas ce qui s'en vient. Bien qu'il soit inférieur au GPU en termes d'efficacité dans le traitement simultané de grandes quantités des mêmes calculs, il est performant en termes de traitement irrégulier, de connexions externes, de jugements détaillés et de réponse aux échecs. Cette flexibilité est très importante dans des systèmes comme les agents IA, où la situation change à chaque fois. D'autre part, TPU est un ASIC dédié aux calculs tensoriels. Il présente des atouts dans les grandes opérations matricielles stylisées, l'inférence de masse sur le cloud et les graphiques informatiques qui peuvent être solidifiés par un compilateur. Dans un environnement comme Google où les modèles, les compilateurs, le cloud et le matériel peuvent être intégrés verticalement, les TPU deviennent des usines dédiées très efficaces. Cependant, il n’est pas aussi flexible qu’un GPU dans un domaine où il existe de nombreuses formes dynamiques, des branches détaillées et des calculs uniques. Bien qu'il soit performant en matière de traitement standardisé, il présente des limites en matière de recherche, de développement et de réponse sur le terrain, qui sont sujets à des changements rapides. LPU est un moteur spécialisé pour l'inférence linguistique, en particulier pour la génération de jetons à faible latence. Avec le chat en attente humaine, l'IA vocale, les courts raisonnements et les boucles de pensée rapides à l'intérieur de l'agent, la rapidité de réponse est d'une grande valeur. L’IA qui répond rapidement rend l’expérience utilisateur naturelle. Cependant, il est peu probable que les LPU jouent un rôle central dans la génération d’images, la génération de vidéos, la 3D, la robotique et l’apprentissage à grande échelle. Bien qu’elle soit performante en matière d’inférence linguistique à faible latence, elle ne se positionne pas comme une usine d’IA polyvalente. Organisé de cette manière, le CPU est responsable du contrôle, le GPU est responsable du parallélisme massif flexible, le TPU est responsable des calculs de tenseurs fixes et le LPU est responsable de l'inférence de langage à faible latence. Ce qui compte n’est pas lequel est le meilleur. La question est de savoir quelle tâche confier à quel semi-conducteur. L’infrastructure de l’IA évolue vers une division du travail par cas d’utilisation, plutôt que vers un gagnant unique dominant tout le monde. À l'ère des agents IA, le CPU sera responsable de la gestion du comportement, du RAG, de la base de données, de l'API, de la sécurité, des journaux, de la facturation et des tentatives. Le GPU est responsable de l'inférence et de la génération à grande échelle, le TPU traite efficacement de grandes quantités d'inférences stylisées et le LPU accélère les boucles de pensée courtes et les réponses conversationnelles. Si le processeur est faible ici, l'agent restera bloqué à chaque fois qu'il appellera un outil. Même si le GPU est puissant, si l'attente de recherche, l'attente de l'API et l'attente de la base de données augmentent, les humains et le GPU devront attendre. De plus, à l’ère de l’IA physique, cette structure s’étendra au monde réel. Dans les robots et VLA, l’IA doit réellement voir, saisir, marcher, éviter et corriger les erreurs, pas seulement sur l’écran. Ici, le CPU est responsable du contrôle du système d'exploitation, du ROS, des capteurs, des moteurs, des E/S, de l'arrêt sécurisé, de la gestion des autorités, des journaux, etc. côté carrosserie. Même si le VLA décide de « saisir la tasse », le processeur est chargé de déplacer le bras en toute sécurité. Le GPU reste également fort avec l’IA physique. Il sera important en tant que moteur de génération de monde virtuel pour l'apprentissage de la réalité, notamment la compréhension visuelle, l'apprentissage VLA, la génération de vidéos, les modèles du monde, les simulations 3D, les données synthétiques et les jumeaux numériques. Les exemples de défaillances et les cas extrêmes sont très importants dans la formation des robots. Il est dangereux et coûteux de faire échouer les étudiants à plusieurs reprises dans la vie réelle, c'est pourquoi nous les faisons beaucoup s'entraîner dans l'espace virtuel. Pour cette raison, le GPU n'est pas seulement une puce de discussion, mais un appareil qui vous permet de créer et de pratiquer des mondes. En conclusion, l'histoire du top GPU ne se termine pas, mais entre dans le deuxième chapitre. Les GPU continueront d’être au cœur de l’IA. Cependant, à mesure que les agents d’IA et l’IA physique se propagent, les couches périphériques telles que le processeur, la DRAM, le HBM, le CXL, la carte réseau, le SSD et le planificateur deviennent plus volumineuses. L’IA ne sera plus une simple puce, mais un système d’exécution à l’échelle d’une civilisation. Parmi eux, le CPU connecte les actions avec le GPU au centre, le TPU prend en charge les calculs de routine et le LPU accélère la réponse. Lorsque l’on envisage la future infrastructure d’IA, il est important non seulement de s’intéresser aux GPU, mais également de comprendre l’énorme division du travail dans les semi-conducteurs qui s’étend autour d’eux.

Article précédent：JIKOOK LIVE IN MEXICO! JUNGKOOK CLOSES THE DISTANCE WITH JIMIN! IT'S REAL! Article suivant：:**The Bitter Fate of Homeless Women in the Mountains | Finding a Cave to Live In**

nouvelles récentes

Plus>>

Van Richards, ChFC® 2026-05-08 08:00

Vérifiez votre score de retraite - Présentation pas à pas d'un outil de planification gratuit
Caro y Santi - Hakuna Matata x el Mundo 2026-05-08 08:00

Seulement 48 HEURES pour traverser le SÉNÉGAL : une course contre la montre 🇸🇳 Ep.2
oriol andre 99 2026-05-08 08:00

LBATMAN : ARKHAM KNIGHT - ROBIN : A FILP OF A COIN - RED HOOD STORY PACK
Marty Chargin 2026-05-08 07:57

Revue quotidienne
月光ガール [Tsuki Beats] 2026-05-08 07:57

[playlist] Chansons japonaises relaxantes "Aquarium" - Playlist de chansons japonaises aussi calmes et apaisantes que les profondeurs de la mer💙
BobbV 2026-05-08 07:37

Allons-y | New Super Mario Bros.U (épisode 1)
HD Ultra rare coins 2026-05-08 07:37

Pièce britannique ELIZABETH II TWO PENCE 2002 d'une valeur de 23 millions de dollars ?
Old world coins vault 2026-05-08 07:37

La pièce de 10 cents qui renferme les plus grands secrets du Canada – Reine + Navire fantôme légendaire
SMART CRIPTOATIVOS 2026-05-08 07:37

💥BLACKROCK ACHÈTE BEAUCOUP💥CECI ARRIVE TOUJOURS💥SIGNAL GRAPHIQUE IMPORTANT💥ALTCOINS POURRAIENT TIR💥

Sujets en vedette

Activité des baleines Dogecoin

Obtenez les dernières informations sur les activités des baleines Dogecoin grâce à notre analyse complète. Découvrez les tendances, les modèles et l'impact de ces baleines sur le marché Dogecoin. Restez informé grâce à notre analyse d’experts et gardez une longueur d’avance dans votre parcours de crypto-monnaie.
Extraction de Dogecoins

Le minage de Dogecoin est le processus d'ajout de nouveaux blocs de transactions à la blockchain Dogecoin. Les mineurs sont récompensés par un nouveau Dogecoin pour leur travail. Cette rubrique propose des articles liés au minage de Dogecoin, notamment sur la manière d'exploiter du Dogecoin, les meilleurs matériels et logiciels de minage et la rentabilité du minage de Dogecoin.
Lancement du vaisseau Spacex

Cette rubrique fournit des articles relatifs aux lancements de SpaceX Starship, notamment les dates de lancement, les détails de la mission et l'état du lancement. Restez au courant des derniers lancements de SpaceX Starship avec cette ressource informative et complète.
Roi des mèmes : Dogecoin

Cette rubrique propose des articles liés aux mèmes les plus populaires, notamment « Le roi des mèmes : Dogecoin ». Memecoin est devenu un acteur dominant dans l’espace crypto. Ces actifs numériques sont populaires pour diverses raisons. Ils pilotent les aspects les plus innovants de la blockchain.

Articles en vedette

Plus>>