libérer: 2026/05/07 20:37 lire: 0
Auteur original:あ みつけたわよ。旧・成れの果て戦
Source originale:https://www.youtube.com/embed/HympcQeB38g
#remotion #codex #ai Ceci est une explication approximative. S'il vous plaît, racontez-moi la moitié de l'histoire. L'audio a été créé avec irodoriTTS, formé avec sbv2.7 et utilisé avec aivisspeech. J'ai utilisé Remotion pour créer une vidéo avec le codex. Le caractère de l'image est le modèle PixAIsunflower et le cache GPTImage2.0.kv est une abréviation de Key-Value Cache. Je l'ai mal lu. Document de référence : https://arxiv.org/abs/2511.00739 Article : https://note.com/atom_/n/n1a3ae798251c Pourquoi la demande de CPU va augmenter à l'ère des agents d'IA Lorsqu'on examine le développement de l'IA générative, beaucoup de gens pensent d'abord aux GPU. Il entraîne un énorme modèle d'IA, génère des images, génère des vidéos et traite de grandes quantités d'opérations matricielles à grande vitesse. Les GPU sont les semi-conducteurs au cœur de l’IA moderne et peuvent être considérés comme un symbole d’investissement dans les infrastructures d’IA. Cependant, lorsque l'on réfléchit à la future infrastructure d'IA, il est important de comprendre que ce n'est plus aussi simple que « le GPU est puissant, il suffit donc de regarder le GPU ». En fait, plus le GPU est puissant, plus le CPU, la mémoire, le réseau, le stockage et le planificateur qui l'entourent deviennent importants. En effet, quelles que soient les performances de votre GPU, si le mécanisme permettant de transmettre le travail au GPU est lent, le GPU devra attendre. La clé du succès de l’infrastructure d’IA consiste à aller au-delà des performances d’une seule puce pour atteindre une conception globale permettant le fonctionnement efficace d’énormes ressources informatiques. L’essence du GPU est le calcul massivement parallèle. Il est très performant dans des applications telles que Transformer, Attention, la génération d'images, la génération de vidéos et la simulation, où un grand nombre de calculs du même type sont traités en même temps. Les GPU démontrent des performances écrasantes dans les calculs matriciels, qui sont au cœur des modèles d’IA. Les GPU continueront donc à jouer un rôle central dans l’apprentissage de l’IA et l’inférence à grande échelle. Ce n’est pas la fin de la demande de GPU. En fait, plus l’IA devient importante, plus les GPU continueront de l’être. Cependant, l’ensemble du service d’IA n’est pas uniquement constitué d’opérations matricielles. Dans les services d'IA réels, une grande quantité de traitements de contrôle détaillés ont lieu, tels que la réception des API, l'authentification des utilisateurs, la distribution des requêtes, la tokenisation, la gestion des files d'attente, le traitement par lots, la journalisation, la facturation, la sécurité, la gestion des erreurs, etc. Il ne s'agit pas des énormes calculs parallèles pour lesquels les GPU sont bons, mais des domaines de branchement et de contrôle dans lesquels les CPU sont bons. Surtout à l’ère des agents IA, ce traitement côté CPU deviendra encore plus exigeant. Les agents IA font bien plus que simplement répondre aux questions. Il effectue des recherches, ouvre des navigateurs, parcourt des bases de données, exécute Python, lit des fichiers, appelle des API externes et, en cas d'échec, réessaye. Cela ressemble plus à de la paperasse réelle qu'à un calcul à l'intérieur d'un modèle. En d’autres termes, plus l’agent IA devient intelligent, plus le contrôle, la connectivité, la prise de décision et la réexécution ont lieu en dehors du modèle. Dans ce cas, le CPU ne joue pas seulement un rôle de support. Le CPU est le centre de commande qui transmet le travail suivant au modèle, vérifie les résultats qui reviennent, appelle d'autres outils si nécessaire et fait avancer l'ensemble du processus. Si le GPU est un gigantesque four, le CPU est le gestionnaire qui transporte les matériaux, détermine l'ordre, gère les processus et répond sur site en cas de problème. Plus les performances du GPU sont élevées, plus la capacité du CPU à maintenir le GPU inactif est importante. Cette structure est claire lorsque l’on regarde le raisonnement LLM. L'inférence inclut le pré-remplissage, qui traite les phrases saisies en même temps, et le décodage, qui génère des continuations mot par mot. Le pré-remplissage est relativement facile à paralléliser et constitue un processus dans lequel les GPU excellent. D'un autre côté, le décodage est séquentiel et nécessite le résultat précédent pour produire le jeton suivant, de sorte que le GPU ne peut pas toujours fonctionner avec une efficacité maximale. Ici, les performances de la plateforme d'inférence sont grandement influencées par la manière dont les requêtes sont mélangées, le moment où elles sont regroupées et la manière dont la mémoire est utilisée. Le cache KV est encore plus important. Le cache KV est une énorme mémoire de travail pour conserver le contexte pendant la génération. Le cache KV s'étendra à mesure que les contextes de texte longs, plusieurs utilisateurs simultanément, la génération de plusieurs candidats et les boucles internes des agents augmenteront. Il s'agit principalement du travail du système d'exploitation consistant à allouer, libérer, réutiliser et gérer cette mémoire de manière hiérarchique selon les besoins. Là encore, la conception globale comprenant le CPU, la DRAM, le HBM, le CXL, le SSD et la NIC est testée. En d’autres termes, l’inférence IA évolue d’un monde où seuls les calculs GPU sont effectués vers un système en couches dans lequel les CPU, les GPU, la mémoire, les réseaux et le stockage fonctionnent ensemble. Si vous regardez uniquement le GPU, vous négligerez les tuyaux bouchés. Quelle que soit la puissance d'un cluster GPU, les performances globales ne s'amélioreront pas si la planification côté CPU est faible, si la bande passante mémoire est insuffisante, si le réseau est obstrué ou si le stockage est lent. L’infrastructure d’IA doit être considérée comme un système global, et non comme une seule puce. L'essence du processeur est la branchement et le contrôle. Interruptions, exceptions, modes privilégiés, mémoire virtuelle, changements de contexte, E/S. Le CPU est un processeur qui gère un monde où l'on ne sait pas ce qui s'en vient. Bien qu'il soit inférieur au GPU en termes d'efficacité dans le traitement simultané de grandes quantités des mêmes calculs, il est performant en termes de traitement irrégulier, de connexions externes, de jugements détaillés et de réponse aux échecs. Cette flexibilité est très importante dans des systèmes comme les agents IA, où la situation change à chaque fois. D'autre part, TPU est un ASIC dédié aux calculs tensoriels. Il présente des atouts dans les grandes opérations matricielles stylisées, l'inférence de masse sur le cloud et les graphiques informatiques qui peuvent être solidifiés par un compilateur. Dans un environnement comme Google où les modèles, les compilateurs, le cloud et le matériel peuvent être intégrés verticalement, les TPU deviennent des usines dédiées très efficaces. Cependant, il n’est pas aussi flexible qu’un GPU dans un domaine où il existe de nombreuses formes dynamiques, des branches détaillées et des calculs uniques. Bien qu'il soit performant en matière de traitement standardisé, il présente des limites en matière de recherche, de développement et de réponse sur le terrain, qui sont sujets à des changements rapides. LPU est un moteur spécialisé pour l'inférence linguistique, en particulier pour la génération de jetons à faible latence. Avec le chat en attente humaine, l'IA vocale, les courts raisonnements et les boucles de pensée rapides à l'intérieur de l'agent, la rapidité de réponse est d'une grande valeur. L’IA qui répond rapidement rend l’expérience utilisateur naturelle. Cependant, il est peu probable que les LPU jouent un rôle central dans la génération d’images, la génération de vidéos, la 3D, la robotique et l’apprentissage à grande échelle. Bien qu’elle soit performante en matière d’inférence linguistique à faible latence, elle ne se positionne pas comme une usine d’IA polyvalente. Organisé de cette manière, le CPU est responsable du contrôle, le GPU est responsable du parallélisme massif flexible, le TPU est responsable des calculs de tenseurs fixes et le LPU est responsable de l'inférence de langage à faible latence. Ce qui compte n’est pas lequel est le meilleur. La question est de savoir quelle tâche confier à quel semi-conducteur. L’infrastructure de l’IA évolue vers une division du travail par cas d’utilisation, plutôt que vers un gagnant unique dominant tout le monde. À l'ère des agents IA, le CPU sera responsable de la gestion du comportement, du RAG, de la base de données, de l'API, de la sécurité, des journaux, de la facturation et des tentatives. Le GPU est responsable de l'inférence et de la génération à grande échelle, le TPU traite efficacement de grandes quantités d'inférences stylisées et le LPU accélère les boucles de pensée courtes et les réponses conversationnelles. Si le processeur est faible ici, l'agent restera bloqué à chaque fois qu'il appellera un outil. Même si le GPU est puissant, si l'attente de recherche, l'attente de l'API et l'attente de la base de données augmentent, les humains et le GPU devront attendre. De plus, à l’ère de l’IA physique, cette structure s’étendra au monde réel. Dans les robots et VLA, l’IA doit réellement voir, saisir, marcher, éviter et corriger les erreurs, pas seulement sur l’écran. Ici, le CPU est responsable du contrôle du système d'exploitation, du ROS, des capteurs, des moteurs, des E/S, de l'arrêt sécurisé, de la gestion des autorités, des journaux, etc. côté carrosserie. Même si le VLA décide de « saisir la tasse », le processeur est chargé de déplacer le bras en toute sécurité. Le GPU reste également fort avec l’IA physique. Il sera important en tant que moteur de génération de monde virtuel pour l'apprentissage de la réalité, notamment la compréhension visuelle, l'apprentissage VLA, la génération de vidéos, les modèles du monde, les simulations 3D, les données synthétiques et les jumeaux numériques. Les exemples de défaillances et les cas extrêmes sont très importants dans la formation des robots. Il est dangereux et coûteux de faire échouer les étudiants à plusieurs reprises dans la vie réelle, c'est pourquoi nous les faisons beaucoup s'entraîner dans l'espace virtuel. Pour cette raison, le GPU n'est pas seulement une puce de discussion, mais un appareil qui vous permet de créer et de pratiquer des mondes. En conclusion, l'histoire du top GPU ne se termine pas, mais entre dans le deuxième chapitre. Les GPU continueront d’être au cœur de l’IA. Cependant, à mesure que les agents d’IA et l’IA physique se propagent, les couches périphériques telles que le processeur, la DRAM, le HBM, le CXL, la carte réseau, le SSD et le planificateur deviennent plus volumineuses. L’IA ne sera plus une simple puce, mais un système d’exécution à l’échelle d’une civilisation. Parmi eux, le CPU connecte les actions avec le GPU au centre, le TPU prend en charge les calculs de routine et le LPU accélère la réponse. Lorsque l’on envisage la future infrastructure d’IA, il est important non seulement de s’intéresser aux GPU, mais également de comprendre l’énorme division du travail dans les semi-conducteurs qui s’étend autour d’eux.
Van Richards, ChFC®
2026-05-08 08:00
Caro y Santi - Hakuna Matata x el Mundo
2026-05-08 08:00
oriol andre 99
2026-05-08 08:00
Marty Chargin
2026-05-08 07:57
月光ガール [Tsuki Beats]
2026-05-08 07:57
BobbV
2026-05-08 07:37
HD Ultra rare coins
2026-05-08 07:37
Old world coins vault
2026-05-08 07:37
SMART CRIPTOATIVOS
2026-05-08 07:37
Sélectionnez la devise
US Dollar
USD
Chinese Yuan
CNY
Japanese Yen
JPY
South Korean Won
KRW
New Taiwan Dollar
TWD
Canadian Dollar
CAD
Euro
EUR
Pound Sterling
GBP
Danish Krone
DKK
Hong Kong Dollar
HKD
Australian Dollar
AUD
Brazilian Real
BRL
Swiss Franc
CHF
Chilean Peso
CLP
Czech Koruna KČ
CZK
Singapore Dollar
SGD
Indian Rupee
INR
Saudi Riyal
SAR
Vietnamese Dong
VND
Thai Baht
THB
Sélectionnez la devise
US Dollar
USD-$
Chinese Yuan
CNY-¥
Japanese Yen
JPY-¥
South Korean Won
KRW -₩
New Taiwan Dollar
TWD-NT$
Canadian Dollar
CAD-$
Euro
EUR - €
Pound Sterling
GBP-£
Danish Krone
DKK-KR
Hong Kong Dollar
HKD- $
Australian Dollar
AUD-$
Brazilian Real
BRL -R$
Swiss Franc
CHF -FR
Chilean Peso
CLP-$
Czech Koruna KČ
CZK -KČ
Singapore Dollar
SGD-S$
Indian Rupee
INR -₹
Saudi Riyal
SAR -SAR
Vietnamese Dong
VND-₫
Thai Baht
THB -฿