价格: $0.15090 2.9605%
市值: $22.92B 0.7601%
成交额 (24h): 1.55B 0%
统治地位: 0.7601%
Price: $0.15090 2.9605%
市值: $22.92B 0.7601%
成交额 (24h): 1.55B 0%
统治地位: 0.7601% 0.7601%
  • 价格: $0.15090 2.9605%
  • 市值: 22.92B 0.7601%
  • 成交额 (24h): 1.55B 0%
  • 统治地位: 0.7601% 0.7601%
  • 价格: $0.15090 2.9605%
首页 > 视频 > GPU 能力之后是什么? AI代理时代CPU需求会增加的原因【Zettai Noia】

GPU 能力之后是什么? AI代理时代CPU需求会增加的原因【Zettai Noia】

发布: 2026/05/07 20:37 阅读: 0

原文作者:あ みつけたわよ。旧・成れの果て戦

原文来源:https://www.youtube.com/embed/HympcQeB38g

#remotion #codex #ai 这是一个粗略的解释。请告诉我故事的一半。音频是用irodoriTTS创建的,用sbv2.7训练并与aivisspeech一起使用。使用Remotion通过codex创建视频。图像的特征是PixAIsunflower模型,GPTImage2.0.kv缓存是Key-Value Cache的缩写。我读错了。参考论文: https://arxiv.org/abs/2511.00739 文章:https://note.com/atom_/n/n1a3ae798251c 为什么 AI 代理时代 CPU 需求会增加 当看待生成式 AI 的发展时,很多人首先想到的是 GPU。它训练庞大的AI模型,生成图像、生成视频,并高速处理大量矩阵运算。 GPU是现代人工智能核心的半导体,可以说是人工智能基础设施投资的象征。然而,在思考未来的人工智能基础设施时,重要的是要明白,它不再是“GPU强大,所以我们只需要看GPU”那么简单。事实上,GPU越强大,围绕它的CPU、内存、网络、存储和调度器就变得越重要。这是因为无论您拥有多么高性能的 GPU,如果将工作传递给 GPU 的机制很慢,GPU 都将不得不等待。人工智能基础设施成功的关键是超越单个芯片的性能,转向能够实现巨大计算资源高效运行的整体设计。 GPU的本质是大规模并行计算。它在 Transformer、Attention、图像生成、视频生成和模拟等一次性处理大量相同类型计算的应用中非常强大。 GPU 在矩阵计算方面展现出压倒性的性能,而矩阵计算是 AI 模型的核心。因此,GPU将继续在人工智能学习和大规模推理中发挥核心作用。这并不是 GPU 需求的终结。事实上,人工智能变得越重要,GPU 就会变得越重要。然而,整个AI服务不仅仅是由矩阵运算组成的。在实际的AI服务中,会发生大量的细节控制处理,例如API接收、用户认证、请求分发、标记化、队列管理、批处理、日志记录、计费、安全、错误处理等。这些不是GPU擅长的巨大并行计算,而是CPU擅长的分支和控制领域。尤其是在人工智能代理时代,这种CPU端处理的要求将会变得更高。人工智能代理的作用不仅仅是回答问题。它执行搜索、打开浏览器、浏览数据库、运行 Python、读取文件、调用外部 API,如果失败,则重试。这更像是现实世界的文书工作,而不是模型内的计算。换句话说,人工智能代理变得越智能,在模型之外进行的控制、连接、决策和重新执行就越多。在这种情况下,CPU就不仅仅是一个配角了。 CPU 是指挥中心,它将下一步工作传递给模型,检查返回的结果,必要时调用其他工具,并使整个过程继续前进。如果说GPU是一座巨大的熔炉,那么CPU就是管理者,负责运输物料、确定订单、管理流程、出现问题时现场响应。 GPU的性能越高,CPU保持GPU空闲的能力就越重要。当深入了解法学硕士推理时,这种结构是清晰的。推理包括预填充(一次处理所有输入句子)和解码(逐字生成延续)。预填充相对容易并行化,是 GPU 擅长的过程。另一方面,解码是顺序的,需要先前的结果来生成下一个令牌,因此 GPU 不能始终以最高效率运行。这里,推理平台的性能很大程度上取决于请求的混合方式、批处理时间以及内存的使用方式。更重要的是KV缓存。 KV 缓存是一个巨大的工作内存,用于在生成过程中保存上下文。 KV 缓存将随着长文本上下文、多个用户同时使用、多个候选生成和代理内部循环的增加而扩展。根据需要分配、释放、重用和管理这些内存主要是操作系统的工作。这里再次测试了包括CPU、DRAM、HBM、CXL、SSD和NIC在内的整体设计。换句话说,人工智能推理正在从仅进行GPU计算的世界演变成CPU、GPU、内存、网络和存储协同工作的分层系统。如果你只看GPU,你会忽略堵塞的管道。无论GPU集群多么强大,如果CPU侧调度能力弱、内存带宽不足、网络堵塞、存储速度慢,整体性能也不会提升。人工智能基础设施需要被视为一个整体系统,而不仅仅是一个芯片。 CPU的本质是分支和控制。中断、异常、特权模式、虚拟内存、上下文切换、I/O。 CPU 是一个处理器,它管理着一个我们不知道即将发生什么的世界。虽然在一次性处理大量相同计算的效率上不如GPU,但在不规则处理、外部连接、细节判断、故障响应等方面却很强。这种灵活性对于人工智能代理这样的系统非常重要,因为情况每次都会发生变化。另一方面,TPU是用于张量计算的专用ASIC。它在大型程式化矩阵运算、云端大规模推理以及可由编译器固化的计算图方面具有优势。在像 Google 这样的环境中,模型、编译器、云和硬件可以垂直集成,TPU 成为非常高效的专用工厂。然而,在动态形状较多、分支详细、计算独特的领域,它不如 GPU 灵活。虽然标准化处理能力较强,但在研究、开发、现场响应等方面存在局限性,且容易受到快速变化的影响。 LPU 是一种专门用于语言推理的引擎,特别是用于低延迟令牌生成。凭借人工等待聊天、语音人工智能、简短的重新推理以及代理内部的快速思维循环,响应速度具有巨大的价值。快速响应的人工智能使用户体验感觉自然。然而,LPU 不太可能在图像生成、视频生成、3D、机器人和大规模学习中发挥核心作用。虽然它在低延迟语言推理方面很强,但它的定位并不是万能的人工智能工厂。这样组织起来,CPU负责控制,GPU负责灵活的大规模并行,TPU负责固定张量计算,LPU负责低延迟的语言推理。重要的不是哪一个最伟大。问题是哪个工作应该委托给哪个半导体。人工智能基础设施正在朝着按用例进行分工的方向发展,而不是由单一赢家主宰一切。在AI代理时代,CPU将负责行为管理、RAG、DB、API、安全、日志、计费和重试。 GPU 负责大规模推理和生成,TPU 高效处理大量程式化推理,LPU 加速短思维循环和会话响应。如果这里的CPU很弱,代理每次调用工具都会卡住。即使GPU很强,如果搜索等待、API等待和DB等待增加,人类和GPU都将不得不等待。此外,在物理人工智能时代,这种结构将蔓延到现实世界。在机器人和 VLA 中,人工智能需要实际看到、抓取、行走、避免和纠正错误,而不仅仅是在屏幕上。在这里,CPU负责控制车身侧的OS、ROS、传感器、电机、I/O、安全停止、权限管理、日志等。即使 VLA 决定“抓住杯子”,CPU 也负责实际安全地移动手臂。 GPU 在物理人工智能方面也保持强劲。作为学习现实的虚拟世界生成引擎,它非常重要,包括视觉理解、VLA 学习、视频生成、世界模型、3D 模拟、合成数据和数字孪生。故障示例和边缘情况在机器人训练中非常重要。让学生在现实生活中反复失败是危险且昂贵的,因此我们让他们在虚拟空间中进行大量练习。因此,GPU 不仅仅是一个聊天芯片,而是一个可以让你创造和练习世界的设备。综上所述,顶级GPU的故事并没有结束,而是进入了第二篇章。 GPU 将继续成为人工智能的核心。然而,随着人工智能代理和物理人工智能的普及,CPU、DRAM、HBM、CXL、NIC、SSD 和调度器等外围层变得越来越大。人工智能将不再是单个芯片,而是一个文明规模的执行系统。其中,CPU以GPU为中心连接动作,TPU支持常规计算,LPU加速响应。在审视未来的人工智能基础设施时,重要的是不仅要关注 GPU,还要了解围绕 GPU 展开的半导体领域的巨大分工。

精选专题

  • 狗狗币鲸鱼活动
    狗狗币鲸鱼活动
    通过我们的综合分析,了解狗狗币鲸鱼活动的最新见解。了解趋势、模式以及这些鲸鱼对狗狗币市场的影响。随时了解我们的专家分析,并在您的加密货币之旅中保持领先。
  • 狗狗币挖矿
    狗狗币挖矿
    狗狗币挖矿是向狗狗币区块链添加新交易块的过程。矿工因其工作而获得新的狗狗币奖励。本主题提供与狗狗币挖矿相关的文章,包括如何挖矿狗狗币、最好的挖矿硬件和软件以及狗狗币挖矿的盈利能力。
  • SpaceX 星舰发射
    SpaceX 星舰发射
    本主题提供与 SpaceX 星舰发射相关的文章,包括发射日期、任务详细信息和发射状态。通过此信息丰富且全面的资源,了解最新的 SpaceX 星际飞船发射情况。
  • 模因之王:狗狗币
    模因之王:狗狗币
    本主题提供与最流行的模因相关的文章,包括“模因之王:狗狗币”。 Memecoin 已成为加密货币领域的主导者。这些数字资产之所以受欢迎有多种原因。他们推动了区块链最具创新性的方面。