今天ღღ◈✿◈,人工智能芯片初创公司 Groq 发布了一则重磅消息ღღ◈✿◈,他们已经与英伟达就 Groq 的推理技术达成了非排他性许可协议ღღ◈✿◈。
这个协议并不是说英伟达要把 Groq 买下来日本zljzljzlj精品ღღ◈✿◈,而是挖走 Groq 的几员大将 —— 创始人兼 CEO Jonathan Rossღღ◈✿◈、总裁 Sunny Madra 及多名核心工程师ღღ◈✿◈。要知道ღღ◈✿◈,Jonathan Ross 曾在谷歌主导 TPU 的开发ღღ◈✿◈。2016 年底ღღ◈✿◈,他从谷歌离职日本zljzljzlj精品ღღ◈✿◈,并带走了当时 TPU 核心 10 人团队中的 7 位 ღღ◈✿◈。这批人带走了 TPU 最核心的技术理念和设计经验ღღ◈✿◈,在加州山景城共同创办了 AI 芯片公司 Groqღღ◈✿◈。
这批人和他们的知识产权有多值钱?看看交易额就知道了ღღ◈✿◈。据 Groq 投资者ღღ◈✿◈、Disruptive Technology Advisers 的首席执行官 Alex Davis 透露ღღ◈✿◈,这笔交易价值约 200 亿美元ღღ◈✿◈,这比该初创公司 9 月份的估值还高出 131 亿美元ღღ◈✿◈。
交易过后ღღ◈✿◈,Groq 将继续作为独立公司运营ღღ◈✿◈,由首席财务官 Simon Edwards 接任 CEOღღ◈✿◈,其 GroqCloud 云服务也将正常运行ღღ◈✿◈。
通过这种方式ღღ◈✿◈,英伟达可以在不直接购买的情况下获得初创企业的人才和技术ღღ◈✿◈,被称为 Reverse Acquihire(反向收购雇佣)ღღ◈✿◈。这种方式避免了与传统收购相关的反垄断审查ღღ◈✿◈。在过去三年中ღღ◈✿◈,微软ღღ◈✿◈、Meta等科技巨头已经达成了多项此类交易ღღ◈✿◈,以推进其人工智能发展路线图ღღ◈✿◈。
Groq 最引人注目的是其自主研发的 LPU(语言处理单元)芯片ღღ◈✿◈。与英伟达主导的 GPU 不同ღღ◈✿◈,LPU 专为 AI 推理场景设计ღღ◈✿◈,号称运行大语言模型的速度可达 GPU 的 10 倍ღღ◈✿◈,能耗却只有十分之一ღღ◈✿◈。而这正是英伟达所需要的ღღ◈✿◈,因为 TPU 之所以能挑战英伟达的霸主地位ღღ◈✿◈,「能耗ღღ◈✿◈、延迟方面能打」是一个关键优势ღღ◈✿◈。
英伟达 CEO 黄仁勋在内部邮件中表示ღღ◈✿◈,计划将 Groq 的低延迟处理器整合到英伟达 AI 工厂架构中ღღ◈✿◈,以支持更广泛的 AI 推理和实时工作负载ღღ◈✿◈。
Groq 成立于 2016 年ღღ◈✿◈,其诞生源于对传统计算架构的深刻反思ღღ◈✿◈。创始人 Jonathan Ross 曾师从 Yann LeCunღღ◈✿◈,后来在Google任职K8凯发官方ღღ◈✿◈。他参与了谷歌 TPU 项目(当时为 20% 项目)K8凯发官方ღღ◈✿◈,负责设计和实现第一代 TPU 芯片的核心组件凯发K8旗舰厅ღღ◈✿◈!ღღ◈✿◈。TPU 的成功证明了专用架构在 AI 计算上的巨大潜力ღღ◈✿◈,也成为了 Groq 技术的起点ღღ◈✿◈。
Google 有一个著名的「20% 自由时间」文化ღღ◈✿◈,允许工程师用工作时间的 20% 去做自己感兴趣ღღ◈✿◈、但并非老板指派的「私活」或「创新项目」ღღ◈✿◈。
Ross 认为ღღ◈✿◈,传统的 CPU 和 GPU 架构为了兼顾图形渲染和通用计算ღღ◈✿◈,保留了复杂的缓存管理ღღ◈✿◈、分支预测及动态硬件调度ღღ◈✿◈。这些设计虽然提高了通用性ღღ◈✿◈,但导致了计算性能的不可预测性ღღ◈✿◈,并非 AI 推理的必要组件ღღ◈✿◈。基于此K8凯发旗舰厅(中国)官方网站ღღ◈✿◈,ღღ◈✿◈,Groq 确立了「软件定义的确定性」这一核心理念ღღ◈✿◈。
LPU(Language Processing Unit)摒弃了传统的硬件调度器K8凯发官方ღღ◈✿◈,改由编译器在编译阶段精确计算每一步数据的流动和时序ღღ◈✿◈。这种设计消除了「缓存未命中」和「分支预测失败」的风险ღღ◈✿◈,核心计算单元 TSP(Tensor Streaming Processor)采用流式处理模式凯发K8官网首页ღღ◈✿◈,ღღ◈✿◈,确保数据如流水线般处理ღღ◈✿◈,没有任何闲置周期ღღ◈✿◈。
在存储方案上ღღ◈✿◈,Groq 未采用NvidiaGPU 常用的高带宽内存(HBM)ღღ◈✿◈,而是将静态随机存取存储器(SRAM)直接集成在芯片内部ღღ◈✿◈。这种设计使单芯片内存带宽高达 80TB/sღღ◈✿◈,是传统 HBM 方案的 20 倍以上ღღ◈✿◈。尽管 SRAM 占地面积大导致单芯片容量极小(约 230MB)日本zljzljzlj精品ღღ◈✿◈,但其极高的带宽允许 LPU 在 Batch Size 为 1(即单次处理一个请求)的情况下依然保持计算单元满载ღღ◈✿◈,从而实现极低的延迟ღღ◈✿◈。
由于单芯片内存有限ღღ◈✿◈,运行 Llama 3 70B 这样的大模型通常需要数百张芯片级联ღღ◈✿◈。为此ღღ◈✿◈,Groq 研发了 RealScale 互联技术ღღ◈✿◈。该技术不依赖传统的网络交换机ღღ◈✿◈,而是通过直接线缆连接ღღ◈✿◈,并解决了「晶振漂移」导致的时钟不同步问题ღღ◈✿◈。在这一架构下ღღ◈✿◈,整个集群实现了全局时钟同步ღღ◈✿◈,数百张芯片宛如一枚巨大的虚拟芯片协同工作ღღ◈✿◈。
得益于上述设计ღღ◈✿◈,Groq 在处理大语言模型时展现出差异化的性能优势ღღ◈✿◈:在 Llama 系列模型的推理中ღღ◈✿◈,其响应速度可达每秒 500 Tokens(相比之下 ChatGPT 约为 40 Tokens/s)ღღ◈✿◈,且几乎没有延迟抖动凯发手机app下载ღღ◈✿◈。ღღ◈✿◈,在实时交互场景中建立了独特的竞争壁垒ღღ◈✿◈。
但为了换取这种极致速度ღღ◈✿◈,Groq 方案在物理空间和功耗上付出了代价ღღ◈✿◈:一个标准机架满载功耗约为 26kW 至 30kWღღ◈✿◈,且需要比 GPU 方案更多的机架数量来承载同等规模的模型参数ღღ◈✿◈。
目前ღღ◈✿◈,AI 算力市场的需求正从训练转向推理日本zljzljzlj精品ღღ◈✿◈。预计到 2030 年凯发k8国际官网ღღ◈✿◈,推理将占 AI 计算总量的 75%ღღ◈✿◈,市场规模达 2550 亿美元ღღ◈✿◈。但在推理方面ღღ◈✿◈,英伟达的芯片并不具备绝对优势ღღ◈✿◈,面临谷歌 TPUღღ◈✿◈、Groq LPU 等多方面竞争ღღ◈✿◈。
先来说谷歌 TPUღღ◈✿◈。此前K8凯发官方ღღ◈✿◈,SemiAnalysis 的一篇文章报道称ღღ◈✿◈,谷歌新出的 TPU v7 实现了很高的实际模型算力利用率ღღ◈✿◈,总体拥有成本比英伟达 GB200 系统低约 30%~40%ღღ◈✿◈。也就是说DHL快递ღღ◈✿◈,ღღ◈✿◈,用上 TPU 之后ღღ◈✿◈,企业可以省一大笔钱ღღ◈✿◈。而且ღღ◈✿◈,谷歌的 TPU 不再局限于自家使用ღღ◈✿◈,而是开始大规模出货日本zljzljzlj精品ღღ◈✿◈,预计 2027 年实现年产 500 万颗的目标ღღ◈✿◈。
市场的反应也能说明一切ღღ◈✿◈:2025 年 10 月日本zljzljzlj精品ღღ◈✿◈,Anthropic 协议通过多达 100 万个 TPU 获取超过 10 亿瓦的谷歌算力ღღ◈✿◈;11 月ღღ◈✿◈,Meta 开始洽谈于 2027 年在其数据中心使用谷歌 TPUღღ◈✿◈。这样的转向足以给英伟达带来压力ღღ◈✿◈。
除了谷歌ღღ◈✿◈,Groq 也是不容小觑的竞争对手ღღ◈✿◈。早期 Groq 保持相对低调ღღ◈✿◈。但随着 2023 年至 2024 年生成式 AI 市场的爆发ღღ◈✿◈,行业重心从训练端向推理端延伸K8凯发官方ღღ◈✿◈,Groq 凭借在模型推理上的速度优势受到关注ღღ◈✿◈,资本市场随即跟进ღღ◈✿◈。
最引人注目的是ღღ◈✿◈,今年 2 月ღღ◈✿◈,Groq 与沙特阿美数字公司签订 15 亿美元协议日本zljzljzlj精品ღღ◈✿◈,合作建设全球最大 AI 推理数据中心ღღ◈✿◈,初期部署 19000 个 LPU 处理器ღღ◈✿◈。2025 年 12 月ღღ◈✿◈,Groq 又签署协议加入美国 AI「创世纪计划」ღღ◈✿◈,成为 24 家签署公司之一ღღ◈✿◈。
今年 9 月ღღ◈✿◈,Groq 刚刚完成 7.5 亿美元融资ღღ◈✿◈,估值达到 69 亿美元ღღ◈✿◈。公司透露ღღ◈✿◈,其平台已服务超过 200 万名开发者ღღ◈✿◈,较去年的 35.6 万人增长了五倍多ღღ◈✿◈。
这些重要事件彰显了 Groq 在 AI 芯片领域的潜力以及团队的硬核研发能力ღღ◈✿◈,足以让英伟达动心ღღ◈✿◈。