← All Articles

精读 latent.space 访 Anjney Midha:算力不是买出来的,是用出来的

swyx (Latent Space) × Anjney Midha · Original

受众:Justin(红杉中国 MD) 原文:latent.space 播客,swyx 在 Periodic Labs 现场访 Anjney Midha,约 59 分钟全文转写 嘉宾:Anjney Midha,a16z 的 GP,现在自己创立并经营算力基础设施公司 AMP(公益公司 PBC)。早年在 Discord 负责开发者平台,24-25 岁创业。投过并深度参与 Anthropic、Mistral、Black Forest Labs、Periodic Labs,自称同时在 6-7 个团队里”一次只深耕一个”。

这篇值得花时间,因为它不是记者视角的”谁领先谁落后”,是一个既做投资又亲手在建算力基础设施的人,把 AI 这一轮真正的瓶颈讲透了。一句话主线:AI 竞赛的真问题不是”怎么搞到更多 GPU”,而是”手里这些有没有用好”。 下面按访谈的话题流走。


一、最狠的那个数字:算力在被大量浪费

集群里有两个利用率指标。一个是节点利用率(多少卡真的在被用),在 Google 不到 95% 就算”事故”(一次 outage),96% 才算正常——而大多数单租户集群根本到不了。另一个是 MFU(Model FLOPs Utilization,模型算力利用率,理论算力里真正变成训练进度的比例)。Anjney 给的对照很扎眼:

他不认为这是 xAI 笨——他们有很强的人——而是优先级被 GPU 军备竞赛带歪了。这本质是对齐和领导力问题:从出钱的人,到部署集群的人,到管集群的人,再到衡量产出的人,链条上隔了太多层。他用了个”弧度比喻”——两条线开头只差几度,拉到足够长就完全岔开了。很多前沿团队不是没有好的初心,而是被要求”快速扩张而不是一点点带起来”,浪费就在规模上滚雪球。

解法不神秘:iterative bring-up(一点点把集群带起来)。半导体、数据中心这行干久了的人都懂,这不是新东西。“我们确实有了前所未有的新能力,但这不构成抛弃常识的理由——恰恰相反,容错率更低、浪费成本更高,常识反而更值钱。”


二、负责任的基础设施:数据中心的社区反弹

扎克伯格从”move fast, break things”改成”move fast with stable infrastructure”,Anjney 说现在得是 “move fast with responsible infrastructure”

他引了 General Matter 创始人 Scott Nolan 在他课上讲的一个点子:每小时算力的边际成本就算 4 美元,那在新社区建数据中心时,为什么不按 4.5 美元收,把多出来的 5 毛钱直接以现金给当地社区?作为算力买方,他说他乐意多付这 5 毛。

为什么重要——他给的数字:今年美国可能有高达 20% 的数据中心,因为拿不到社区支持而建不起来(他自己补了一句这数可能被高估、被过度报道)。社区在意的不只是就业,还有电网、环评、审批。“如果你说,我们来你社区建数据中心,会降低你的电费——那就成了,社区会觉得自己是这事的合伙人。”现在没这么干,所以等监管和审计来的时候,那些以 AI 进步之名横冲直撞的人最好有准备。

顺带一个判断:所谓 “neoclouds 是一个全新品类”基本是营销话术。美国有一批做了 20 多年的可靠数据中心商,不在 NeurIPS 办酒会、不在那些圈子里刷脸,但”他们是成年人,有信用记录,扛过互联网的繁荣和崩盘,我信他们”。算力这一层现在太多短期思维,迟早要还。


三、AMP 的设想:让算力像电力一样流动

swyx 追问:“对齐激励,不应该是把全栈握在一家公司手里吗(xAI、OpenAI 那样)?你一个独立的基础设施层,凭什么比握有全栈的人更对齐?”

Anjney 的回答是系统设计里的两种路子:一种是整合(把很多环节塞进一个节点),一种是池化与共享(把某个资源抽出来,多个节点共用)。AMP 走的是后者、是反整合式的(不把上下游握在一家)——横向、多云、多芯片。目标是让 FLOPs 像兆瓦电力一样流动。

他给 AMP 的定位是 “独立系统调度方(ISO,independent system operator)”,照搬电网的历史:当工厂们意识到”各自在后院放一台半负荷发电机不划算、不如把发电机池化”,就需要一个不拥有资产的中立协调方,去调度发电、输电、工厂。最长寿的电网都是不拥有自己资产的,往往靠几个长期绑定、需求互不相关的大客户起步——一家钢厂晚上要用电高峰,一家鞋厂白天要用电高峰,那就可以池化、错峰调度,各自保底、把全镇的峰值利用率拉满。北美 PJM Interconnect 就是这种 ISO 的金标准。

这里有个值得记的反例——swyx 当场点出:Google Brain 真搞过这种 “Brain Marketplace”,David Luan 在播客里讲过;批评是 credit 式资本主义有时候不灵,有些事需要中央指挥 all-in,而这套机制”导致了 Google 错过 GPT”。Anjney 没有正面接这个反例。

AMP 的公司结构也照搬 Alphabet:AMP holdings 下面一个基础设施业务,一个叫 Foundry 的资本业务,孵化或投资新的前沿实验室(Periodic 就是)。今年早些时候他们从基金里投了 Anthropic 几亿美元。


四、研究被囤积,是一种市场失灵

Anjney 对 DeepMind 这类大厂”把研究捂着”有很强判断。研究员在 DeepMind 把前沿往前推,推到某个点会觉得和”Alphabet holdings 的独裁”不对齐;而独裁有时也不再想要他们了——“谢谢,你帮我们走完了 0 到 1,现在我们要去优先做 coding,你那个很棒的 omni 模型先放放”。过去十年 DeepMind 出了那么多了不起的研究,但很多从没见过天日

更糟的是发表机制本身:DeepMind 有 6 个月禁运期,只要业务团队有人觉得”这个有点意思”,就会被永久封存(embargoed for life)。结果是逆向选择——能发出来的,恰恰是”不够好”的那些。NeurIPS 上常有人吐槽”我干嘛去看 GDM 扔出来的垃圾”。

他的结论:研究被囤积有负外部性,这是市场失灵,需要有人去解锁。 但 AMP 一家做不到——“我们只有 1.2 GW 算力,那什么都不是,约等于 400 亿美元的云支出。还需要多得多。”


五、千兆瓦的野心,和一个想了 14 年的临终预测

稳态目标:1.2 GW 常态基载 + 未来四年约 6 GW 峰值容量(他强调还没全部锁定,是开始锁的需求量)。要让所有团队都觉得”能持续推动前沿”——不管是这边搞超导发现,还是另一个新投的方向:医疗里的临终预测(end-of-life prediction)

这是他读研时的活,也是 14 年来”没有一天能从脑子里赶走”的事。他在 Stanford Med 念生物信息学硕士,师从 Nigam Shah 教授(本想读博,后来退学去了 Kleiner)。Stanford 有全美少有的大规模纵向病人数据集 STRIDE,至少 1200 万病人(比它大的只有退伍军人事务部 VA 的)。背景数字:美国超过 30% 的 Medicare/Medicaid 支出花在临终护理上。

他把这事的机制讲得很透:美国医生因为怕医疗事故被告、被吊销执照,给临终诊断时会给极宽的误差区间(“你还有 6 个月到 6 年”),病人拿到这种信息只能”那就什么都试试”——一整套药和疗法、在医院耗几周、生活质量崩掉,最后没能和家人做想做的事,钱还烧了。在不那么怕被告的国家,医生反而敢给明确建议,病人被赋权、能更科学地安排余生。他还加了一层文化观察:成长于亚洲、印度教/佛教文化的人把死亡看成多世轮回里的一步(他老家金奈办丧事是上街跳舞、击鼓送别),而西方基督教传统把死亡看成终点、医疗系统默认”要延缓它”。AI 能做的,是用更精确的预测帮病人和家庭做临终决策。

他把 AMP 注册成公益公司(PBC),盯着两个他认为该跨党派的问题:用科学帮病人做对的临终决策、以及”净正向的数据中心”。妻子 Viv 热衷教育,他在 Stanford 开课也算”别再当家里的黑羊”。


六、Output maxing:他想立的一门学科

swyx 问这门学科叫什么。Anjney:工程上很简单,就是 output maxing(把产出榨到最大)——“产出最大化部”。核心是反浪费:浪费 GPU、浪费人、浪费 Medicare 都是浪费。他在 Stanford 开的课就叫 Frontier Systems

他对”苦涩的教训(bitter lesson,Rich Sutton 那篇——算力和通用方法最终赢过精巧人工设计)“的态度很有分寸:对,但这不等于你可以拿 50 万张 GB300 砸在一个次优的模型上白白浪费算力;也不等于你该有 50 种架构、毫无标准化。 Anthropic 速度快的一个原因,就是早期押定 Transformer、”这个简单,我们就死磕它”——那时候投资被分散到各种架构上太碎,押定反而解锁了规模。

如果他在 Stanford 新开个系,会叫 “对齐部(Department of Alignment)”。他说的对齐是全栈对齐:在 VC 里,如果 LP、创造价值的创始人、最终持有 IPO 股票的公众三者全栈对齐,那是”持续给你回报的礼物”。系统初创时反馈回路很紧、天然对齐;越往大扩,分工越细、抽象越多,每多一个 API 接口就多一层损耗(lossy)。他想解的工程难题是:有没有办法既扩张又不丢对齐、不损耗传输?两条路——要么标准化协议/API 规范做到无损通信,要么搞出全新能力让标准化变得不重要(室温超导就是能量的无损传输,会带来飞行汽车,“我们离新的室温超导只有几年”——这是 Periodic 在押的事)。


七、算力市场与非 NVIDIA 芯片

SF Compute(创始人 Evan)在做”算力的期货合约”。Anjney 说交易所最难的是冷启动——各方之间有信任边界、资本市场、运营上的种种摩擦。他的设想是 AMP 做成双向开放协议:SF Compute 有多余供给就接到网上被需求灌满,缺供给时也接上网拿容量。目前还主要在一圈互相信任的实验室、大学之间跑,目标是变成谁都能接的开放协议。

一个很真实的现状插曲:过去六周,他们原以为年底会有的富余容量”全没了”,手机里全是融了几十亿美元的创始人在问”下几周能不能匀我 50 个节点”。

非 NVIDIA 芯片这条,他用 MatX(创始人 Rainer Pope)做例子,纠正了”另搞架构会破坏标准化”的担心:MatX 选了 NVIDIA 的参考架构,所以它的芯片能插进任何按 NVIDIA 规划建的机房(IO/机架尺寸一样),把创新集中在系统协同设计(co-design)、逻辑芯片那一层——“造芯片要做的事太多了,不可能每条战线都打”。所以 Jensen 把参考架构开放公布出来,反而成全了 MatX 这种公司;而且算力需求远超 NVIDIA 产能,二者不构成竞争。

但 co-design 的真正瓶颈是信任边界:要做好协同设计,你得尽早看到下一代模型架构——因为芯片流片(tape-out)要两年,等你芯片出来模型架构变了你就完蛋。在 Google 内部你紧挨着 Gemini/PaLM 团队,这个回路很紧;一旦作为创始人离开,最大风险就是被踢出信任边界。Anjney 自己的价值就在这——他从第一天就深度参与一批实验室(Anthropic、Mistral 董事、帮 Black Forest Labs 起步),可以帮独立生态里的芯片团队拿到这种”信任接入”。


八、研究员能不能当好 CEO(对人才判断最有用的一段)

他做过 LMArena(Arena)五个月的”CEO 实习生”——Whalen 和 Anastasios 还在收尾博士、不需要产品团队,他帮着招了工程/产品/设计负责人,但 Anastasios 一直是真 CEO。

由此引出他对 VC 的一个尖锐判断:VC 不擅长把人看成动态的个体,总想把你装进一个盒子——“这就是你的定位”。 别人介绍 Anastasios 时说”他很厉害,但他是个研究员”(言下之意:不是 CEO/创始人)。Anjney 的反应是”你疯了吗?你见过 Dario 吗?Dario 就是个科学家,四年把公司从零做到很快就万亿美元。

他的论证很有力:名义上当个 CEO 不难,当个 CEO 难,当个伟大的 CEO 需要的表现水平,恰恰是那些已经在自己领域顶尖发表过的科学家所证明过的。“在 Berkeley 这种地方做到学科顶尖,你就是个明星运动员——头脑的运动员(athlete of the mind),在最高水平上竞技。” Anastasios 博士去年才毕业,引用量已超过年纪两倍于他的人,同时把 LMArena 做成了几百万人用的产品。


九、领先,不是赢;以及 VC 把启发式当公理

Anjney 对”赢”这个词很别扭。swyx 说”你也想赢、想要 SOTA 吧”,他纠正:“不,你要的是领先(lead)——推动前沿、做没人做过的事、捕获足够价值以持续创新,但别捕获到让人觉得你和使命不对齐。”他赞 Jensen 在 Dwarkesh 播客那句”我醒来没有 loser mindset”。

接着是另一段很尖的判断:**很多 VC 在不确定的年代,会抱着上个时代碰巧成立的”启发式(heuristic)“,当成”公理(axiom)“自信地宣讲,用来判断人和公司。** 公理可以靠内部一致性证明,启发式只是个捷径。”这世界一大半的问题是用类比来推理(reasoning by analogy),加上一堆没说出口的隐含假设。“——例如把 Anthropic 草草归类成”不就是在训模型嘛 / 不就是个 B2B SaaS 嘛”。swyx 接:“这是从根本事实出发去想的人最好的时代,因为你预判的事正在一个个成真。”

他还吐槽这种”类别之争”对真正做事的人多么违和:懂行的人(比如做实时动作预测模型的)根本不在外界以为的”竞争类别”里——一听别人也在做同一个具体问题,反应是”我爱这人,我能跟他学”,而不是”哦那是个做世界模型的”。是 VC 逼着大家把技术复杂度翻译成”你和那个世界模型有啥不同”这种商业话术,误对齐就这么爬进来。


十、Anthropic 怎么攻克 coding,和”文化是脆的护城河”

swyx 直接问:“Anthropic 到底怎么攻克 coding 的? Claude 1、Claude 2 都还没成气候。主流假说是运气好掷对了骰子、然后加倍投入。”

Anjney 用他寄宿学校老师那句他当年最烦的话回答:“Luck favors the prepared mind(机会偏爱有准备的头脑)。” 他小时候是那种不太用功也能拿好成绩的孩子,老师老敲打他”你没拿到 95 分是因为你没那么走运——你没有一个有准备的头脑”。如今他懂了。“Anthropic 是过去四年最有准备的公司,所以当对的数据、对的开发者、对的 context diff 进来时,他们接得住。你可以叫它运气,但那是用四年的偏执准备换来的运气。“顺带:Anthropic 烧钱比 OpenAI 高效得多(swyx 写过,”差得不是一点点”),早年太难反而逼出了极致效率——这本身就是一种”为世界做 output maxing”。

然后是全篇关于组织最值钱的一段。swyx 翻过他的旧课:“大家以为护城河是数据,其实是文化、是团队。”Anjney 同意”文化是终极护城河”,但马上补刀:“文化非常脆。我找到的真正算护城河的东西很少。文化得不断补充、像花园一样每天打理。” 他引 a16z 办公室墙上那句(他归给”武士道”):“文化不是一组信念,是一组行动。” 你一旦停止做那些体现使命对齐的行动,文化就开始磨损。Ben Horowitz(《创业维艰》作者)在他课上讲过:今天好多 AI 实验室钱够、算力够,还是做不出 SOTA,然后人开始流失——病根就是文化。

最后是 Anthropic 的 P0(最高优先级)从第一天就是 coding 的逻辑:因为资源极度稀缺,你被逼着定义”愿意为它放弃一切的那座山头”。机制是”如果攻克 coding,就能攻克 AGI”——coding 是一种足够通用的能力,能加速电脑上的一切工作,能加速一切就能通向 AGI。为此他们对其他一切说不。反过来:那些太早、太快、太轻易拿到太多钱的团队,因为不被逼着定义 P0,文化往往最脆、最容易碎,常常连”起飞”都到不了。(Anthropic 早期被无数人拒、“对不起我们都投 OpenAI 了”,在他看来是 feature 不是 bug。)


十一、收尾:硅谷既是传教士,也是雇佣兵

回到 Periodic Labs:技术约束是物理、是现实本身。但还有个组织层面的考验——有人几个月前答应加入,为了更高的薪水反悔去了别处;等 Periodic 有了技术突破、做出 SOTA 系统,那人想回来,Anjney 一句 “不,你有过你的机会了” 拒掉。“我信第二次机会,但有些伤口得靠时间愈合。”他 24、25 岁创业,早把背叛和狗血戏经历过一遍,所以看得开:“硅谷既是一个非常传教士(missionary)的地方,也是一个非常雇佣兵(mercenary)的地方。大钱一进来——其实放在大格局里是很小的钱——有些人就疯了。”

他讲了自己的底色:印度 Rishi Valley 那所克里希那穆提办的寄宿学校,七年没有技术,睡薄到不行的垫子、近乎”强制的极简主义”;后来拿新加坡奖学金,11、12 年级住的是建新校区前的过渡宿舍、原来是移民劳工的房子,一间小屋塞好几张上下铺。“钱对我很 life changing,但很多人没被教过怎么面对钱——我们都不是含着金汤匙长大的。”


拧巴的地方 / 我的几点怀疑

  1. 他是纯赢家视角的样本。 他亲手参与的 Anthropic、Mistral、Black Forest Labs、Periodic、Arena 大多成了,举的例子(NVIDIA、Anthropic、Dario)全是赢家。可”反共识但错了”的坟场不在他的样本里,而他作为深度利益相关方,比一般人更难中立。听他讲”研究员能当 CEO”“文化是护城河”时,记得这是事后由幸存者讲的。

  2. AMP 的调度哲学,建立在一个他没回应的反例上。 swyx 当面提了 Google Brain Marketplace——credit 式动态优先级试过,结论是”有时需要中央指挥 all-in,市场化 credit 不灵,这套机制让 Google 错过了 GPT”。Anjney 没接。而 AMP 的 interruptible demand / 竞价调度,正是这套机制。这是它最大的未答问题。

  3. 几个数字是软的。 “20% 数据中心今年有反弹风险”他自己说可能被高估;“几年内室温超导”是非常激进的断言,而 Periodic 正是他自己的押注,王婆卖瓜成分高;“1.3 GW / 6 GW”是想锁的需求、不是已落实的容量,他也澄清了。

  4. 临终预测想了 14 年仍在 “incubation”。 叙事宏大、机制讲得也对(malpractice → 宽误差区间 → 过度治疗 → 30% Medicare),但真正做出来的成果基本没有——更像一个长期信念,而非已被验证的东西。

  5. “output maxing / 反浪费”和”做公益数据中心、临终预测”之间,他没说清商业上怎么自洽。 AMP 是 PBC,但它同时要做横向算力生意、还要 Foundry 投资——多重身份(调度方 + 投资方 + 公益)之间的潜在利益冲突,访谈里被”对齐”这个词轻轻带过了。


一句话总判

这是一篇信息密度很高的一手访谈,最值钱的不是 AMP 这门生意本身,而是三组判断:① 算力竞赛的真瓶颈是利用率和系统工程,不是采购量(MFU、ISO、iterative bring-up);② 顶尖科学家天然具备当伟大 CEO 所需的表现水平,VC 习惯把人装进盒子是个系统性误判(Dario 即证);③ 文化是脆的护城河、要每天打理,而 Anthropic 的胜势来自”四年偏执准备 + P0 死磕 coding + 被逼出的效率”。读的时候按”幸存者 + 利益相关方”打折,尤其是他没回应的 Brain Marketplace 反例。