TML 的边听边说 vs 面壁 MiniCPM-o:两条让 AI 摆脱回合制的路
赛博禅心把 Thinking Machines Lab(TML,Mira Murati + 翁荔 Lilian Weng 创立,种子轮 20 亿美元、估值 120 亿)刚发的 Interaction Models,跟面壁智能今年 2 月开源的 MiniCPM-o 4.5 对比着讲。两家想解决的问题一样——让 AI 边听、边看、边说,不再像对讲机一样一来一回;但技术路径分歧很多。
TML 发了什么
模型叫 TML-Interaction-Small:276B 参数的 MoE(Mixture of Experts,混合专家——参数总量大但每次只激活一部分),每次激活 12B。
架构是两套模型搭配:
- 交互模型始终在线,负责实时对话
- 背景模型异步跑,处理工具调用、网页搜索这类需要时间的重活,做完把结果回传
Demo 里翁荔出镜(她的首次产品演示)。她让模型在她讲故事时,每听到一个动物名字就计数。中间喝水、停顿、思考,模型都没打断。最后给出正确答案:鹿一次、绵羊一次、郊狼一次、卡皮巴拉一次。
Benchmark 数字(用 FD-bench,专测交互质量):
- 轮次切换延迟:TML 0.40 秒 / GPT-realtime-2.0 1.18 秒 / Gemini-3.1-flash-live 0.57 秒
- 交互质量评分:TML 77.8 / GPT 两个版本分别 46.8 和 47.8
TML 还自己造了两个 benchmark:
- TimeSpeak:模型能不能在指定时间主动开口(“每 4 秒提醒我呼吸一次”)
- CueSpeak:模型能不能在正确时刻回应(“听到外语就纠正发音”)
这俩 bench 上现有模型几乎为零——GPT-realtime-2.0 拿 4.3 和 2.9,TML 拿 64.7 和 81.7。
模型目前只放了视频,还没开放,预计今年晚些时候发布。
VAD 该退休了——两家共同的核心洞察
现在主流 AI 通话流程像对讲机:你说完,等一下,AI 回应;AI 说完,你再说。控制节奏的组件叫 VAD(Voice Activity Detection,语音活动检测),判断你停顿超过约半秒就认定你说完了,触发 AI 回复。
TML 博客原话:
“这个组件比模型本身笨得多,但它在主导整个对话节奏。”
问题是,人说话会停顿、会思考、会犹豫,VAD 分不清”在想”和”说完了”,所以 AI 经常在你思考的时候抢话。
两家的共同主张是:把 VAD 拿掉,让模型自己学会判断什么时候该说、什么时候该听。
TML 的做法:把时间切成 200ms 一个微回合(micro-turn)。每个片段里模型先处理刚收到的输入,再决定是否输出。200ms 刷新一次感知,没有人工设定的轮次边界。
面壁的做法(框架叫 Omni-Flow):思路类似,把连续的音视频流切成时间片段,在共享时间轴上对齐。
面壁的方案
MiniCPM-o 4.5,2 月 3 日开源,9B 参数端到端全模态。组件:
- 视觉:SigLIP ViT,0.4B
- 音频:Whisper Medium,0.3B
- 语言模型:Qwen3-8B
- 语音解码:0.3B 轻量解码器
所有组件通过 token 级隐状态连接,可端到端联合训练。
Omni-Flow 把交互过程切成秒级时间窗口。每个窗口内:
- 接收新的视觉和音频信号
- 预测一个控制 token——“听”还是”说”
- 如果是”说”,再生成具体内容
消融实验:时间窗口测了 1.0 秒 / 0.2 秒 / 0.1 秒,1.0 秒效果最好。窗口太短,模型在每个片段内拿到的信息不够做稳定决策。
TAIL 技术解决一个具体问题:模型生成文本很快,但念出来需要时间;如果不对齐,说出来的内容会滞后于当前语境。TAIL 让模型自适应控制每个窗口的文本量,保持语音和实时语境同步。
部署:面壁开发了 llama.cpp-omni 推理框架,MiniCPM-o 4.5 在 RTX 4090 上的实时因子 0.21,内存占用低于 12GB。模型权重和代码公开在 Hugging Face 和 GitHub。
五个分歧
两家对”为什么做”判断几乎一致,“怎么做”上走了不同的路:
| 维度 | TML | 面壁 |
|---|---|---|
| 时间粒度 | 200ms | 1.0s |
| 编码器 | 不用 Whisper/SigLIP,原始音频经轻量嵌入层进 transformer,从头联合训练 | 保留 Whisper Medium + SigLIP ViT |
| 模型架构 | 交互模型 + 背景模型,两套分工 | 9B 统一模型覆盖全部 |
| “是否说话”判断 | 模型隐式学会 | 显式 Listen-Speak 控制 token,先预测”听还是说”再预测内容 |
| 部署目标 | 云端 | 端侧 |
时间粒度的分歧值得多看一眼——TML 逻辑是粒度越细感知越快;面壁消融给出相反结论,说 0.2 秒窗口信息太少决策不稳。两家都没公开对方粒度下的测试数据,所以这点目前是个悬案。
编码器选择上 TML 引用了 Rich Sutton 的 Bitter Lesson(苦涩的教训——通用的学习能力最终会超过手工设计的组件)来辩护”不用现成编码器”。面壁保留 Whisper/SigLIP 是务实派。
Listen-Speak 控制 token 的显式 vs 隐式——面壁的消融显示拆开(显式)效果更好。
一个值得记的细节
TML 博客末尾引用了 Anthropic 一份 model card 里的话:
“用户以同步的、手在键盘上的方式使用模型时,收益并不明显。”
赛博禅心没展开评论,但这句话本身值得拎出来——意思是文字打字这种同步交互形态,对模型能力的发挥不充分;异步、语音、多模态才是收益曲线陡的地方。这也间接解释了 TML 把第一刀切在这里的原因。
拧巴 / 我的怀疑
- TML 的数字目前没法独立验证——FD-bench、TimeSpeak、CueSpeak 都是 TML 自家定义的 benchmark,第三方能跑的开源模型对比有限。模型本身没开放,连可复现的演示都没有,只有一段视频。
- 粒度分歧两家各执一词:TML 200ms、面壁 1.0s,背后是两套训练数据、两套架构、两套优化目标,单看消融数字不能直接比。这事得等更多第三方测试或者两家互相在对方设置上跑一遍才说得清。
- 面壁的 9B vs TML 的 276B (12B active) 体量差距很大,比较时容易遮蔽——同等条件下端侧模型本来就需要做大量取舍。
- 作者立场:赛博禅心明显在为面壁站台(标题”刚发的让我想到了几个月前的面壁”已经预设了”面壁更早做出来”的框架)。文章没有 TML 的反方声音,也没提面壁可能的劣势。读的时候记得它是对比稿,不是测评稿。