← All Articles

TML 的边听边说 vs 面壁 MiniCPM-o:两条让 AI 摆脱回合制的路

赛博禅心 · Original

赛博禅心把 Thinking Machines Lab(TML,Mira Murati + 翁荔 Lilian Weng 创立,种子轮 20 亿美元、估值 120 亿)刚发的 Interaction Models,跟面壁智能今年 2 月开源的 MiniCPM-o 4.5 对比着讲。两家想解决的问题一样——让 AI 边听、边看、边说,不再像对讲机一样一来一回;但技术路径分歧很多。

TML 发了什么

模型叫 TML-Interaction-Small:276B 参数的 MoE(Mixture of Experts,混合专家——参数总量大但每次只激活一部分),每次激活 12B。

架构是两套模型搭配:

Demo 里翁荔出镜(她的首次产品演示)。她让模型在她讲故事时,每听到一个动物名字就计数。中间喝水、停顿、思考,模型都没打断。最后给出正确答案:鹿一次、绵羊一次、郊狼一次、卡皮巴拉一次。

Benchmark 数字(用 FD-bench,专测交互质量):

TML 还自己造了两个 benchmark:

这俩 bench 上现有模型几乎为零——GPT-realtime-2.0 拿 4.3 和 2.9,TML 拿 64.7 和 81.7。

模型目前只放了视频,还没开放,预计今年晚些时候发布。

VAD 该退休了——两家共同的核心洞察

现在主流 AI 通话流程像对讲机:你说完,等一下,AI 回应;AI 说完,你再说。控制节奏的组件叫 VAD(Voice Activity Detection,语音活动检测),判断你停顿超过约半秒就认定你说完了,触发 AI 回复。

TML 博客原话:

“这个组件比模型本身笨得多,但它在主导整个对话节奏。”

问题是,人说话会停顿、会思考、会犹豫,VAD 分不清”在想”和”说完了”,所以 AI 经常在你思考的时候抢话。

两家的共同主张是:把 VAD 拿掉,让模型自己学会判断什么时候该说、什么时候该听。

TML 的做法:把时间切成 200ms 一个微回合(micro-turn)。每个片段里模型先处理刚收到的输入,再决定是否输出。200ms 刷新一次感知,没有人工设定的轮次边界。

面壁的做法(框架叫 Omni-Flow):思路类似,把连续的音视频流切成时间片段,在共享时间轴上对齐。

面壁的方案

MiniCPM-o 4.5,2 月 3 日开源,9B 参数端到端全模态。组件:

所有组件通过 token 级隐状态连接,可端到端联合训练。

Omni-Flow 把交互过程切成秒级时间窗口。每个窗口内:

  1. 接收新的视觉和音频信号
  2. 预测一个控制 token——“听”还是”说”
  3. 如果是”说”,再生成具体内容

消融实验:时间窗口测了 1.0 秒 / 0.2 秒 / 0.1 秒,1.0 秒效果最好。窗口太短,模型在每个片段内拿到的信息不够做稳定决策。

TAIL 技术解决一个具体问题:模型生成文本很快,但念出来需要时间;如果不对齐,说出来的内容会滞后于当前语境。TAIL 让模型自适应控制每个窗口的文本量,保持语音和实时语境同步。

部署:面壁开发了 llama.cpp-omni 推理框架,MiniCPM-o 4.5 在 RTX 4090 上的实时因子 0.21,内存占用低于 12GB。模型权重和代码公开在 Hugging Face 和 GitHub。

五个分歧

两家对”为什么做”判断几乎一致,“怎么做”上走了不同的路:

维度 TML 面壁
时间粒度 200ms 1.0s
编码器 不用 Whisper/SigLIP,原始音频经轻量嵌入层进 transformer,从头联合训练 保留 Whisper Medium + SigLIP ViT
模型架构 交互模型 + 背景模型,两套分工 9B 统一模型覆盖全部
“是否说话”判断 模型隐式学会 显式 Listen-Speak 控制 token,先预测”听还是说”再预测内容
部署目标 云端 端侧

时间粒度的分歧值得多看一眼——TML 逻辑是粒度越细感知越快;面壁消融给出相反结论,说 0.2 秒窗口信息太少决策不稳。两家都没公开对方粒度下的测试数据,所以这点目前是个悬案。

编码器选择上 TML 引用了 Rich Sutton 的 Bitter Lesson(苦涩的教训——通用的学习能力最终会超过手工设计的组件)来辩护”不用现成编码器”。面壁保留 Whisper/SigLIP 是务实派。

Listen-Speak 控制 token 的显式 vs 隐式——面壁的消融显示拆开(显式)效果更好。

一个值得记的细节

TML 博客末尾引用了 Anthropic 一份 model card 里的话:

“用户以同步的、手在键盘上的方式使用模型时,收益并不明显。”

赛博禅心没展开评论,但这句话本身值得拎出来——意思是文字打字这种同步交互形态,对模型能力的发挥不充分;异步、语音、多模态才是收益曲线陡的地方。这也间接解释了 TML 把第一刀切在这里的原因。

拧巴 / 我的怀疑