作者|周炜皓
编辑|闫俊豪
2025年12月30日,字节跳动Seed团队发布《Dynamic Large Concept Models》论文,挑战了“Token是计算的原子单位”这一根深蒂固的假设,提出计算应当是分层、动态和抽象的。
一天之后,12月31日,DeepSeek提交了一篇有梁文锋署名的论文,论文题目是《mHC:流形约束超连接》,这篇论文直指大模型训练中的“信号爆炸”问题,用mHC架构为打造超大模型搭建起“脚手架”。
从打破“如何想得更快更深”的推理瓶颈,到解决“如何长得更大更稳”的现实困境,字节跳动和DeepSeek团队分别从两个方向,揭开了未来AI发展的图景一隅。
2011年,诺贝尔奖得主丹尼尔·卡尼曼在《思考,快与慢》中提出了System 1(快思考)和System 2(慢思考)的双系统理论,常被用来类比AI的推理模式。
现有的 Transformer 模型,无论规模多大,本质上都在执行System 1式的直觉反应,基于统计规律快速预测下一个词,缺乏System 2所具备的深思熟虑、规划和概念抽象能力。字节跳动团队则在论文中指出,语言模型不应受限于其输入形式,而应具备在更高维度的“概念空间”进行操作的能力。
举个例子,人类在理解“中华人民共和国”这个词时,大脑激活的不仅仅是七个字的字面意义,而是一个包含政治、经济、文化和历史背景的语义网络。DLCM 正是试图在神经网络中构建这种“概念”实体。
目前的 AI 模型存在一个通病,无论是处理无意义的虚词,比如“的”、“是”,还是处理复杂的逻辑难题,消耗的计算资源是一样的。这不仅效率低下,也限制了模型处理复杂任务的能力。DLCM通过引入“动态概念”机制,让 AI 具备了类似人类的“速读”和“慢思考”能力。
DLCM架构概述
这套机制将处理过程分为两步,首先,模型不再逐字逐句看书,而是自动识别语义,将“今天天气不错”这样简单的一串词瞬间打包成一个“概念”略过,不费脑力。其次,当遇到“相对论推导”这样的硬骨头时,模型会停下来,在压缩后的“概念空间”里调动深层算力进行缜密推理。
用更容易理解的话说,过去AI就像个死板的经理,无论是审批买文具的 5 元发票,还是审批5个亿的投资项目,都要花1个小时去审核。而引入DLCM后,这个经理就有了抓大放小的能力,审批文具发票只花1秒钟,把节省下来的时间和精力,全部用来仔细研究那个5亿的投资项目。
把好钢用在了刀刃上,比起普通AI,DLCM在处理烧脑的逻辑推理题时更聪明,推理计算量减少了约34%,处理多步逻辑推理任务时,准确率反而平均提升了2.69%。对于拥有亿级用户的字节跳动来说,这意味着可以用更低的芯片成本,提供更聪明、反应更快的 AI 服务。
“信号爆炸”,是过去大模型训练中的“地雷”。一旦踩中,不管你花了多少钱进行训练,模型都可能瞬间崩溃,前功尽弃。
为了理解 DeepSeek 这项mHC技术的价值,我们可以把训练大模型想象成一场几百人参与的“传话游戏”。
在这个游戏中,“人”就是神经网络的层,“话”就是数据传输的信号或特征信息。在最早的深度网络中,几百人排成一列传话。如果每个人都只靠“听和说”,传到第100个人时,消息往往已经面目全非或者变得极其夸张。
这就是早期深层网络训练困难的原因。过去,ResNet的解决方案是制定规则,让每个人在传话的同时,必须把上一给人给你的“原话”写在小纸条上,原封不动地递给下一个人。即使某个人脑子短路了,下一个人至少还能收到那张“小纸条”,保证了最基础的信息不会丢,这就是恒等映射。
但问题在于,这是一条“单行道”,随着模型越来越大,这张“小纸条”上写的字越来越多,想在上面塞进更多的逻辑、语法和知识,变得越来越困难。
为了解决“单行道”拥挤的问题,字节跳动等研究者想出了一个办法,从过去的一列队伍改成多排几列,并允许这几列队伍之间互相交流。新的问题出现了,由于没有制定严格的“音量规则”,大家因为能互相交流变得非常兴奋。
第一列的人喊了一嗓子,第二列的人觉得很重要,于是拿个大喇叭复述,第三列的人听到了,又把声音放大几倍传回去。就这么一团乱麻传到最后,声音被放大几千倍,全是噪音,根本听不清原本的消息,导致训练直接崩溃,这就是HC导致的大模型训练的困境。
结果表明,mHC 在损失和梯度范数方面都表现出更高的稳定性
在这个背景下,DeepSeek的研究员意识到,多列队伍是好主意,但必须治理“噪音爆炸”。于是他们引入了数学上的流形约束,依然是多列队伍并行,依然允许互相交流,但每个人面前放了一个分贝仪,如果你想听其他列的消息,可以,但你从他们那里接收的“总音量”必须严格等于1。
你想多听第一列的人在说什么,就得捂住另一只耳朵少听其他列里的人说话,如果你要往后面传话,你的声音也必须是1分贝。这样的好处在于,不管队伍排多长,不管大家怎么互相传八卦,整个房间的总音量始终控制在一个合理的范围内。
这就是mHC最关键的作用,将深层网络的信号增益从3000倍压制到1.6倍左右,实现了3个数量级的稳定性提升。DeepSeek 利用 Sinkhorn-Knopp 算法强行“熨平”了所有的信号波动,无论模型有多大,内部结构都稳如泰山。
这项技术以仅增加 6.7% 训练时间的微小代价,换来了极度的稳定性。
这两篇论文发布后,市场的反应也值得关注。
回想一年前的2025年1月27日,DeepSeek发布初代R1模型,全球资本市场曾陷入“算力通缩”的恐慌。当时,华尔街担心中国厂商极高的算法效率会大幅减少对GPU的需求,导致英伟达股价单日暴跌17%,市值蒸发近5900亿美元。
然而,2026 年1月2日,面对mHC和DLCM这两项进一步大幅降低算力成本、提升模型效率的“王炸”级技术,资本市场却表现出截然不同的态度。在两篇论文发布后的首个交易日,英伟达股价并未因“需求减少”的逻辑而下跌,反而逆势上扬1.26%,收于188.85 美元。
这种反差背后,是“杰文斯悖论”在发挥作用。早在工业革命时代,这位英国经济学家就发现,当技术进步提高了使用资源的效率,但成本降低导致需求增加,会令资源消耗的速度不减反增。
比起“DeepSeek时刻”那会儿,市场担心效率提升会导致显卡需求下降,现在的投资者们想明白了一点,效率提升以后,还可以把AI塞进手机、眼镜和汽车里,不仅不会少买,反而需要建设更庞大的推理集群来服务数十亿用户。
字节跳动的DLCM通过降低34%的推理成本,为AI落地应用扫清了障碍,DeepSeek的mHC则保证了未来更大规模模型的诞生,这两者叠加,AI的蛋糕被做得更大了。
2026年开年的这两篇论文,不仅是字节跳动和DeepSeek的技术秀,更是中国AI产业在高端芯片受限背景下走出的一条“不对称竞争”之路。如果说过去两年大家还在比拼谁的显卡更多,那么从现在开始,比赛进入了比拼谁的脑子更快的新阶段。