
凌晨三点,某金融科技公司的代码仓库依旧在更新。
工程师没有通宵加班,是AI还在库库干活。
自从团队全面接入AI编程工具后,这家公司的月均代码产量,从过去的2.5万行飙升到25万行。短短几个月,仓库里积压了超过100万行尚未完成审查的代码。《纽约时报》把这一现象称为“代码大爆炸”(The Big Bang of Code):生成的速度,已经远远超过人类消化的能力。
5分钟生成1000行代码,40分钟才能勉强审完。
写代码第一次变成了最轻松的部分。真正的卡点变成了理解与审核。
行业当然也在试图补上这个缺口。以Anthropic的Opus4.8,以及更高一档但受限开放的Mythos/Fable系列为代表,已经不满足于把代码写得更快,而开始强化代码理解、跨文件推理和审查能力:追踪变量流向、识别潜在漏洞、给出带上下文的修改建议。它们正在被赋予新角,从程序员的助手,到审查员的助手。
但这并没有让问题消失。AI负责生成,AI也开始参与审查;代码产能继续膨胀,理解和责任却没有同步跟上。
当Claude Code、Cursor等工具把“对话框”变成主战场,工程师越来越像“提示词调度员”,而不再只是传统意义上的程序员。代码洪流席卷而来,但谁来为质量负责?谁来为漏洞负责?谁来真正理解这套系统的结构?
更尖锐的问题是:人类审查,究竟是AI时代低效的瓶颈,还是最后一道不能撤掉的防线?
01
代码洪流:为什么AI会生产这么多代码?
AI产出代码的速度为何远超人类审核的能力上限?这并非单一原因所致。
AI擅长生成新代码,却不擅长复用旧代码。
代码分析公司GitClear在2023年的一项研究发现,随着GitHub Copilot、Cursor等AI编程工具的流行,代码重复率(即“克隆代码”)已从2020年的约3.3%攀升至7.1%。报告指出,AI更倾向于“新增代码块”,而不是建议删除、重构或移动既有代码。

当开发者要求实现一个功能组件时,AI可能会在项目的不同角落,生成五个看似大同小异的文件,而非建议开发者复用或重构已有的一个。
AI像一个永远只会往房间里添家具的助手——沙发坏了?再给你来一个新的。墙面过时了?再刷一层。至于空间是否拥挤,它不负责。
更关键的是,开发者行为也随之异化。
理解一个已有组件,平均需要5分钟;让AI生成一个功能类似的新组件,只需10秒。
成本差距摆在那里。
于是越来越多开发者选择“重新生成”,而不是“复用理解”,快速产出模块,但减少架构思考。
当理解成本高于生成成本,代码就开始无节制繁殖。
然而,速度的提升往往以牺牲设计的严谨性、架构的清晰度为代价,为未来的维护埋下隐患。
同时,AI工具正在重塑编程的界面。以Claude Code和Cursor的“智能体模式”为例,Agent模式下,编译器窗口几乎被弱化,过去,开发者在IDE里写代码、调试、重构;现在,更多时间在和模型“聊天”。
复杂Excel报表?过去查文档两小时。现在一句话需求,十几秒生成完整脚本。
然而,便利的另一面是“大脑过滤”的失效。开发者不再需要深入思考细节,AI为了确保逻辑的“完备性”,常常会添加大量防御性代码、边界检查,甚至过度工程化的抽象层,导致生成的代码虽能运行,却冗长、复杂,犹如一篇过度解释的说明书,极大增加了阅读与审查的成本。
更极端的,是组织层面的推动。
Meta等科技公司内部曾兴起名为“tokenmaxxing”的竞赛,鼓励工程师比拼谁能用最少的提示词,驱动AI生成最多行代码。代码行数(Lines of Code,LOC)这一陈旧且饱受诟病的指标,在AI时代被意外地重新赋予“核心KPI”的意味。
Meta首席技术官安德鲁·博斯沃思(Andrew Bosworth)在一份内部备忘录中曾乐观地写道:“过去需要数百名工程师的项目,现在几十人就能完成。过去需要数月的工作,现在几天就能搞定。”这种预期催生了“人不如AI”的焦虑,也驱使团队追求代码产出的“数字繁荣”,而非内在质量。其结果,便是海量未经充分思考、设计的代码被快速提交,涌向本已脆弱的审查通道。
AI生成的代码,在“正确性”与“优雅性”之间存在巨大鸿沟。为了满足一个复杂需求,AI可能会生成多层嵌套的回调函数,或使用晦涩难懂的库特性。
不同开发者或同一开发者在不同时间,由于提示词的细微差别,生成的代码风格、结构可能迥异。这种不一致性,让后续的代码审查如同阅读一本多人合著且没有统一文风的文集,理解成本陡增。
更根本的挑战在于,AI并不真正理解业务的上下文、系统的长期演进目标和技术债的代价。它生成的是一段“在当下看似正确”的代码片段,而非“在整体系统中可维护、可演进”的代码。
02
审查不过来,会发生什么?
代码产量的激增,并未带来预期中的效率飞跃,反而触发了连锁的负面反应,将开发者拖入更深的疲惫与技术债泥潭。
我们是在用更快的机器,制造更慢的流程吗?

AI几分钟生成上千行代码,人工审查却需要数十分钟甚至更久。
安全公司Snyk在2023年的一份报告中指出,AI生成的代码中,约有25%含有已确认的安全漏洞,这一比例显著高于人类编写的平均水准。
其结果是一种诡异的角色倒置。越来越多开发者坦言,现在他们花在审查、调试、修改AI代码上的时间,已经超过了以往自己动手编写的时间。
审查海量AI代码,是一项高强度、高密度的脑力劳动。开发者需要持续判断:这段代码的逻辑是否周全?是否有隐藏的错误?是否与系统其他部分存在冲突?是否引入了安全风险?
《麻省理工科技评论》等媒体指出,持续的、高强度的AI代码审查,正导致全球范围内的开发者出现普遍的职业倦怠、认知疲劳和心理压力。他们的大脑长期处于“防御性”的审查模式,而非“创造性”的构建模式,创新热情与工作满意度受到侵蚀。
未经充分审查的代码一旦进入代码库,便成为未来的“技术债”。AI生成的代码,由于其冗余、高耦合和低可读性的倾向,往往本身就是高利息的“债务”。这些代码的积累,使得系统架构日益腐化,短期可运行,长期难维护。技术债开始滚雪球,形成“代码越多,质量越差,修改越难,新代码越多”的恶性循环。最终,整个系统可能变得无人能够完全理解,每一次改动都如履薄冰。
AI代码的浪潮也猛烈冲击着开源世界的协作伦理。
许多知名开源项目维护者不堪其扰。
2023年,cURL创始人丹尼尔·斯坦伯格(Daniel Stenberg)因无力处理如潮水般用AI生成的、质量低劣的漏洞报告和补丁,最终关闭了运行六年的漏洞赏金计划。
另一款开源工具Ghostty的创建者米切尔·哈西莫夫(Mitchell Hashimoto)则直接明令禁止所有由AI生成的贡献,并推出了基于信任的“担保人”制度。开源的核心——开放的协作与智慧共享,正因AI的无差别、低质量贡献而面临严峻挑战。
03
答案也在AI吗?
当问题由AI制造,行业自然会问:能否再用AI解决?
我们把这个问题分别抛给一位字节的高级数据运营、一位滴滴的工程师专家和一位美国初创企业的软件工程师,他们都表示,工作中已经大量使用AI写代码,且认为未来AI写代码+AI审查是一个确定的趋势。
他们表示,目前人工检查AI代码会遇到一些难点,比如代码量大,人工需要读懂逻辑和写法,会消耗大量的时间;在安全性上有风险,可能泄露数据结构;有时会存在逻辑一致性的问题,需要手动修改。
领先的科技公司正在积极布局。

2025年12月,明星AI编程工具Cursor收购了代码审查机器人初创公司Graphite,旨在帮助工程师优先处理最敏感、风险最高的代码审查请求。
在中国,大厂也已在实践。比如阿里巴巴的“通义灵码”AI编程助手已深入数万开发者的日常,官方数据显示,每天有超过一半的有效代码评审意见已由AI自动产生。在人工评审量小幅下降的背景下,总体有效评审量(含AI意见)实现了同比翻倍。阿里甚至联合高校开源了业界首个多语言、具备存储库上下文感知的CodeReview Benchmark,试图为AI代码评审设立行业标准。
初创公司也看到了其中的巨大机遇。像Qodo这样的公司,专注于打造“AI代码生成->风险发现->自动审查->治理修复”的全流程平台,并因此获得了巨额融资,预示着代码质量管理市场即将迎来爆发。
在所有尝试中,最引人注目也最富争议的,是Anthropic的Project Glasswing。这个项目最早围绕Claude Mythos Preview展开,集结了AWS、苹果、谷歌、微软、思科、Linux基金会等科技与开源生态里的关键玩家,后来又扩大到约150个新机构,覆盖电力、水务、医疗、通信、硬件等关键基础设施领域。
它的目标不只是让AI找漏洞、修漏洞,更是提前演练一个问题:当强大的AI模型足以大规模发现软件缺陷时,网络安全行业该如何验证、披露、修补这些突然涌来的漏洞。
Mythos Preview的能力已经足够让行业紧张。Anthropic称,Project Glasswing启动后的几周里,它和大约50个合作伙伴用Mythos Preview发现了超过1万个高危或严重级别的软件漏洞。Mozilla的案例更直观:Firefox团队把Claude Mythos Preview接入安全排查流程后,在Firefox150版本中修复了271个由这轮评估发现的漏洞,其中不少是过去需要顶级安全研究员长时间推理才能发现的问题。
但问题也随之反过来了。Anthropic最初没有把Mythos Preview向普通用户开放,理由是它的网络安全能力太强,可能被滥用。
6月,Anthropic试图用两条线推进:一边推出受防护的Fable5,面向更广泛用户;一边推出限制更少的Mythos5,继续给少数安全团队使用。但几天后,美国政府以国家安全和出口管制为由要求暂停外国人访问Fable5和Mythos5,Anthropic随即关闭了所有客户对这两个模型的访问。
这让Mythos成了一个非常典型的AI时代矛盾:它可能是修补软件漏洞的利器,也可能被用来更快地发现和利用漏洞。
AI既是矛,也是盾。最有可能缓解AI代码安全问题的工具,本身也可能成为新的安全风险源。
那么,人类审查,是AI时代的软件瓶颈吗?
也许是。但它也是当下的最后一道防线。
AI提高生产力,本应让人类摆脱重复劳动。然而在当前阶段,它却也增加着工作量,而非减少。是AI跑得过快,还是人类不够快?这也许是一个需要让时间来回答的问题。