文/陈溯
当前,生成式AI正以“指数级速度”渗透进千行百业,与此同时,AI发展却陷入了一种尴尬的“繁荣困境”:打开任意一款AI聊天界面,很多交互框架如出一辙,搜索AI客服解决方案,80%的产品话术高度重合,连AI生成的文案、图像,都带着挥之不去的“模板感”。
这种现象的背后,是AI产业从“技术突破”转向“应用落地”过程中遭遇的同质化瓶颈——当大模型的参数竞赛逐渐趋缓,当通用场景的流量红利见顶,如何让AI真正“读懂”世界、“理解”需求,成为破局的关键。
近年来,我国不少科技领军企业通过科技创新、技术升级,将AI进化为“能感知、会思考”的智能体,探索AI产品可持续发展的破局之道。
“感知力”重构AI价值边界
近年来,我国人工智能产业迎来高速发展期,目前人工智能企业数量已超6000家,已建成11个国家人工智能创新应用先导区、17个国家级智能网联汽车测试示范区,展现出强劲的市场潜力。
人工智能发展至今,大量同质化AI涌现,据艾瑞咨询《2023年中国AI应用市场白皮书》,当年新增AI企业超2.3万家,其中80%集中在智能客服、AI画图、语音助手等通用场景。
2025年12月的对比分析显示,不同产品背后的聊天机器人界面相似度高达92%。包括全面渗入消费者生活决策的AI大模型,在模型能力、算力上的差异也在逐渐趋同,核心差异化更多体现在“生成风格”的体验层面。
今年3月,伴随着Token(中文名词元,大模型调用量的评估标准,也是大模型厂商销售套餐的计费单位)概念的明确,行业也开始从“技术狂热期”转向“价值兑现期”。
专家表示,同质化是当前中国AI产业未来高质量发展的核心瓶颈之一,破局同质化的关键就在于让其进化为“能感知、会思考”的智能体,通过影像识别、感知或语音交互,实现对物理世界、人类需求与复杂场景的深度理解与自适应能力,从数字世界的提供决策者,进化为可以赋能产业、生活的行动派。
多领域探索“感知力”落地可能性
近年来,AI科技企业通过多领域探索,让AI感知力的落地成为可能,让AI从“看见”“听见”再到“理解问题”“解决问题”。
比如,具身智能的兴起,为AI感知力的落地提供了技术路径。与传统大模型依赖文本数据不同,具身智能通过传感器、机械臂等物理载体,实现与现实世界的直接交互。比如,在公共服务领域,安徽芜湖的“芜优”智警机器人,通过集成6个高清摄像头与1个激光雷达,能360度无死角感知路况,精准识别多种交通违法行为,并与信号灯系统协同优化路口疏导模式。与传统的“被动响应式”AI不同,这类具备感知力的智能体能够主动发现问题、分析问题并解决问题,从“工具”升级为“伙伴”。

2026年度博鳌亚洲论坛年会期间,vivo总裁、首席运营官,vivo中央研究院院长胡柏山接受媒体采访
2026年度博鳌亚洲论坛年会期间,vivo总裁、首席运营官,vivo中央研究院院长胡柏山表示,AI正处在从被动执行到主动感知、理解的关键转折点。AI要从虚拟世界走进现实,必须建立自己的感知能力。vivo认为,影像是感知的基础。影像技术通过光学系统、成像处理、空间计算等全链路能力,完成了物理世界的数字化投射与三维场景重建,是AI看懂物理世界、理解真实场景,进而感知情绪、预测行动的基础。

vivo总裁、首席运营官,vivo中央研究院院长胡柏山发表主题演讲
显然,vivo提出的感知能力已不单是在工厂、红绿灯等基础、有预设规则环境下识别感知,而是聚焦更复杂、无规则的生活环境、更难捕捉的如人的情绪的感知。而这一切的核心,就是围绕影像+AI,构建一整套完整的感知体系。
据了解,vivo即将发布的vivo X300 Ultra和X300s就将搭载具备场景识别能力的影像Agent,可以根据对环境的理解,为用户推荐最佳构图与个性化功能,让人人都能“随心”一键出大片。当然,这只是vivo初步尝试,据胡柏山介绍,vivo基于影像+AI构建的感知体系,最终要走向“智及万物”,除了重资源投入手机、头显、机器人三个核心的HUB型产品外,还将赋能各生态终端,甚至千行百业。
聚焦真实场景需求,深耕垂直领域
未来的AI需要实现“多模态感知”与“因果推理”的深度融合,不仅能“看见”“听见”,更能“理解”背后的逻辑,在这一需求下,越来越多中国科技企业谋求技术突破。
比如刚提到的vivo,技术上聚焦影像+AI构建感知能力,场景上聚焦家庭场景,逐步攻克家庭机器人难点;比如国产传感器企业也在谋求技术突破,柯力传感等企业在六维力传感器领域持续发力,为人形机器人的精准操作和感知理解提供了可能。
分析认为,当下AI不应再一窝蜂追求大量模型训练,而应该回归思考AI技术的本质——能否真正理解人类的需求,能否真正为现实世界创造独特价值。面对同质化竞争,企业应放弃“大而全”的幻想,聚焦行业痛点,深耕垂直场景,将AI感知力与行业Know-how深度结合,真正释放AI技术的价值。
