声网发布AI外呼智能体评测基准VoiceAgentEval_财经资讯

声网发布AI外呼智能体评测基准VoiceAgentEval

创始人

2026-02-26 15:48:23

全球领先的对话式 AI 与实时音视频云服务商声网联合美团、xbench 正式发布 AI 外呼智能体评测基准 VoiceAgentEval，为 AI 外呼场景打造了首个贴合真实业务的综合评测标准，声网凭借自身技术与生态优势，为 AI 外呼行业解决了专属评测体系缺失的行业痛点，也为生成式 AI 在该领域的技术落地与体验优化提供了核心参考依据。

一、从“能通话”到“会沟通”的科学标尺

随着生成式AI技术在客服、销售、招聘等场景的快速渗透，业内对于建立统一、客观的评测标准呼声日益高涨。此前通用的MMLU、C-Eval等学术榜单，已无法满足对AI外呼“会沟通、懂需求”的高级能力评估。

VoiceAgentEval基于声网在对话式AI交互能力、美团在外呼业务场景以及xbench在AI基准评测领域的三方优势，构建了覆盖“基准测试构建”、“用户模拟器”和“交互质量评估方法”三大维度的综合评测框架。

二、三大维度评测：覆盖业务全场景与交互全链路

依托声网在对话式 AI 交互能力、美团在外呼业务场景、xbench 在 AI 基准评测领域的丰富经验，VoiceAgentEval 从基准测试构建、用户模拟器、交互质量评估方法三个主要维度，构建了全方位的 AI 外呼能力评估体系。

1. 基于真实语料的基准构建：语料库覆盖了客服、销售、招聘、金融、调研、主动关怀与通知六大业务领域及30个子场景。每个子场景均建立了包含场景特定流程分解、加权评分系统在内的详细评估方案。

2. 高度仿真的用户模拟器：美团构建了包含150种不同人设的用户模拟器，通过模拟真实业务场景中的交互数据，生成具有不同行为模式、知识背景和对话策略的虚拟用户，实现了在可控可复现环境中对模型任务完成能力的规模化测试。

3. “文本+语音”双维度评估：在文本评估上，建立了包含任务流程遵循（TFC）和通用交互能力（GIC）的双层评估系统；在语音评估上，设定了15个指标，整合专家评分与客观数据，对ASR识别准确率、音频质量和交互体验进行多维度量化。

三、评测结果揭示领先模型，助力企业精准选型

根据VoiceAgentEval的评测数据，在AI外呼场景中综合性能表现最为突出的三款模型分别为字节跳动的Doubao-1.5-32k、OpenAI的GPT-4.1和Anthropic的Claude-4-Sonnet。其中，Doubao-1.5-32k与GPT-4.1在语音交互体验上表现优异，展现了强大的综合实力。该结果为相关企业在模型选型与技术路线规划上提供了极具价值的决策依据。

四、结语

据了解，xbench 已在其官网正式发布 VoiceAgentEval 评测基准，声网也将在 AI 模型评测平台（对话式）中同步上线相关评测数据。VoiceAgentEval 的发布不仅为 AI 外呼从业者提供了大模型性能评估的核心参考，更推动了 AI 模型评测从理想化的学术评测走向更真实的业务场景化评测，对生成式 AI 在产业端的落地具有重要意义。

作为对话式 AI 与实时音视频领域的先行者，声网此前已上线对话式 AI 引擎 2.0 版的电话外呼功能，目前已有多家零售、医疗健康企业完成接入。未来，声网将继续深耕对话式 AI 与实时音视频云服务领域，持续完善 AI 外呼相关技术与评测体系，助力生成式 AI 在客服、销售等领域的深度落地，推动行业向更高效、更智能的方向发展，行业未来可期。

上一篇：明晚7点半见！雷军将直播详解小米汽车的安全体系

下一篇：套现超千亿港元，长和系卖掉英国电网业务

声网发布AI外呼智能体评测基准VoiceAgentEval

相关内容

热门资讯