腾讯混元推出AI数字人技术:一张照片配音频即可生成唱歌视频
创始人
2025-05-29 20:37:17

5月28日,腾讯混元团队联合腾讯音乐天琴实验室正式发布并开源语音数字人模型HunyuanVideo-Avatar。该技术仅需用户提供一张人物图像和一段音频文件,即可自动生成包含自然表情、精准唇形同步以及全身动作的动态视频内容。

HunyuanVideo-Avatar基于腾讯混元视频大模型与MuseV技术深度融合开发。该模型具备强大的多模态理解能力,能够自动识别输入图像中的人物环境信息以及音频所承载的情感内容,进而生成高度匹配的视频片段。以实际应用场景为例,当用户上传一张海滩吉他女性照片配合抒情音乐时,系统会自主理解“海边弹唱抒情歌曲”的场景设定,生成相应的音乐表演视频。

在技术能力方面,该模型突破了传统数字人技术仅支持头部驱动的局限性,全面支持头肩、半身与全身三种景别模式。同时覆盖赛博朋克、2D动漫、中国水墨画等多种艺术风格,以及机器人、动物等多物种角色驱动,并具备双人或多人互动场景的处理能力。

HunyuanVideo-Avatar已在腾讯音乐娱乐集团多个核心产品中实现落地应用。在QQ音乐平台,用户收听“AI力宏”歌曲时,AI生成的虚拟形象会在播放界面实时同步演唱动作。酷狗音乐的长音频绘本功能集成了AI虚拟人讲故事能力。全民K歌则推出用户专属MV生成功能,支持上传个人照片制作个性化唱歌视频。

技术架构层面,该模型采用多模态扩散Transformer(MM-DiT)作为核心架构,通过角色图像注入模块确保视频中人物的一致性表现。音频情感模块能够从声音和图像中提取情感特征,生成细致入微的面部表情和肢体动作。针对多人场景,模型配备面部感知音频适配器,利用人脸掩码技术实现多角色的独立精准驱动。

官方表示,HunyuanVideo-Avatar在主体一致性和音画同步准确度方面已达到业内领先水平,超越现有开源和闭源解决方案。在画面动态性和肢体自然度表现上,与其他主流闭源方案处于同等技术水准。

目前,HunyuanVideo-Avatar的单主体功能已在腾讯混元官方网站开放体验,用户可通过“模型广场-混元生视频-数字人-语音驱动”路径访问相关功能。系统当前支持不超过14秒的音频文件上传,后续将逐步开源更多高级功能模块。

相关内容

热门资讯

「实测讲解」官方正版牛牛.有挂... 「实测讲解」官方正版牛牛.有挂吗[原来真的有挂]您好:官方正版牛牛这款游戏可以开挂,确实是有挂的,需...
实测分享“乐酷大厅能不能开透视... 您好:乐酷大厅这款游戏可以开挂,确实是有挂的,需要软件加微信【4194432】,很多玩家在乐酷大厅这...
[第一财经]“微乐填大坑是不是... 您好:微乐填大坑这款游戏可以开挂,确实是有挂的,需要软件加微信【2278274】很多玩家在这款游戏中...
今日重大通报“白金岛红拐弯透视... 您好:白金岛红拐弯这款游戏可以开挂,确实是有挂的,需要了解加客服微信【4194432】很多玩家在白金...
玩家必看“皇豪互娱斗牛其实有辅... 您好:皇豪互娱斗牛这款游戏可以开挂,确实是有挂的,需要软件加微信【6355786】,很多玩家在皇豪互...