赞
踩
虚拟数字人是综合多模态AI能力,结合图像视觉、情绪生成、语音克隆、语义理解等多种AI技术,广泛应用于媒体新闻主播、金融客服、虚拟游戏等众多场景。
数字人在行业中的应用:
HMS ML Kit数字人是依托华为公司强大的图像处理、语音合成、声音克隆、语义理解等AI核心技术,全新推出的综合多模态AI能力。面向教育、新闻、多媒体制作企业,提供高质量、低成本、创新体验的内容创作模式。对比其他厂商数字人,HMS ML Kit数字人的优势明显:
支持超高清4K影院级效果
支持大屏展示,全身细节纹理均达到同等清晰度
生成与真实背景图像无缝融合,高清分辨率下无融合痕迹
嘴唇细节、口红反光分明、纹理清晰
牙齿清晰可见,齿缝纹理清晰真实
合成效果逼真度
真实还原牙齿(非贴图)、嘴唇、甚至口红反光细节。
真实还原面部光照、对比度、阴影、酒窝等细节。
嘴部皮肤生成纹理与真实纹理无缝对接。
相对3D主播,无动画生硬感。
从上图中我们可以看到HMS ML Kit数字人超高清的真人视频效果,不仅口齿清晰,ML Kit数字人还对一些细节的掌控更加优秀:嘴唇细节、口红反光细节、更加真实的面部发音以及细致的面部光照效果。
调用【定制文本转虚拟数字人视频接口】,将一些配置(config)和需要转化的文本(data)通过该接口传输至后端进行处理:首先,要对传输进来的data的文本字符长度进行校验,中文文本最大字符长度不得超过1000,英文文本单个字符长度不得超过3000,英文文本单词长度不得超过3000,对于传输进来的config做非空校验,然后将config和data提交,将文本文字转化为音频文件。
会有一个异步执行的定时任务处理提交的数据,调用TTS提供的算法,将文本文件转化为视频文件,并且将上一步得到的音频文件与视频文件合成起来。
调用【文本转虚拟数字人视频结果查询接口】,实时查询异步执行的文本转视频是否已经执行完毕;如果执行完毕,将会返回一个生成视频的链接。
根据【文本转虚拟数字人视频结果查询接口】所返回的视频链接,访问生成的视频文件。
URL:
http://10.33.219.58:8888/v1/vup/text2vedio/submit
请求参数:
主要功能:
输入文本转换成虚拟数字人视频接口,此接口为异步接口,当前版本转换需要一定时间,采用离线方法,最终转换结果需要通过【文本转虚拟数字人视频结果查询接口】查询。如果提交的文本已经合成过,直接返回播放URL。
主要逻辑:
根据前端页面所传输的需要合成的文本数据data,根据config所提供的一些配置,将文本文字转化为音频文件。异步执行多线程,根据所提供的算法模型生成合乎发音的视频文件,然后将视频文件与音频文件合成起来,生成所需的数字人视频。如果提交的文本已经合成过,直接返回播放URL。
URL:
http://10.33.219.58:8888/v1/vup/text2vedio/query
请求参数:
主要功能:
根据提交文本ID批量查询转换状态。
主要逻辑:
根据前端页面所传输的合成的文本数据ID列表,即textIds字段,查询所得到的视频文件合成的任务状态,将得到的状态结果存在集合,作为返回参数,插入到返回的请求当中。如果请求的文本已合成过,直接返回播放URL。
URL:
http://10.33.219.58:8888/v1/vup/text2vedio/offline
请求参数:
主要功能:
根据提交文本ID批量下线。
主要逻辑:
根据前端页面所传输的合成的文本数据ID数组,即textIds字段,对该数组内所有ID对应的视频进行下线设置,改变其状态为下线状态,同时删除视频文件,被下线的视频无法播放和观看。
HMS ML Kit数字人服务的功能非常强大:
视频画中画展示:
作为一名开发者来说,在使用HMS ML Kit数字人生成一个视频之后,尤其是视频画中画的功能,令我叹为观止。这切切实实地还原了真实主播所处的新闻播报场景,不禁让人畅想,在完善化的数字人推行下,是否可以完全替代真人播报呢?
https://developer.huawei.com/consumer/cn/hms/huawei-mlkit
原文链接: https://developer.huawei.com/consumer/cn/forum/topicview?tid=0202351501845870559&fid=18
作者:say hi
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。