当前位置: article > 正文

【AIGC 】一篇文章，帮你了解什么是虚拟数字人？_数字人技术原理

作者：从前慢现在也慢 | 2024-08-08 14:45:56

赞

踩

数字人技术原理

1.数字人的三方面特征

虚拟数字人是指具有数字化外形的虚拟人物。与具备实体的机器人不同，虚拟数字人依赖显示设备存在，我们所知的很多虚拟人都要通过手机、电脑或者智慧大屏等设备才能显示。

虚拟数字人宜具备以下三方面特征:

一是拥有人的外观，具有特定的相貌、性别和性格等人物特征;

二是拥有人的行为，具有用语言、面部表情和肢体动作表达的能力;

三是拥有人的思想，具有识别外界环境、并能与人交流互动的能力。

综合来看，就是具备四方面的能力，即形象能力、感知能力、表达能力和娱乐互动能力。

如果我们下次再看到有公司推出数字人，就可以结合这些特征和能力来判断这个数字人的可信度，避免被借势营销的企业钻了空子。

2.数字人的运作原理

知道了什么是数字人，接下来就要搞清楚数字人到底是怎么说话、互动的，是背后有真人在操控，还是完全通过技术生成。

面对新兴的数字人，相信很多读者都存在类似的疑问。

数字人的诞生发展和AI人工智能可以说是密不可分，想了解数字人的运作原理，首先要知道数字人的通用系统框架。

虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成。（资料参考: 2020年虚拟数字人发展白皮书)

交互模块为扩展项，根据其有无，可将数字人分为交互型数字人和非交互型数字人。

首先看一下非交互型数字人：系统依据目标文本生成对应的人物语音及动画，并合成音视频呈现给用户。

交互型数字人根据驱动方式的不同可分为智能驱动型和真人驱动型。

▲ 智能驱动型数字人：通过智能系统自动读取并解析识别外界输入信息，根据解析结果决策数字人后续的输出文本，驱动人物模型生成相应的语音与动作来使数字人跟用户互动。

这种人物模型是预先通过AI技术训练得到，可通过文本驱动生成语音和对应动画，业内将此模型称为TTSA(Text To Speech & Animation)人物模型。

▲ 真人驱动型数字人：真人根据视频监控系统传来的用户视频，与用户实时语音，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上，从而与用户进行交互。

3.数字人常见的类型

调研分析当前市场上的数字人，根据人物图形维度，分为2D和3D两大类，从外形上可分为卡通、写实等风格，综合来看可分为二次元、3D卡通、3D高写实、真人形象四种类型。

接下来根据每种类型的特点，从外在形象、服饰装扮、表情动作等方面，结合典型案例来逐一分析虚拟数字人的设计。

二次元类型

虚拟歌手-洛天依

洛天依的职业设定为虚拟歌姬，个性软萌可爱、温柔细腻，外貌特征上是灰发、绿瞳，头戴碧玉发饰。

▲ 除了独特的形象和性格，洛天依还能唱歌、跳舞、直播带货，多样的才艺加持让人物设定不单薄，受到很多用户的关注。

3D卡通类型

虚拟助理-度晓晓

度晓晓是基于虚拟人IP的陪伴型虚拟助理。在小度助手的能力基础上，度晓晓有虚拟人物形象和情感交互系统，具备视觉识别能力，支持自然的交流方式。

▲ 在外形装扮上，度晓晓是红色短发的甜美可爱风，五官比例偏向二次元风格。根据现有案例来看，度晓晓在眨眼、微笑等面部微动作以及肢体的造型，都很自然、生动，整体设计效果相对较好。

▲ 度晓晓定期更新身穿不同主题服装、摆着各种pose的形象，每套服装都有一个主题再带配上各种周边小配饰，营造出一种清新时尚的效果。

3D高写实类型

浦发银行数字员工-小浦

小浦作为银行的数字员工，主要进行风险评估、要闻播报、投资建议等在线服务。

▲ 从外观上，小浦在形象上无论发型还是五官都足够拟人化、职业化，穿着银行职业装，属于比较典型的银行职员形象。

▲ 小浦没有很夸张的面部表情，始终以面带微笑的状态面向用户，给人一种亲切感。肢体动作相对较少，没有特别夸张的动作设定，只有固定的几套动作。

虚拟偶像-AYAYI

AYAYI是使用Unreal引擎造出来的特别拟真的Metahuman形象。

▲ 外在形象：写实程度更高，人物整体效果已经和真人十分接近，五官特别精致、眼睑微敛、银色短发，散发着一种清冷气质。

▲ 从AYAYI社交账号的更新来看，目前主要是分享一些AYAYI的摆拍图片，穿着的服装、饰品都比较真实、时尚，拍照环境都是休闲、艺术类的场景。

▲ AYAYI人物形象的时尚感和真实感，更容易切入商业化，比如穿着特定品牌的服装进行摆拍。

高保真数字人-Siren(塞壬)

Siren是高保真、实时、可交互数字人，用到了实时渲染、表情捕捉、动作捕捉、高保真3D扫描等前沿技术，达到了目前业界最高的技术水平。

▲ Siren的面貌细节更加真实，可以很清楚看到皮肤的细节、眼睛的转动、说话的神态、脸上各种各样的细纹。不管是毛孔、细纹等皮肤质感，还是神态上的表情，都很像真人。

▲ Siren在说话时嘴唇动作自然，效果真实。

之所以有的数字人看起来不自然，很大一部分原因是因为数字人面部表情不生动，特别是在说话时嘴唇和脸部、牙齿甚至舌头的联动，很容易出现动作不联动、不真实的情况。

真人形象类型

新华社AI合成主播-新小浩

“新小浩”是无论外在形象、面部表情、服装搭配、说话声音，还是肢体动作上，都是完全基于真实主持人生成。

通过语音合成、唇形合成、表情合成以及深度学习等技术，克隆出具备和真人主播一样播报能力的“AI 合成主播”。

▲ 我们每天都会遇见各种各样的人，即使脸上最细微的表情，我们都可以感知到，用计算机打造出来的表情，往往缺乏灵气。

真人形象的虚拟主播的优势在于，他的特征都是来源于真人，呈现的面貌和状态更容易被用户了解。如果不仔细看，可能分辨不出是不是真人。

4.数字人的应用场景

目前国内市场上已经出现了非常多的虚拟数字人，在各行各业中有着广泛的应用。

虚拟数字人技术结合实际应用场景领域，切入各类，形成行业应用解决方案，赋能影视、传媒、游戏、金融、文旅等领域，根据需求为用户提供定制化服务。

按照应用场景或行业的不同，已经出现了娱乐型数字人，如虚拟偶像、歌手、网红、虚拟代言人等；

助手型数字人，如虚拟客服、虚拟导游、智能助手。

主播型数字人，如虚拟主播、虚拟支持人等。

这里搜集的案例只是虚拟数字人的应用的一小部分，还有很多优秀的应用案例等待着大家去一起发现。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/948743

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号