当前位置:   article > 正文

国产Heygen!阿里EMO,照片+音频,生成人像视频_阿里 emo

阿里 emo

ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源


近期Sora大火,

各大厂商纷纷跟上,阿里巴巴也新开发了一个叫EMO的AI

EMO,Emote Portrait Alive,一种富有表现力的音频驱动的肖像视频生成框架

类似Heygen,可以实现声音克隆+对嘴型了。用一张照片,结合上传的音频就可以生成各种对话视频,唱歌视频,快节奏说唱,跨演员表演等

阿里,聚焦本业(电商),在国产几个大厂里,数字人 AI 算不错的。文末有阿里近期发布的其他AI详细介绍

EMO暂时不能测试,只有官方演示案例,下面为你详细介绍:

一、原理

顾名思义,音频驱动视频

项目地址:https://github.com/HumanAIGC/EMO

演示地址:https://humanaigc.github.io/emote-portrait-alive/

图片

图片

论文要点如下:

“在这项工作中,我们通过关注音频提示和面部动作之间的动态和微妙关系来解决增强头部说话视频生成的真实性和表现力的挑战。

我们发现传统技术的局限性,这些技术往往无法捕捉人类表情的全部范围和个人面部风格的独特性。

为了解决这些问题,我们提出了 EMO,这是一种利用直接音频到视频合成方法的新颖框架,绕过了对中间 3D 模型或面部标志的需求。

我们的方法可确保整个视频中的无缝帧过渡和一致的身份保留,从而产生高度表现力和逼真的动画。

实验结果表明,EMO 不仅能够制作令人信服的口语视频,还能够制作各种风格的歌唱视频,在表现力和真实感方面明显优于现有的最先进的方法。”

二、演示视频

目前还没有开放测试

从放出的测试视频看,有以下功能:

  • 输入单个参考图像和语音,例如说话和唱歌,EMO 可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频

  • 支持根据输入音频的长度生成任意持续时间的视频。

  • 嘴型会根据台词或歌词调整。嘴型非常对位!

怎么说呢,往好的想就是好作品,往坏的想就是zhapian

 

多模AI,文生音乐,文生视频,同样,也可以音乐生视频,视频自动配音!

不过感觉中国 AI 团队娱乐化 Diffusion 的能力已经快登峰造极了,摧毁掉短视频平台的一定不是另一个短视频平台,而是 类似这种生成式AI。

相信大家看过 Sora 的魔法后更加坚信这一点!

我将继续关注类似AI,大家可以加入学习群,尽快的掌握


ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/213377
推荐阅读
相关标签
  

闽ICP备14008679号