【精华】AIGC启元2024

作者：知新_RL | 2024-03-03 11:41:23

踩

【精华】AIGC启元2024

文章目录

AIGC 前沿

AIGC 前沿

(1) Gemini 1.5 Pro

2024.02.16 谷歌新一代多模态大模型Gemini 1.5 Pro，在性能上超越OpenAI的GPT-4 Turbo，堪称业界最强大模型。

(2) Sora

2024.02.16 Sora文本生成视频的大模型。它所展现出来的能力几乎可以“碾压”目前全球能实现文本生成视频的大模型包括 Runway、Pika、Stable Video Diffusion等20多个产品。
用户仅需输入简短一句话，Sora就可生成一段长达60秒的视频，远远超过市面上同类型级别的AI视频生成时长。在此之前，AI视频模型生成时长几乎在10秒以内，而“明星模型” Runway和Pika等也仅有3到4秒。

推荐文章： Sora到底有多强？
官网链接： Gemma Open Models

(3) EMO

2024.02.28 生成式AI模型EMO（Emote Portrait Alive）。EMO仅需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。

推荐文章： 阿里EMO模型，一张照片就能造谣
官网链接： https://humanaigc.github.io/emote-portrait-alive/

(4) Playground v2.5

2024.02.28 Playground在去年发布Playground v2.0之后再次开源新的文生图模型Playground v2.5。相比上一个版本，Playground v2.5在美学质量，颜色和对比度，多尺度生成以及以人为中心的细节处理有比较大的提升。

推荐文章： 超过Midjourney v5.2的开源文生图大模型Playground v2.5来了
官网链接： https://playground.com/

(5) VSP-LLM

2024.02.28 一种通过观察视频中人的嘴型来理解和翻译说话内容的技术，也就是识别唇语。该技术能够将视频中的唇动转化为文本（视觉语音识别），并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此，VSP-LLM还能智能识别和去除视频中不必要的重复信息，使处理过程更加快速和准确。

(6) Ideogram.ai

2024.02.29 Ideogram发布了最新的Ideogram1.0图像生成模型，该模型具有强大的文字生成能力和提示词理解能力。Ideogram1.0在文本渲染准确性方面实现了飞跃。

(7) LTX studio

2024.02.29 生成式AI电影制作平台—LTX Studio，用户只需要输入文本就能生成超25秒的微电影视频，同时可对镜头切换、角色、场景一致性、摄像机、灯光等进行可视化精准控制。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/184586