AI新工具(20240226) YOLOv9 - 新型实时对象检测模型；Genie - Google发布的从互联网视频中学习的基础世界模型_/home/aistudio/yolov9/venv/bin/activate

作者：AllinToyou | 2024-04-28 16:19:14

踩

/home/aistudio/yolov9/venv/bin/activate

YOLOv9 - 新型实时对象检测模型

YOLOv9是基于深度学习的一种快速、准确的对象检测算法。其主要亮点在于能够在保持较高检测精度的同时，实现快速的检测速度，适合在实时应用中使用。

https://github.com/WongKinYiu/yolov9

在这里插入图片描述

Genie - Google发布的从互联网视频中学习的基础世界模型

Genie

Genie是一个基于互联网视频训练的基础世界模型，能够通过单张图片提示生成无尽种类的可玩（可通过行动控制）世界，这些图片可以是合成图像、照片乃至素描。Genie的独特之处在于其能够只通过观看互联网视频学习精细的控制能力，而这些视频通常不包含关于正在执行的动作的标签，甚至不明确哪部分图像应该被控制。尽管如此，Genie不仅学会了哪些观察部分通常是可控的，还推断出了在生成环境中一致的多种潜在动作。

https://sites.google.com/view/genie-2024/

在这里插入图片描述

MeloTTS - 支持多语言的高品质文本转语音库，支持中英文混合及实时CPU推理。

MeloTTS是一个由MyShell.ai开发的高质量、支持多语言的文本转语音库。简单来说，它就像一个多才多艺的朗读家，能够用不同的语言和口音把文字“读”出来，听起来就像是真人在说话一样。它支持的语言包括英语（还细分为美式、英式、印度式和澳大利亚式英语）、西班牙语、法语、中文（还能混合英文）、日语和韩语等。

https://github.com/myshell-ai/MeloTTS

在这里插入图片描述

FakeSoraAPI - 用于SoraWebui的API，可以从文本生成视频，并提供了在线演示。

FakeSoraAPI是一个为SoraWebui设计的API，其主要功能是基于文本生成视频。它提供了一个简单的方式来将文本内容转换为视频内容，非常适用于希望通过程序自动化生成视频的开发者或者内容创作者。

https://github.com/SoraWebui/FakeSoraAPI

在这里插入图片描述

verbalate - 视频翻译软件，提供完整的语音克隆和口型同步功能

Verbalate是一款先进的视频和音频翻译软件，可以帮助用户将内容翻译成多种语言，同时提供语音克隆和可选的口型同步功能。下面用通俗的语言详细介绍Verbalate的功能和它可能被使用的场景。

https://verbalate.ai/

在这里插入图片描述

更多AI工具，参考国内AiBard123，Github-AiBard123

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/503192