赞
踩
Stable Audio Open是一个开源的文本到音频生成模型,可生成长达47秒的音频样本和音效。
Stable Audio Open 是由Stability AI发布的一款开源模型,专门用于生成短音频样本和音效。这个模型能够根据文本提示生成最高47秒的音频数据,适用于创建鼓点、乐器片段、环境音效、拟音录音和其他音乐制作元素。Stable Audio Open 主要面向声音设计师、音乐人和创意社区,允许用户在自定义音频数据上进行微调,从而生成新的音频样本。
与Stable Audio的商业版本不同,Stable Audio Open专注于音频样本和声音效果生成,而不是完整的歌曲或旋律。商业版能够生成高质量、结构完整的音乐片段,并支持高级功能如音频到音频生成和多部分音乐创作。而Open版本则展示了生成音频设计的潜力,同时强调与创意社区共同开发和负责的发展理念。
Stable Audio Open模型的权重可以在Hugging Face平台上获取,鼓励声音设计师、音乐人、开发者和音频爱好者下载并探索其功能。同时,Stability AI也希望在开放和负责任的音频生成能力方面继续进行研究和开发,并与创意社区携手合作。
模型地址:https://huggingface.co/stabilityai/stable-audio-open-1.0
github:https://github.com/Stability-AI/stable-audio-tools
地址:https://stability.ai/news/introducing-stable-audio-open
强大的文本到语音转换工具
Seed-TTS是一组高质量的多功能语音生成模型,由字节跳动的Seed团队开发。该模型可以生成与人类语音几乎无法区分的高仿真语音,表现优异,特别是在说话者相似度和自然度方面,能够与真实人类语音相媲美。通过微调,Seed-TTS的主观评估得分更高。
Seed-TTS具备优秀的控制能力,能够调节不同的语音属性如情感,并生成高度表现力多样化的语音。此外,提出了自蒸馏方法进行语音分层,以及强化学习策略以增强模型的稳健性、说话者相似度和控制能力。同时还展示了Seed-TTS的无自回归变体Seed-TTSDiT,它采用完全基于扩散(diffusion-based)的架构,不依赖于预估的音素时长,通过端到端处理实现语音生成。
Seed-TTS的核心功能包括零样本上下文学习、说话者微调、语音分层、通过强化学习实现偏好控制、完全基于扩散的语音生成等。其应用范围涵盖了多说话者语音生成、有感情控制的语音生成、跨语言内容创作、语音和内容编辑等多个领域。通过不同情感和说话者的控制,Seed-TTS展示了其在多样化语音生成场景中的强大能力。
地址:https://bytedancespeech.github.io/seedtts_tech_report/
MiniCPM-V是一系列可在手机上高效部署的多模态大模型,具备强大的图像和文本处理能力。
MiniCPM-V 是一系列针对视觉与语言理解设计的末端多模态大型语言模型(MLLMs)。这些模型能够接受图像和文字输入,并提供高质量的文字输出。自2024年2月以来,该系列已经发布了四个版本,目标是实现强大的性能和高效的部署。
地址:https://github.com/OpenBMB/MiniCPM-V
MiGPT 结合智能家居与ChatGPT,让你的家更智能、更贴心。
MiGPT 通过将小爱音箱、米家智能设备与 ChatGPT 的智能理解能力结合,让你的智能家居不仅能够自动化运作,更能懂你、陪伴你。它不仅仅是一个设备控制平台,而是一个能够与你共同成长的智能家居助手。
地址:https://github.com/idootop/mi-gpt
提示词注入的原因:
提示词注入的工作原理是通过向大语言模型输入特定的指令(提示),重新训练或引导系统,使其按照用户的意图行动。这种方法利用了大语言模型中指令和输入界限模糊的特点,用户可以通过输入特定的提示来改变系统的行为,从而绕过原有的安全机制或防护措施。提示词注入类似于社会工程学攻击,只不过攻击对象是计算机系统,而不是人类。通过这种方式,恶意行为者可以使系统执行本不应该执行的操作,生成错误信息,甚至泄露敏感数据或被远程控制。
如何防范:
防范提示词注入的方法包括以下几个方面:
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。