笔触狂放9

这个屌丝很懒，什么也没留下！

热门标签

9月最新AIGC信息差项目大全(一)_stable audio github

作者：笔触狂放9 | 2024-02-22 22:32:36

踩

stable audio github

今天为大家精心挑选了9月份以来全球发布的AI项目，每一个项目可能都会让你眼睛一亮。

一、Memo AI重磅更新（9月19日）

Memo AI 是翻译视频和播客、并支持总结的工具，今天更新了新功能，可以把外语视频、播客、字幕变成中文来播放。

支持功能：

1）无缝切换原声和合成音播放；

2）支持多种语言以及音色

3）自动断句+ AI 翻译保证翻译效果

下载地址：https://memo.ac/releases.html

添加图片注释，不超过 140 字（可选）

二、Agents：开源的语言代理（9月19日）

杭州一家AI公司开源的自主语言代理，特点包括：长短期记忆、使用工具、访问网络、多代理互相通信、人机交互、SOP控制。

项目地址：http://www.aiwaves-agents.com/

添加图片注释，不超过 140 字（可选）

三、ProPainter：AI 视频编辑（9月17日）

ProPainter：AI 视频编辑

基于E2FGVI实现的一键移除视频内的移动物体，一键移除视频水印。

项目地址：https://shangchenzhou.com/projects/ProPainter/

Github：https://github.com/sczhou/ProPainter

论文：https://arxiv.org/abs/2309.03897

视频封面

上传视频封面

好的标题可以获得更多的推荐及关注者

四、AudioSR：AI提升音频的音质（9月17日）

可以把音乐和语音的音质提升至48 kHz。

项目地址（可以听音频对比）：https://audioldm.github.io/audiosr/

Github：https://github.com/haoheliu/versatile_audio_super_resolution

论文：https://arxiv.org/abs/2309.07314

添加图片注释，不超过 140 字（可选）

五、Vercel 发布AI生成网页工具（9月15日）

输入文字，可视化生成 React 组件代码，代码基于 React 、Shadcn UI 和 Tailwind CSS。

官网：https://v0.dev/，点击右上角的菜单，申请加入 waitlist

添加图片注释，不超过 140 字（可选）

六、LLM Applications：从零搭建基于RAG（检索增强生成）的LLM应用（9月14日）

包括建立向量数据库（加载、分块、嵌入、索引）、检索、生成的全过程，并且提供了方法来缩小开源LLM和闭源LLM的差距。

Github：https://github.com/ray-project/llm-applications

添加图片注释，不超过 140 字（可选）

关于RAG，今天的另外2篇文章：

1）LlamaIndex 新增支持多种方式来微调 Embedding model

教程：https://gpt-index.readthedocs.io/en/latest/examples/finetuning/embeddings/finetune_embedding_adapter.html#finetuning-an-adapter-on-top-of-any-black-box-embedding-model

2）最佳实践：如何评估RAG应用的能力水平。分享了他们在评估RAG应用时的实验过程和结论。

文章：https://www.databricks.com/blog/LLM-auto-eval-best-practices-RAG

Github：https://github.com/databrickslabs/doc-qa

七、Prompt flow：微软发布的开源 LLM 开发工具（9月14日）

特点是通过拖拽把 LLM 、提示词、python 代码和其他工具组成工作流，提升开发和调试速度。

项目地址：https://microsoft.github.io/promptflow/Github：https://github.com/microsoft/promptflow

添加图片注释，不超过 140 字（可选）

八、Adobe Firefly 正式上线（9月14日）

支持商用，订阅用户可以去除水印，4.99美元每月。

今年11月1日之前订阅者的使用次数没有限制，之后会消耗积分，积分用完后仍可以使用，只是速度变慢。

官网：https://firefly.adobe.com

添加图片注释，不超过 140 字（可选）

九、Stability AI 推出 Stable Audio（9月13日）

Stability推出AI生成音乐和音频：Stable Audio。

订阅会员可以生成和下载90秒时长的音频！官网：https://www.stableaudio.com/

添加图片注释，不超过 140 字（可选）

十、Roblox 推出 Roblox Assistant：AI 创作游戏（9月13日）

Roblox 是在线游戏平台，曾经借着元宇宙火了一把，如今搭上了 AI 的浪潮。

Roblox Assistant可以通过输入文本来创作游戏世界，并在未来拥有自我学习和游戏编码能力。

计划在2023年底/2024年推出。

并且其超过 43% 的 Roblox 用户年龄在 13 岁以下，下一代建设者将在很小的时候就学习如何与人工智能对话来创建自己的虚拟世界。

视频封面

上传视频封面

好的标题可以获得更多的推荐及关注者

十一、MathGLM：清华大学发布的数学计算LLM（9月12日）

清华大学发布数学计算LLM：MathGLM。支持加减乘除、小数、分数的计算，成功率接近100%，碾压GPT-4。实际用处很有限，模型适用范围太窄。GPT使用function call，轻松可以接入计算器，基础计算的准确率也可以接近100%。

Github：https://github.com/THUDM/MathGLM

论文：https://arxiv.org/abs/2309.03241

训练数据集：https://cloud.tsinghua.edu.cn/d/8d9ee3e52bb54afd9c16/

添加图片注释，不超过 140 字（可选）

十二、Pika Labs 新增镜头控制功能（9月12日）

Runway 的竞争对手 Pika Labs 紧随 Runway ，也推出了镜头控制功能，支持方向移动、镜头推进/拉远、旋转。官方Discord频道：discord.gg/pika

视频封面

上传视频封面

好的标题可以获得更多的推荐及关注者

十三、IP Adapter 支持 SDXL（9月10日）

IP Adapter 是腾讯AI实验室推出的 AI 绘图模型，效果类似 ControlNet，可以控制图片生成的效果。

近期支持了 SDXL。

项目地址：https://ip-adapter.github.io/Github：https://github.com/tencent-ailab/IP-Adapter

添加图片注释，不超过 140 字（可选）

十四、Suno 发布 Chirp v1 （9月9日）

AI 唱歌更新功能：

1）音质更好；

2）支持指定音乐风格，流行、乡村等；

3）支持控制音乐结构，什么部分出音乐，什么部分出副歌；

4）支持50多种语言，包含中文；

5）更快生成速度；

Discord频道链接：https://discord.gg/3QUSHPrk

添加图片注释，不超过 140 字（可选）

十五、高斯绘画（Gaussian Painters）（9月9日）

使用高斯泼溅（Gaussian Splatting）实现，效果是一幅画从不同角度看，内容完全不同，而且镜头越近，效果越清晰。

高斯绘画的Github：https://github.com/ReshotAI/gaussian-painters

高斯泼溅的Github：https://github.com/graphdeco-inria/gaussian-splatting

视频封面

上传视频封面

好的标题可以获得更多的推荐及关注者

十六、Runway 新增镜头控制功能（9月9日）

可以控制镜头的移动方向速度。官网：https://runwayml.com/

视频封面

上传视频封面

好的标题可以获得更多的推荐及关注者

十七、HeyGen 上线一键翻译视频功能（9月8日）

一键将视频的语音内容翻译为其他语言，同时保持唇型完美符合目标语言发音，并且克隆你的声音。不支持输出中文语音，但是支持输入中文语音翻译成其他语言的语音。

官网：https://labs.heygen.com/video-translate

视频封面

上传视频封面

好的标题可以获得更多的推荐及关注者

十八、全球最大LLM开源：Falcon-180B（9月7日）

Falcon-180B：目前全球最大的开源 LLM，1800亿参数（GPT 3.5是1750亿参数），由3.5 万亿 Tokens 的语料进行训练，宣称能力接近 GPT-4。

但是训练语料中只有5%是代码，代码能力不强，很难说能力接近GPT-4。

在线使用：https://huggingface.co/spaces/tiiuae/falcon-180b-demo

基础模型：https://huggingface.co/tiiuae/falcon-180B

Chat模型：https://huggingface.co/tiiuae/falcon-180B-chat

十九、腾讯发布混元 LLM（9月7日）

官网申请，或小程序搜索“腾讯混元助手”申请。

官网：https://hunyuan.tencent.com/

二十、百川智能推出 Baichuan 2 LLM（9月7日）

采用 2.6 万亿 Tokens 的高质量语料训练，发布了 7B、13B 的 Base 和 Chat 版本。

依旧开源，申请后可商用。

Github：https://github.com/baichuan-inc/Baichuan2

二十一、sam.cpp：在 CPU 上运行 SAM（9月6日）

在CPU上即可运行 Meta 的 Segment Anything Model，实现本地 CPU 识别和分割图片。

Github：https://github.com/YavorGIvanov/sam.cpp

添加图片注释，不超过 140 字（可选）

二十二、SEC Insights：帮你解读上市公司公告（9月6日）

基于SEC 10K和10Q文件（上市公司公告）进行对话，特点是：

1）输出了完整的中间步骤；

2）标明了答案的来源；

3）流式输出；

4）最多支持跨10个文档进行问答。

官网：https://www.secinsights.ai/

Github：https://github.com/run-llama/sec-insights

添加图片注释，不超过 140 字（可选）

二十三、TokenFlow 开源（9月5日）

TokenFlow 是视频生成视频的模型，输入提示词，把原视频按提示词的要求进行修改。

项目地址：https://diffusion-tokenflow.github.io/

Github：https://github.com/omerbt/TokenFlow

在线colab：https://github.com/camenduru/TokenFlow-colab

视频封面

上传视频封面

好的标题可以获得更多的推荐及关注者

二十四、MNBVC：中文语料集开源项目

MNBVC数据集（NLP语料数据集）不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网搜集。

目前总数据量7984GB，目标是达到chatGPT的40T数据，目前进度19.96%。

项目地址：https://mnbvc.253874.net/

Github：https://github.com/esbatmop/MNBVC

清洗好的分类数据：https://huggingface.co/datasets/liwu/MNBVC

二十五、SmashOrPass.ai：AI 版 Tinder（9月5日）

非常简单的一个网站，展示AI绘制的人像，你选择Smash（喜欢）还是Pass（不喜欢），AI根据你的选择，持续优化提示词，从而生成更加符合你喜好的人像。

网址：smashorpass.ai

添加图片注释，不超过 140 字（可选）

二十六、Open Interpreter：本地运行的代码解释器（9月3日）

结合OpenAI API，在本地运行代码解释器，可以联网，有更全的库，不限制文件大小和运行时间。

Github：https://github.com/KillianLucas/open-interpreter

二十七、支持人类反馈的 GPT-3.5 微调方案（9月3日）

一套 GPT-3.5 的微调教程，支持人类反馈数据。

教程地址：https://docs.argilla.io/en/latest/guides/llms/examples/fine-tuning-openai-rag-feedback.html

二十八、Meta AI 发布 DINOv2 视觉模型和 FACET 视觉评估数据集（9月1日）

DINOv2 经过1.42亿张图片训练，无需微调即可完成图像分割和追踪等计算机视觉任务。

FACET 是包含3.2万张图片的数据集，包含图片的人物属性和物理属性。

DINOv2 论文：https://arxiv.org/abs/2304.07193

DINOv2 Github：https://github.com/facebookresearch/dinov2

DINOv2 在线体验（支持上传图片）：https://dinov2.metademolab.com/

FACET 论文：https://ai.meta.com/research/publications/facet-fairness-in-computer-vision-evaluation-benchmark/

FACET 数据集：https://ai.meta.com/datasets/facet/

二十九、MotionAgent：阿里魔搭社区的文字生成剧本再生成视频的模型

由一系列模型组合而成，需要36G显卡，普通人用不了。

剧本生成（Qwen-7B-Chat）：用户指定故事主题和背景，即可生成剧本剧照生成（SDXL 1.0）：输入一幕剧本，即可生成对应的剧照场景图片视频生成（I2VGen-XL）：剧照图片生成视频音乐生成（MusicGen）：自定义风格的背景音乐。

Github：https://github.com/modelscope/motionagent

三十、Open AI发布给教师使用ChatGPT教学的使用指南

建议包括：

1）角色扮演具有挑战性的对话

2）根据课程材料构建测验和课程计划

3）减少不会英语的学生的学习阻力 · 教导学生批判性思维

官方原文：https://openai.com/blog/teaching-with-ai

大家在使用的过程中有出现问题吗？可以在评论区或私信进行留言，留言较多的项目我后期会教大家进行部署交流通道x118422初来乍到请多关照。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/131599