赞
踩
今天为大家精心挑选了9月份以来全球发布的AI项目,每一个项目可能都会让你眼睛一亮。
Memo AI 是翻译视频和播客、并支持总结的工具,今天更新了新功能,可以把外语视频、播客、字幕变成中文来播放。
支持功能:
1)无缝切换原声和合成音播放;
2)支持多种语言以及音色
3)自动断句+ AI 翻译保证翻译效果
下载地址:https://memo.ac/releases.html
添加图片注释,不超过 140 字(可选)
杭州一家AI公司开源的自主语言代理,特点包括:长短期记忆、使用工具、访问网络、多代理互相通信、人机交互、SOP控制。
项目地址:http://www.aiwaves-agents.com/
添加图片注释,不超过 140 字(可选)
ProPainter:AI 视频编辑
基于E2FGVI实现的一键移除视频内的移动物体,一键移除视频水印。
项目地址:https://shangchenzhou.com/projects/ProPainter/
Github:https://github.com/sczhou/ProPainter
论文:https://arxiv.org/abs/2309.03897
上传视频封面
好的标题可以获得更多的推荐及关注者
可以把音乐和语音的音质提升至48 kHz。
项目地址(可以听音频对比):https://audioldm.github.io/audiosr/
Github:https://github.com/haoheliu/versatile_audio_super_resolution
论文:https://arxiv.org/abs/2309.07314
添加图片注释,不超过 140 字(可选)
输入文字,可视化生成 React 组件代码,代码基于 React 、Shadcn UI 和 Tailwind CSS。
官网:https://v0.dev/,点击右上角的菜单,申请加入 waitlist
添加图片注释,不超过 140 字(可选)
包括建立向量数据库(加载、分块、嵌入、索引)、检索、生成的全过程,并且提供了方法来缩小开源LLM和闭源LLM的差距。
Github:https://github.com/ray-project/llm-applications
添加图片注释,不超过 140 字(可选)
关于RAG,今天的另外2篇文章:
1)LlamaIndex 新增支持多种方式来微调 Embedding model
教程:https://gpt-index.readthedocs.io/en/latest/examples/finetuning/embeddings/finetune_embedding_adapter.html#finetuning-an-adapter-on-top-of-any-black-box-embedding-model
2)最佳实践:如何评估RAG应用的能力水平。分享了他们在评估RAG应用时的实验过程和结论。
文章:https://www.databricks.com/blog/LLM-auto-eval-best-practices-RAG
Github:https://github.com/databrickslabs/doc-qa
特点是通过拖拽把 LLM 、提示词、python 代码和其他工具组成工作流,提升开发和调试速度。
项目地址:https://microsoft.github.io/promptflow/Github:https://github.com/microsoft/promptflow
添加图片注释,不超过 140 字(可选)
支持商用,订阅用户可以去除水印,4.99美元每月。
今年11月1日之前订阅者的使用次数没有限制,之后会消耗积分,积分用完后仍可以使用,只是速度变慢。
官网:https://firefly.adobe.com
添加图片注释,不超过 140 字(可选)
Stability推出AI生成音乐和音频:Stable Audio。
订阅会员可以生成和下载90秒时长的音频!官网:https://www.stableaudio.com/
添加图片注释,不超过 140 字(可选)
Roblox 是在线游戏平台,曾经借着元宇宙火了一把,如今搭上了 AI 的浪潮。
Roblox Assistant可以通过输入文本来创作游戏世界,并在未来拥有自我学习和游戏编码能力。
计划在2023年底/2024年推出。
并且其超过 43% 的 Roblox 用户年龄在 13 岁以下,下一代建设者将在很小的时候就学习如何与人工智能对话来创建自己的虚拟世界。
上传视频封面
好的标题可以获得更多的推荐及关注者
清华大学发布数学计算LLM:MathGLM。支持加减乘除、小数、分数的计算,成功率接近100%,碾压GPT-4。实际用处很有限,模型适用范围太窄。GPT使用function call,轻松可以接入计算器,基础计算的准确率也可以接近100%。
Github:https://github.com/THUDM/MathGLM
论文:https://arxiv.org/abs/2309.03241
训练数据集:https://cloud.tsinghua.edu.cn/d/8d9ee3e52bb54afd9c16/
添加图片注释,不超过 140 字(可选)
Runway 的竞争对手 Pika Labs 紧随 Runway ,也推出了镜头控制功能,支持方向移动、镜头推进/拉远、旋转。官方Discord频道:discord.gg/pika
上传视频封面
好的标题可以获得更多的推荐及关注者
IP Adapter 是腾讯AI实验室推出的 AI 绘图模型,效果类似 ControlNet,可以控制图片生成的效果。
近期支持了 SDXL。
项目地址:https://ip-adapter.github.io/Github:https://github.com/tencent-ailab/IP-Adapter
添加图片注释,不超过 140 字(可选)
AI 唱歌更新功能:
1)音质更好;
2)支持指定音乐风格,流行、乡村等;
3)支持控制音乐结构,什么部分出音乐,什么部分出副歌;
4)支持50多种语言,包含中文;
5)更快生成速度;
Discord频道链接:https://discord.gg/3QUSHPrk
添加图片注释,不超过 140 字(可选)
使用高斯泼溅(Gaussian Splatting)实现,效果是一幅画从不同角度看,内容完全不同,而且镜头越近,效果越清晰。
高斯绘画的Github:https://github.com/ReshotAI/gaussian-painters
高斯泼溅的Github:https://github.com/graphdeco-inria/gaussian-splatting
上传视频封面
好的标题可以获得更多的推荐及关注者
可以控制镜头的移动方向速度。官网:https://runwayml.com/
上传视频封面
好的标题可以获得更多的推荐及关注者
一键将视频的语音内容翻译为其他语言,同时保持唇型完美符合目标语言发音,并且克隆你的声音。不支持输出中文语音,但是支持输入中文语音翻译成其他语言的语音。
官网:https://labs.heygen.com/video-translate
上传视频封面
好的标题可以获得更多的推荐及关注者
Falcon-180B:目前全球最大的开源 LLM,1800亿参数(GPT 3.5是1750亿参数),由3.5 万亿 Tokens 的语料进行训练,宣称能力接近 GPT-4。
但是训练语料中只有5%是代码,代码能力不强,很难说能力接近GPT-4。
在线使用:https://huggingface.co/spaces/tiiuae/falcon-180b-demo
基础模型:https://huggingface.co/tiiuae/falcon-180B
Chat模型:https://huggingface.co/tiiuae/falcon-180B-chat
官网申请,或小程序搜索“腾讯混元助手”申请。
官网:https://hunyuan.tencent.com/
采用 2.6 万亿 Tokens 的高质量语料训练,发布了 7B、13B 的 Base 和 Chat 版本。
依旧开源,申请后可商用。
Github:https://github.com/baichuan-inc/Baichuan2
在CPU上即可运行 Meta 的 Segment Anything Model,实现本地 CPU 识别和分割图片。
Github:https://github.com/YavorGIvanov/sam.cpp
添加图片注释,不超过 140 字(可选)
基于SEC 10K和10Q文件(上市公司公告)进行对话,特点是:
1)输出了完整的中间步骤;
2)标明了答案的来源;
3)流式输出;
4)最多支持跨10个文档进行问答。
官网:https://www.secinsights.ai/
Github:https://github.com/run-llama/sec-insights
添加图片注释,不超过 140 字(可选)
TokenFlow 是视频生成视频的模型,输入提示词,把原视频按提示词的要求进行修改。
项目地址:https://diffusion-tokenflow.github.io/
Github:https://github.com/omerbt/TokenFlow
在线colab:https://github.com/camenduru/TokenFlow-colab
上传视频封面
好的标题可以获得更多的推荐及关注者
MNBVC数据集(NLP语料数据集)不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网搜集。
目前总数据量7984GB,目标是达到chatGPT的40T数据,目前进度19.96%。
项目地址:https://mnbvc.253874.net/
Github:https://github.com/esbatmop/MNBVC
清洗好的分类数据:https://huggingface.co/datasets/liwu/MNBVC
非常简单的一个网站,展示AI绘制的人像,你选择Smash(喜欢)还是Pass(不喜欢),AI根据你的选择,持续优化提示词,从而生成更加符合你喜好的人像。
网址:smashorpass.ai
添加图片注释,不超过 140 字(可选)
结合OpenAI API,在本地运行代码解释器,可以联网,有更全的库,不限制文件大小和运行时间。
Github:https://github.com/KillianLucas/open-interpreter
一套 GPT-3.5 的微调教程,支持人类反馈数据。
教程地址:https://docs.argilla.io/en/latest/guides/llms/examples/fine-tuning-openai-rag-feedback.html
DINOv2 经过1.42亿张图片训练,无需微调即可完成图像分割和追踪等计算机视觉任务。
FACET 是包含3.2万张图片的数据集,包含图片的人物属性和物理属性。
DINOv2 论文:https://arxiv.org/abs/2304.07193
DINOv2 Github:https://github.com/facebookresearch/dinov2
DINOv2 在线体验(支持上传图片):https://dinov2.metademolab.com/
FACET 论文:https://ai.meta.com/research/publications/facet-fairness-in-computer-vision-evaluation-benchmark/
FACET 数据集:https://ai.meta.com/datasets/facet/
由一系列模型组合而成,需要36G显卡,普通人用不了。
剧本生成(Qwen-7B-Chat):用户指定故事主题和背景,即可生成剧本 剧照生成(SDXL 1.0):输入一幕剧本,即可生成对应的剧照场景图片 视频生成(I2VGen-XL):剧照图片生成视频 音乐生成(MusicGen):自定义风格的背景音乐。
Github:https://github.com/modelscope/motionagent
建议包括:
1)角色扮演具有挑战性的对话
2)根据课程材料构建测验和课程计划
3)减少不会英语的学生的学习阻力 · 教导学生批判性思维
官方原文:https://openai.com/blog/teaching-with-ai
大家在使用的过程中有出现问题吗?可以在评论区或私信进行留言,留言较多的项目我后期会教大家进行部署交流通道x118422初来乍到请多关照。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。