当前位置:   article > 正文

[译] 2023: AI 的一年

[译] 2023: AI 的一年

原文:2023: The Year of AI:https://journal.everypixel.com/2023-the-year-of-ai

摘要

2023 年是 AI 领域的关键年份,我们在此聚焦今年对该行业未来发展具有重大影响的主要事件:

  1. AI技术的改进而非革命性创新:

    1. 2023年的AI发展重点在于现有技术的改进,未有像ChatGPT或图像生成器那样的革命性突破。

    2. 这一年被视为过渡期,为向更强大的AI未来迈进做准备。

2. 图像生成技术的发展:

  • Adobe Firefly和Generative Fill推动了视觉内容创作的多样化。

  • Midjourney V.5和V.6模型提高了图像生成的效率和连贯性。

  • DALL·E 3简化了图像生成过程,提高了用户体验。

  • Shutterstock.AI的加入和对艺术家的认可标志着伦理AI的重要一步。

3. 视频生成技术的突破:

  • Stability AI推出了具有里程碑意义的Stable Video Diffusion模型。

  • HeyGen推出了用于语音克隆并调整唇部运动的工具。

  • Runway Gen-2使用户能够更容易地通过文本生成视频。

  • Pika和Pika 1.0吸引了大量用户,提升了视频创作和编辑的能力。

  • Meta的PiCA模型为3D人脸远程传输提供了逼真体验。

4. 文本生成领域的进展:

  • 谷歌的Bard和Gemini引入了仿人类情感,并与OpenAI的ChatGPT竞争。

  • xAI的Grok展现了幽默感和反叛特质,承诺解答敏感问题。

  • OverflowAI在VS Code和Slack中提高了知识整理效率。

  • Meta的Llama 2优化了对话性能,超越其他开源模型。

  • OpenAI的GPT-4处理图像输入,并支持实时网络浏览,迈向AGI。

  • Mistral 7B和Mixtral 8x7B展示了大语言模型的竞争和开放性。

  • 李开复创立的01.AI发布了Yi-34B llm,强调成本效益。

5. 其他技术进展:

  • Meta AI的SAM模型提升了物体分割能力。

  • 直接偏好优化(DPO)为大语言模型提供了稳定高效的微调方法。

  • Zephyr-7B通过直接偏好优化(dDPO)提高了聊天模型意图识别准确性。

总结来看,2023年AI领域虽然没有出现颠覆性创新,但在现有技术上进行了深化和优化,这些进步为未来通用人工智能(AGI)的实现打下了坚实基础。同时,AI伦理问题和技术开放性也成为行业关注的焦点。

AI 的进展

在今年的 AI 进展方面,重点在于改善现有技术,而非引入类似于 去年的 ChatGPT 或图像生成器 那样的革命性创新。虽然没有令人震撼的效果,且真正的通用人工智能(AGI)尚未实现,但今年标志着从之前的重大突破向更强大的未来过渡的中间阶段。为了展示这种发展趋势,我们制作了一个视觉时间线,强调了今年在 AI 领域最为显著的进展:

图像生成

  • Adobe Firefly: Adobe 的 Firefly( 链接 )和 Generative Fill( 链接 )推动了多样化视觉内容的创作,如插画、艺术构思和照片编辑。集成到 Photoshop( 链接 )中的 Adobe Firefly 使 AI 技术普及化,让更多用户能够轻松使用。其发布的文本效果功能( 链接 )也是一个重要进展,它允许用户给文字和短语添加风格或纹理。

  • Midjourney: Midjourney 的 V.5 模型( 链接 )在图像生成领域达成了重要里程碑,展现了更高的效率、连贯性和分辨率。它的最新 alpha 版本,Midjourney V.6( 链接 ),进一步增强了功能,比如更精准地响应用户输入(prompt)、提高了模型的知识水平和简易的文本绘制能力。

  • DALL·E 3: 基于 ChatGPT 的 DALL·E 3( 链接 )简化了图像生成过程,避免了复杂的用户输入(prompt)设置。此外,ChatGPT 还推出了一项功能,帮助用户优化输入内容,并根据反馈调整图像。

  • Shutterstock.AI: 知名库存图片平台 Shutterstock.AI( 链接 )加入了 AI 功能,使用户能将输入内容转换成可授权的图像。Shutterstock 在推动伦理 AI 方面迈出了重要一步,对贡献的艺术家给予认可和奖励。

视频生成

  • Stability AI: Stability AI 推出了 Stable Video Diffusion ,这是一个具有里程碑意义的视频生成(generative video)模型,可在 GitHub 上开源访问。类似于 AI 图像生成的趋势 ,Stable Video Diffusion 模型很可能在 AI 生成视频领域发挥核心作用。

  • HeyGen: 这家 AI 创业公司推出了 一款用于语音克隆的工具 ,能够调整视频中的唇部运动并进行语言翻译。

  • Runway Gen-2: Runway 发布了 Gen-2 模型 ,使用户仅需通过文本提示、图片或其他视频即可轻松生成完整视频。下面的例子就是一种展示。

  • Pika 和 Pika 1.0: 在首次发布时,Pika 吸引了超过五十万用户,每周生成数百万视频。在 Pika 1.0 中,升级后的 AI 模型使用户能够以多种风格(包括 3D 动画、动漫、卡通和电影)创作和编辑视频。

  • Meta 的像素编解码头像(PiCA): Meta 的 Pixel Codec Avatars (PiCA)模型为视频中的 3D 人脸提供了更加逼真的远程传输体验。

文本生成

推荐阅读
相关标签