当前位置: article > 正文

AIGC内容分享(四十六)：AIGC潮流：2023年的冲击与2024年的趋势预测

作者：小丑西瓜9 | 2024-02-22 13:39:17

踩

多模态大模型

图像生成领域

视频生成领域

—— 2023年的冲击 ——

多模态大模型

1. GPT-4

官方地址：https://openai.com/gpt-4

2023年年初，OpenAI 发布了多模态预训练大模型 GPT-4，是世界第一款高体验，强能力的先进AI系统。相较于ChatGPT3.5，GPT-4 在以下方面实现了质的提升：

强大的识图能力；
文字输入限制提升至 2.5 万字；
回答准确性显著提高；
能够生成歌词、创意文本，实现风格变化。

GPT-4 是一个大型多模态模型，能接受图像和文本输入，再输出正确的文本回复。实验表明，GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如，它通过了模拟律师考试，且分数在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。

同时，GPT-4 在视觉能力上也得到了大幅度提升，可以接受文本和图像形式的 prompt，新能力与纯文本设置并行，允许用户指定任何视觉或语言任务。

2. 文心一言

官方地址：https://yiyan.baidu.com/

2023年3月16日，文心一言发布，几乎是与GPT-4同一时间！！文心一言是百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动、回答问题、协助创作，高效便捷地帮助人们获取信息、知识和灵感。

文心一言从数万亿数据和数千亿知识中融合学习，得到预训练大模型，在此基础上采用有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的技术优势。

3. 通义千问

官方地址：https://tongyi.aliyun.com/

前一阵子，通义千问可谓是小火了一把！！2024年1月4日，通义千问App上线一项免费的新功能“通义舞王”：用户在按照提示要求上传照片后，经过十几分钟的等待，即可自动生成舞蹈视频。我们先看下让一只猫跳科目三是什么样子吧！！！

通义千问，是阿里云推出的一个超大规模的语言模型，功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互，也融入了多模态的知识理解，且有文案创作能力，能够续写小说，编写邮件等。

更强大的语言理解能力：通义大模型具有更强大的语言理解能力，可以理解更复杂的语言结构和含义，从而更准确地回答问题和提供建议。
更灵活的应用场景：通义大模型可以应用于各种不同的场景，包括但不限于问答、文本生成、文本翻译等，为用户提供更加灵活的服务。
更快的响应速度：通义大模型采用了先进的机器学习算法和大规模的计算资源，可以在更短的时间内响应用户的请求，提高用户体验。
支持多种语言：通义大模型支持多种语言，包括中文、英文、日文等，可以为不同国家和地区的用户提供服务。

4. ChatGLM

代码地址：

https://github.com/THUDM/ChatGLM-6B.git

https://github.com/THUDM/ChatGLM2-6B.git

https://github.com/THUDM/ChatGLM3.git

自 2019 年成立以来，智谱 AI 致力于大模型技术的研究和推广工作。在 2023 年，智谱AI推出并开源了多款模型(如下图所示) ，它们具有不同的能力，开发者可以对这些模型进行使用和定制。

经过不断地的迭代更新，ChatGLM终于迎来它的第三代大模型，拥有10B以下最强的基础模型，支持工具调用（Function Call）、代码执行（Code Interpreter）、Agent 任务等功能。在实用性、性能、功能等方面上可以说是国内最好用的开源多模态大模型了。

ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B 引入了如下特性：

更强大的基础模型： ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。
更完整的功能支持： ChatGLM3-6B 采用了全新设计的 Prompt 格式，除正常的多轮对话外。同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。
更全面的开源序列：除了对话模型 ChatGLM3-6B 外，还开源了基础模型 ChatGLM3-6B-Base 、长文本对话模型 ChatGLM3-6B-32K。

5. Llama 2

论文地址：

https://arxiv.org/pdf/2307.09288v2.pdf

代码地址：

https://github.com/facebookresearch/llama-recipes.git

HuggingFace地址：

https://huggingface.co/meta-llama

Llama 2是一系列预训练和微调的大型语言模型（LLMs），参数规模从70亿到700亿不等。Meta 发布的 Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体。

据介绍，相比于 Llama 1，Llama 2 的训练数据多了 40%，上下文长度也翻倍，并采用了分组查询注意力机制（GQA）。具体来说，Llama 2 预训练模型是在 2 万亿的 token 上训练的，精调 Chat 模型是在 100 万人类标记数据上训练的。

在Llama 2中，引入了RLHF技术（人类反馈强化学习）。

上图所示:在训练Llama 2-Chat过程中，首先使用公开的在线数据对Llama 2进行预训练。通过应用监督微调，创建了一个初始版本的Llama 2-Chat。随后，使用强化学习与人类反馈强化学习(RLHF)方法，特别是通过拒绝抽样和最近策略优化(PPO)的模型进行迭代优化。

6. Gemini

技术报告：

https://blog.google/technology/ai/google-gemini-ai/

视频地址：

https://www.youtube.com/watch?v=UIZAiXYceBI

官方地址：

https://deepmind.google/technologies/gemini/#introduction

2023年的年末，要说最火的当属谷歌的Gemini模型了，被ChatGPT压制了一整年的谷歌，终于在AI大模型领域亮出了大招，推出了大模型Gemini，6分钟的演示视频直接刷爆全球互联网。

Gemini和ChatGPT到底哪个更强，自然也成了业界聚焦的核心话题，但还没等来各方大神详细的测评，反转就抢先一步抵达了——谷歌被指演示视频造假，迅速从AI“神话”变为了“笑话”。

Gemini模型具有三个不同的版本：

Gemini Ultra：这是最大型且功能最全面的版本，擅长处理大规模多任务语言理解。它在数学、物理、历史、法律、医学和伦理等多个科目上的表现超过了人类专家。预计Gemini Ultra将支持Google的产品，如Bard聊天机器人和搜索生成体验。
Gemini Pro：设计用于处理各种任务，Google计划通过其云服务向客户提供其服务，用于他们的应用程序。
Gemini Nano：此版本针对特定任务和移动设备进行了优化，特别适用于像Google Pixel 8这样的智能手机。它专为高效的AI处理和设备上的任务而设计。

图像生成领域

1. DALL·E 3

官方地址：https://openai.com/dall-e-3

论文地址：

https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf

DALLE3是OpenAI在今年9月21日发布的最新产品，用户通过文本问答方式就能生成二次元、平面、创意、朋克、3D等多种类型的图片。值得一提的是，DALLE3在语义理解、图片二次修改、大段文本输入等方面，比Midjourney强很多，并且图片质量比DALL·E 2实现了巨大提升。

2. Stable Diffusion

代码地址：

https://github.com/Stability-AI/generative-models

StableDiffusion在2023年得到了爆发式成长，并推出了多个不同版本的模型，可以说SD是能够让普通人也可以真正使用的“AI图片生成”技术！

Stable-Diffusion是一种深度学习模型。在最简单的形式中，Stable-Diffusion是一种文本到图像的模式，给它一个文本提示（Text Prompt），会返回与其相匹配的图像。通过上面这张图，我们能快速地理解StableDiffusion的大体处理流程。

3. Midjourney

官方地址：https://www.midjourney.com/home

在AI绘画领域，与StableDiffusion齐名的另一款图片生成利器就是Midjourney——一款2022年3月面世的AI绘画工具，创始人是David Holz。同时，也是在2023年得到了长足的发展，推出了多个不同版本的模型，每一个模型版本的发布，几乎都是革命性的。

在2023年年末，Midjourney推出v6版本，网友惊呼效果太逼真！！当你真的使用上Midjourney的V6版本时，你真的会被生成的图片震撼到！！

输入提示：「电影镜头，一个 50 岁留着灰胡子、穿着棕色夹克、戴着红色围巾的黑人男子站在一个 20 岁左右的白人女子旁边，她穿着深蓝和乳白色千鸟格外套，戴着黑色针织帽。午夜，他们走在街道中央，被路灯柔和的橙色光芒照亮。」

图片来源：https://twitter.com/nickfloats/status/1737957980736258280

视频生成领域

2022年是AIGC（生成式AI）元年！从这一年开始，可谓是百家争鸣，各种技术层出不穷，再次迸发出AI的活力。从DALL·E 2、Stable Diffusion、Midjourney等文生图应用点燃了大众的热情，再到ChatGPT的横空出世，更是掀起了一股AI浪潮。2023年是AIGC爆发的一年，经过一年多的发展，AI绘画可以说已得到了长足的发展，而这也进一步促进了AI视频生成的发展。

1. Pika 1.0

官方地址：https://pika.art/

2023年 7 月，Pika Labs在 Discord 推出服务器，并在几个月时间内收获了 50 万用户，大家开始将视线转向这家被称为视频生成领域“黑马”的公司。

2023年11月29日，Pika1.0正式发布，用户可以在网页端排队等候测试名额。

2023年12月26 日凌晨，Pika 团队在社交平台上宣布 Pika 1.0 网页端访问权限将在今天内向所有用户开放，而且这个阶段是所有用户都可以免费使用的。

该版本以文生视频为特色，提供3秒视频快速生成和背景修改等功能，尤其擅长动漫风格的动物生成。

Pika1.0目前支持文生视频、图生视频、视频生视频和视频编辑等主要功能。

2. Runway Gen 2

官方地址：https://research.runwayml.com/gen2

强大的AI视频制作工具，具有绿幕抠像、视频合成等功能！在Runway上，用户可以创建并发布预先训练好的机器学习模型，用于生成通真的图像或视频等。用户还可以训练自己的模型，并直接从GitHub导入新的模型。

在3月23日，Runway发布了Gen-2模型，允许用户从文本、图像和视频片段中生成视频内容。

猫先生-Mr.Mao

2.Stable Video Diffusion（SVD）

代码地址：

https://github.com/Stability-AI/generative-models

Stable Video Diffusion 是由 Stability AI 开发的一款开源 AI 视频生成模型。它在许多方面表现出强大的功能，甚至可以与 Runway 和 PIKA 等知名平台相媲美。

Stability AI这项研究进一步定义出训练视频LDM的三个阶段，分别是文本到图像的预训练、视频预训练，最后则是高品质视频的微调。

研究人员强调，经过良好整理的预训练数据集，对于产生高品质视频非常重要，甚至还提出一套包括标题制作和过滤策略的系统性整理流程。

—— 2024年的趋势 ——

展望2024年，AIGC的发展趋势将更加明朗且多元。一方面，技术层面将继续突破，预计会出现更为精准、智能且具有情感表达能力的AIGC生成模型，使内容更具创意及个性化；另一方面，政策法规也将逐步跟进，为AIGC设定合理的边界和规则，保障原创者权益并引导产业健康发展。

接下来，我们来看下行业大咖们对2024年的趋势预测和展望！！！

1. 周鸿祎预测2024大模型十大趋势

2024年1月5日，在「2023年风马牛年终秀」，360集团创始人周鸿伟分享了对2024年大模型发展趋势的十大预测，呼吁企业树立AI信仰，AIl in AI。他认为，创新才能破局，未来最大的创新机会在大模型。

大模型成为数字系统标配，无处不在
开源大模型迎来爆发
“小模型”涌现，运行在更多终端
产业层面，大模型企业级市场将崛起，向深度化、产业化、垂直化方向发展
技术发展和应用层面，Agent智能体将激发大模型潜能，成为超级生产力工具
同时，2024年将成为大模型应用场景之年，杀手级应用出现
多模态成为大模型标配
文生图、文生视频等AIGC功能突破性增长
具身智能赋能人形机器人产业蓬勃发展
大模型将推动基础科学取得突破

2. 福布斯发布2024年10个AI预测

在2023年12月28日，福布斯发布了2024年的10大AI趋势预测：

Nvidia将大幅加大努力成为云服务提供商
Stability AI将面临倒闭风险
“大型语言模型”和“LLM”这些术语将变得不那么常见
最先进的封闭模型将继续以显著优势胜过最先进的开放模型
一些《财富》500强公司将设立新的C级职位：首席人工智能官
另一种替代transformer架构将得到有意义的采用
云服务提供商对人工智能初创公司的战略投资，以及相关的会计影响，将受到监管机构的挑战
微软与Open AI的关系面临考验
2023年从加密货币转移到人工智能的一些炒作和群体心态行为将在2024年转回加密货币
至少有一家美国法院将裁定在互联网上训练的生成式人工智能模型构成侵犯版权。这一问题将开始上升至美国最高法院

3. a16z年终回顾：生成式AI如何改变每个人生活

a16z，全称Andreessen Horowitz，近期公布了一份报告，阐述了2024年的科技趋势和未来展望。该报告基于40多家合作伙伴的见解，涵盖领域包括生物健康、基础设施与企业、金融科技、消费科技、游戏、加密货币及成长期技术等。

AI赋能医疗行业
AI语音应用程序将成为我们生活的一部分
AI垂类定制、专门构建的AI agents垂直定制的AI
教育领域AI的应用
无代码AI生成器
AI创新创作
AI+游戏：游戏将成为“一切模拟器”
AI情感陪伴
消费者人工智能的转变
AI推动机器人自动化

4. 李飞飞、吴恩达对谈：这一次，AI冬天不会到来

AI，无疑是今年 CES 展会上最大的亮点。在CES 2024（国际消费电子展）上，著名的 AI 科学家吴恩达和李飞飞出席了「伟大的思想，大胆的愿景」环节的小组讨论，就「人工智能的下一步是什么？」进行了 40 分钟的对谈。

吴恩达是 Google Brain 的创始人、斯坦福大学教授，也曾是 OpenAI 首席执行官山姆·奥特曼（Sam Altman）的老师。

李飞飞是斯坦福大学 Human-Centered AI 研究所联合主任、谷歌云（Google Cloud）前人工智能/机器学习首席科学家。

两人一致认为，2024 将会是AI 技术继续深化的一年，同时也会覆盖到更多行业，成为下一次数字革命或工业革命真正的变革性驱动力。

两位专家都确认，这次由大模型引发的 AI 浪潮，并不会像 7 年前那波 AI 热潮一样，热闹几年后进入「冰河期」。

—— 结尾 ——

AIGC作为一项正在重塑未来的技术潮流，无疑将在2024年继续书写其波澜壮阔的发展篇章。

在我们迎接这一新时代的同时，也应积极探讨如何在技术进步与人文关怀间寻找平衡，如何最大化利用AIGC赋能社会各个领域，又该如何应对由此产生的种种挑战与变革。

那么，你如何看待AIGC在未来一年甚至更远时间里的发展趋势？你认为它会如何影响你的工作和生活？

欢迎留言分享你的观点，共同预见和塑造这个由AI创造内容的新时代。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/130332?site