科技界的AI月(2024.5）资讯合集

作者：码创造者 | 2024-07-22 21:31:52

踩

科技界的AI月(2024.5）资讯合集

科技界的AI月第一波浪潮由OpenAI掀起

5.13 - OpenAI直播发布会

OpenAI在直播会上发布了新的多模态大模型ChatGPT-4o，具有多项先进的功能和特点，以下是它的一些主要特点和用途，以及在演示会上展示的功能：

特点和用途：

1. 多模态处理能力：可以实时处理并生成多种形式的输入和输出，包括文本、音频和图像。

2. 自然人机交互：它能够提供更自然的人机交互体验，响应音频输入的时间接近人类的对话响应时间。

3. 多语言支持：在多语言处理上有显著改进，尤其在非英文语言的文本生成方面表现突出。

4. 成本效益：在API中运行速度更快，成本更低，比之前模型便宜了50%。

5. 视觉和音频理解：在视觉和音频理解方面，显著优于之前的版本。

6. 记忆管理：提供了更加方便快捷的管理ChatGPT记忆的方式。

7. 输出效率：输出效率远超过GPT-4.0，能够快速生成长文本且输出不易中断。

8. 图片生成能力：在图片生成方面，速度更快，生成的图片效果整体提升。

9. 免费使用：向包括免费用户在内的所有人提供了GPT-4级别的智能。

演示会上还通过多个视频展示了目前GPT-4o可以完成的功能，实时翻译助手、引导解答数学题、视频识别情绪等等功能，这些特点和功能展示了GPT-4o在AI领域的先进性和实用性，预示着它将在多个领域和应用场景中发挥重要作用。

5.14 - 谷歌I/O开发者大会

AI的频繁提及：在大会上，AI一词被频繁提及，据Gemini AI模型统计，AI一词在演讲中被提到了121次。
Gemini AI系列模型：谷歌发布了新版本的Gemini AI系列模型，包括：
1. Gemini 1.5 Pro：这是一个具有100万个Tokens长上下文窗口的推理大模型，能够理解大型文档和总结电子邮件，未来将扩展至200万Tokens，处理视频和代码库。
2. Gemini 1.5 Flash：这是一个针对低延迟和低成本需求的版本，通过“蒸馏”过程优化速度和效率，具有多模态推理功能。
3. Gemini Nano：这是一个可在设备本地运行的离线AI模型，支持Pixel和安卓设备，未来将集成到Chrome浏览器中。
影像生成模型：介绍了两个新的影像生成模型：
1. Veo：能够生成具有电影感和独特视觉风格的高质量视频。
2. Imagen 3：能够理解自然语言和生成逼真图像的模型，使用SynthID方法防止Deepfake。
全面拥抱AI：谷歌宣布将发布实时AI助手，支持语音和视频交互，并计划推出名为Project Astra的AI助手功能，以及名为“Gems”的个性化选项。
AI集成：谷歌将Gemini模型集成到了Calendar、Tasks和Keep等软件产品中，提供更丰富的AI功能。
AI搜索体验：谷歌搜索新增AI Overviews搜索体验，允许用户通过提问和聊天的方式进行AI搜索。
AI防诈骗功能：使用Gemini Nano模型在设备本地运行，识别诈骗电话并提醒用户。
Gemini时代：谷歌CEO桑達・皮采宣布，谷歌已经全面步入了Gemini时代，Gemini已与多个谷歌产品融合，为用户工作和生活带来更多可能性。

5.21 - 微软build年度开发者大会

微软发布Windows 11 AI PC，内置AI助手Copilot，搭载GPT-4o模型，提供“回顾”和实时字幕翻译等功能。

AI PC的新时代：微软在发布会上宣布了"Copilot+PC"这一新概念，象征着AI算力在个人电脑中的普及化。
发布会形式：发布会不对公众直播，只有受邀媒体能够参加，其中知名科创媒体的位置较为靠前。
Copilot+PC生态：除了微软自家的Surface产品外，英特尔、AMD、宏基、华硕、戴尔、惠普、联想、三星等都将加入Copilot+PC生态。
硬件要求：要成为Copilot+PC，设备至少需要具备40 TOPS的算力。首批产品将搭载高通骁龙X Elite和Plus处理器，后续也会有搭载英特尔和AMD芯片的版本。
性能对比：微软强调新一代的Copilot+PC在性能上要比苹果M3版本的MacBook Air快58%。
AI系统级融合：微软的Copilot将整合OpenAI最新发布的GPT-4o模型，并展示了Copilot如何通过语音指导用户在《我的世界》游戏中挖矿。
Recall功能：微软发布了名为Recall的新功能，能够检索用户在电脑上做过的任何事情，如电话会议、PPT页面或浏览的网页。
硬件存储要求：Recall功能要求硬盘至少有256GB，25GB默认分配空间用于存储系统快照。
语言支持扩展：Live Captions功能将扩展支持44种语言的实时转写。
新款Surface产品：微软发布了新款Surface Pro和Surface Laptop，均配备高通骁龙X处理器，并强调了性能提升和电池续航能力。
价格信息：新Surface Pro起售价999美元，更高配置的价格更高。Surface Laptop的起售价分别为999美元（13.8英寸）和1199.99美元（15英寸）。
Windows on Arm生态：微软展示了Windows on Arm生态系统的发展，包括谷歌Chrome、Spotify、Zoom、DaVinci Resolve以及Adobe软件对Arm芯片的原生支持。
合作伙伴产品：宏基、华硕、戴尔、惠普、联想、三星等合作伙伴也宣布了即将推出的Copilot+PC产品。

国内资讯

月之暗面

月之暗面新一轮估值已达30亿美金，继阿里后，腾讯也入局

大模型公司月之暗面（Moonshot）的融资仍在持续进行中，最新一轮的估值报价已达30亿美金。有知情人透露，新入局的包括腾讯、高榕创投等机构。这也意味着，中国大模型创业公司已经踏入200亿人民币俱乐部。

Kimi开始试探用户付费可能性

有少量用户在遇到高峰时段问题时，Kimi在提示算力不足后会弹出一个新的对话条：“急需Kimi？‘点击这里’给Kimi加油，高峰时期优先使用。”用户在点击链接后会弹出一个新的页面，上面是包含不同价格和对应时长的“打赏方案”，包括5.2元/4天、9.99元/8天、28.8元/23天、49.9元/40天、99元/93天、399元/365天。

其他

字节、阿里、百度相继宣布 AI 大模型降价，甚至免费提供

火山引擎官网于5月21日更新了豆包大模型的定价信息，详细列出了不同版本和规格的通用模型价格。豆包模型在保持行业领先的TPM（每分钟Tokens）和RPM（每分钟请求数）标准的同时，其模型推理定价显著低于市场平均水平。以pro-32k这一主力模型为例，其价格较行业标准低出99%，TPM限额更是达到了同规格模型的2.7至8倍。

紧随其后，阿里云宣布对通义千问系列模型进行价格调整，主力模型Qwen-Long API的输入价格降幅达到97%，从0.02元/千tokens降至0.0005元/千tokens。经过降价，仅需1元便能购买相当于5本《新华字典》文字量的200万tokens。此外，Qwen-Long模型支持高达1千万tokens的长文本输入，其价格仅为GPT-4的1/400。

百度也不甘示弱，宣布其文心大模型的两款主力产品ENIRE Speed和ENIRE Lite即日起全面免费。ERNIE Speed是百度2024年最新推出的自研高性能大语言模型，它不仅具备卓越的通用能力，还拥有优秀的推理性能，非常适合作为基座模型进行特定场景的精调。而ERNIE Lite则是一款轻量级大语言模型，它在保证模型效果和推理性能的同时，尤其适合在低算力AI加速卡上使用。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/码创造者/article/detail/866879