当前位置:   article > 正文

OpenAI 发布 GPT-4o mini;FasterLivePortrait 支持实时表情转移丨 RTE 开发者日报

OpenAI 发布 GPT-4o mini;FasterLivePortrait 支持实时表情转移丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@JLT,@鲍勃

一、有话题的新闻

1、OpenAI 发布 GPT-4o mini 大模型

OpenAI 官宣推出 GPT-4o mini,这是 GPT-4o 更小参数量的简化版本。即日起,ChatGPT 的免费用户、Plus 用户和 Team 用户都能够使用 GPT-4o mini 而并非 GPT-3.5 Turbo,企业用户在下周也将获得 GPT-4o mini 的权限。

GPT-4o mini 主打低成本和快速响应能力,可以支持需要连续或同时调用多个模型的应用程序,能够处理大量上下文信息,以及通过快速实时的文本回复与客户进行互动,能够处理多达 128K token 的长上下文,知识库截止日期为 2023 年 10 月份,对非英文内容支持更友好。

GPT-4o mini 目前在 API 中提供了文本和图像处理能力,后续还将逐步增加对视频和音频的支持。(@爱范儿)

2、微软发布 iOS / 安卓正式版 Designer 应用:可 AI 修图、生成贺卡等

微软在 iOS / Android 平台上推出了 AI 设计应用 Designer 的预览版,该应用允许用户通过模版创建自定义图像、贴纸、贺卡、邀请函等,还能实现 AI 编辑、重新设计图像的进阶功能,用户可以免费使用 15 次进阶功能,Copilot Pro 订阅用户可以获得 100 次。

Designer 最初可以在网页端和微软自家 Edge 浏览器上使用,现在拥有个人微软账户的用户都可以在 Windows、iOS 和 Android 平台使用其免费程序。

除了独立的应用,微软也在 Word、PowerPoint 中的 Copilot 助手添加了 Designer 支持,Copilot Pro 订阅者可以使用。(@爱范儿)

3、英伟达联合发布 Mistral-NeMo AI 模型:120 亿参数、上下文窗口 12.8 万个 token

英伟达联合法国初创公司 Mistral AI,发布了全新的 Mistral-NeMo AI 大语言模型,拥有 120 亿个参数,上下文窗口(AI 模型一次能够处理的最大 Token 数量)为 12.8 万个 token。

Mistral-NeMo AI 大模型主要面向企业环境,让企业不需要使用大量云资源的情况下,实施人工智能解决方案。由于 Mistral NeMo 依赖于标准架构,因此企业在使用过程中可直接替换任何使用 Mistral 7B 的系统。( @CSDN)

4、Haiper AI 视频模型更新,可生成 8 秒视频

Haiper AI 推出了其视频生成模型的升级版:Haiper 1.5。Haiper AI 由前谷歌 DeepMind 精英 Yishu Miao 和 Ziyu Wang 携手创立,Haiper 1.5 允许用户从文本、图像和视频提示生成长达 8 秒的片段,显著提升了内容生成的深度和广度。

Haiper 1.5 的核心亮点在于显著增强的视频生成能力。用户如今可以根据文本、图像及视频线索,轻松创作出长达 8 秒的视频片段,相较于初版模型,生成时长直接翻倍。此外,Haiper 1.5 还创新性地引入了上采样功能,允许用户通过一键操作将所有视频生成提升到 1080p,而不干扰现有的工作流程。(@聚大模型前言)

5、FasterLivePortrait:支持实时推理的表情转移

FasterLivePortrait 是基于 LivePortrait 的一个实现,在原有的功能上增加了:

  • TensorRT 实时运行:RTX 3090 上渲染速度达到 30+ FPS
  • Onnx 模型转换:onnxruntime-gpu + RTX 3090 推理速度约为 70ms/帧(约 12 FPS)
  • 原生 gradio app 支持:运行速度显著提升,并且能够同时对多张人脸进行推理
    (@三花 AI)

二、有态度的观点

1、谷歌 DeepMind Alex Irpan:大语言模型在面对现实世界时,会遇到与机器人学类似的问题

Alex Irpan 是谷歌 DeepMind 的机器人科学家,曾参与 SayCan、RT-1、RT-2 等具身智能项目。他指出,机器人学的难题并非机器人独有,这是由于其与现实世界的紧密连接和复杂性造成的。机器人必须处理不完美的感知和执行,以及全局可变状态的问题,这些问题也同样适用于大语言模型等技术。

游戏 AI 在面对特定策略时也可能受到挑战,正如一些围棋 AI 被特定策略击败。Irpan 还讨论了 LLM 在与现实世界交互时遇到的问题,以及人们对于模型是否已经证明了自己的评估问题。他认为,随着 AI 在日常生活中的应用越来越广泛,社会对于模型的评估和理解将变得更加重要。他预测,机器人学家将在这些挑战中走在前列,因为他们已经在处理这些问题上积累了经验。(@AI 科技评论)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
在这里插入图片描述

素材来源官方媒体/网络新闻

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号