赞
踩
Google在2023年12月官宣了Gemini模型,随后2024年2月9日才宣布Gemini 1.0 Ultra正式对公众服务,并且开始收费。现在2024年2月14日就宣布了Gemini 1.5 Pro,史诗级多模态最强MoE首破100万极限上下文纪录!!!Gemini 1.5 Pro在数学、科学和推理方面的表现比Gemini 1.0 Ultra提高了28.9%,在多语言方面提高了22.3%,在编码方面提高了8.9%。此外,在视频理解和音频方面也取得了显著进步。不得不说这技术迭代速度已经有点量级了,让我仍不住想要扒一扒Gemini的爆火路径!
23年12月7日凌晨,Google DeepMind发布Gemini1.0,谷歌将其称为其史上最强大、最通用的模型。该模型作为从头开始构建的多模态,这意味着它可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。Gemini 1.0针对不同的尺寸进行了优化:Ultra、Pro 和 Nano,能够在从数据中心到移动设备的所有设备上高效运行。同时该原生多模态模型通过对不同模态预训练和额外微调等技术,使其在32个广泛使用的学术基准中的30个方面,其性能超过了当前最先进的结果。Gemini Ultra是第一个在MMLU上实现人类专家性能的模型得分超过90%。
最近也就是2024年2月份,谷歌又在深夜发炸弹,Gemini Ultra发布还没几天,Gemini 1.5就来了。就在刚刚,谷歌DeepMind首席科学家Jeff Dean,以及联创兼CEO的Demis Hassabis宣布了最新一代多模态大模型Gemini 1.5系列的诞生。其中,最高可支持10,000K(100万) token超长上下文的Gemini 1.5 Pro,也是谷歌最强的MoE大模型。在上下文窗口方面,此前的SOTA模型已经「卷」到了200K token(20万)。不难想象,在百万级token上下文的加持下,我们可以更加轻易地与数十万字的超长文档、拥有数百个文件的数十万行代码库、一部完整的电影等等进行交互。
网址:https://deepmind.google/
官网介绍:https://blog.google/technology/ai/google-gemini-ai/#sundar-note
Gemini Ultra:
Gemini Pro:
Gemini Nano:
官网介绍:https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note
Gemini 1.5的设计,基于的是谷歌在Transformer和混合专家(MoE)架构方面的前沿研究。不同于传统的作为一个庞大的神经网络运行的Transformer,MoE模型由众多小型的「专家」神经网络组成。这些模型可以根据不同的输入类型,学会仅激活最相关的专家网络路径。这样的专门化,就使得模型效率大幅提升。而谷歌通过Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4研究,早已成为深度学习领域中MoE技术的领航者。Gemini 1.5的架构创新带来的,不仅仅是更迅速地掌握复杂任务、保持高质量输出,在训练和部署上也变得更加高效。因此,团队才能以惊人的速度,不断迭代和推出更先进的Gemini版本。性能比肩Ultra,大幅超越1.0 Pro在涵盖文本、代码、图像、音频和视频的综合性测试中,1.5 Pro在87%的基准测试上超越了1.0 Pro。
提升结果
提升方面
基于强大的Mixture-of-Expert(MoE)Transformer模型,Gemini 1.5 Pro汲取了众多研究成果,实现了质量与效率的完美平衡。
Gemini模型在多领域多模态测试基准上的优秀表现,以及其在文本、图片和语音交互形式方面的能力,共同预示了其在多个行业中的广泛应用潜力。这些应用不仅限于提高现有技术和服务的效率和质量,还包括开拓全新的应用领域。以下是一些具体的应用前景:
总的来说Gemini模型能在多基准上取得如此优秀的成绩让我们对以下方面有了新的思考:
谷歌的新 Gemini 模型似乎是迄今为止最大、最先进的 AI 模型之一。与当前驱动AI聊天机器人的其他流行模型相比,Gemini 因其原生的多模态特性而脱颖而出,而其他模型(如 GPT-4)则依靠插件和集成来实现真正的多模态。与主要基于文本的模型 GPT-4 相比,Gemini 可以轻松地在本机执行多模态任务。虽然 GPT-4 在内容创建和复杂文本分析等与语言相关的任务中表现出色,但它求助于 OpenAI 的插件来执行图像分析和访问网络,并依靠 DALL-E 3 和 Whisper 来生成图像和处理音频。
不过这里补充一下,Gemini 在发布时,谷歌给出的一系列 Demo 中最令人眼花缭乱的部分是伪造的。也就是说脚踏实地来说的话,肯定是GPT更接近现实,更接近实用.
但是Gemini 1.5的诞生,意味着性能的阶段飞跃,标志着谷歌在研究和工程创新上,又迈出了登月般的一步。接下来能跟Gemini 1.5硬刚的,大概就是GPT-5了。
Gemini 1.0技术报告:https://zhuanlan.zhihu.com/p/671260501
Gemini 1.5技术报告:https://storage.googleapis.com/
Gemini 1.0 论文:https://arxiv.org/abs/2312.11805
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。