谷歌「Her」来啦！发布Gemini Live语音模式，现场演示两次翻车

作者：Guff_9hys | 2024-08-20 02:30:43

踩

重磅惊喜！

今天，在MadeByGoogle发布会上，谷歌公布了 AI语音助手 Gemini Live，对标的正是GPT-4o，而且是两周前开放测试的语音模式。

Gemini Live 可以进行顺畅的语音交流，听从语音指令，可以随时打断对话、稍后继续对话。

谷歌在发布会中提到，Gemini Live 有10条声线，支持自由对话、打断AI说话、以及免提播放等等。

更惊艳的是，Gemini Live 深度集成到安卓系统里，只需要长按电源键或者说“OK Google”，就能唤起Gemini Live，能实现屏幕读取、内容感知等。

如同集成到苹果系统里的Siri一样，Gemini Live 也是以语音助手的形态呈现出来的。

Gemini Experiences和Google Assistant的副总裁兼总经理Sissie Hsiao强调：

AI的发展能引起人们重新思考：助理到底能提供什么帮助？通过这些更新，Gemini将以语音助手的形式，提供更直观和对话式的体验，使其成为复杂任务的可靠伙伴。

此外，Gemini Live 还能与所有的Google应用和工具进行集成，实现跨软件交互、图片识别等。

例如，给Gemini发音乐会传单的信息，要求它查看日历上当天是否有待办事项，来判断自己有没有空去音乐会。

还可以让Gemini设置待办，晚上七点看一下门票价格。

这个上下文记忆功能是真的强大啊！

还可以话锋一转，让Gemini把浓咖啡的原料，添加到Keep购物清单中。

不需要描述太多细节，Gemini就能get到你想要什么。但这个功能需要过几周才能上线。

我想我知道为什么要过几周才能上线，因为谷歌自己都没调试好这个功能！

你看，发布会的实机演示就翻车了，还翻车了两次：

谷歌，你们是不是线下没商量好？还不如只放个视频演示上来呢！

现在，这个语音功能已经向订阅Google Advanced的用户开放测试，暂时仅支持英文交流，且只有安卓手机能优先体验。谷歌宣称，在未来几周后苹果用户也能使用，并将开放更多语言。

虽然谷歌的语音功能上线得晚，但是它开放的早呀！OpenAI的语音功能还在小范围测试，完全开放还需要等到秋季（但谁也不知道，到底是早秋还是晚秋 ）。

此外——

这个发布会不仅是语音功能比较惊艳，还有谷歌的新手机Pixel 9 。相比于上一代Pixel 8，它搭载了更先进的设备端AI模型，更快的响应速度、更多的AI功能，遥遥领先。

想具体领略一下它的魅力，请看VCR：

就是这个手机背面的摄像头，有点丑……

这里还有一些更长期的对未来的展望，Gemini未来还会推出多步骤连续推理功能，可以实现AI高级代理：全自动做计划，用Google Doc整合整合信息做成报告，成为用户、组织、企业的自动化研究助理。

比较恐怖的是，这些展望并没有那么遥远，它们就会在未来几个月内落地实现。

剩下的就是一些客套话了。比如AI的新功能也会带来新的挑战呀，我们会继续注重于服务效率和质量呀，未来继续加油呀，等等等等。

是每家发布会都会走的一些必备流程。

但，谷歌的发布会已经惊吓到我的小心脏了，虽然很多东西都是展望、期货，但至少Gemini Live是现在就能用的新玩意。

而且，很多期货内容（例如AI高级代理），也能吓死一堆小型创业公司了。

别总是吊在只会画“草莓”饼的OpenAI上了。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Guff_9hys/article/detail/1004731