赞
踩
OpenAI在近期发布了GPT-4系列的新模型GPT-4o。这一更新主要聚焦于多模态和端侧应用,为用户提供了全新的交互体验。
GPT-4o作为OpenAI的新模型,具有三大显著特点:
多模态
:GPT-4o能够接受文本、音频、图像作为组合输入,并生成任何文本、音频和图像的组合输出。这种多模态的理解能力让GPT-4o在处理复杂任务时更具优势,如识别人类的感情并根据感情做出“有感情的反应
”。
几乎无延迟
:GPT-4o对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的响应时间相似。这种极快的响应速度使得GPT-4o能够实时地与用户进行交互,提供流畅的用户体验。
可在电脑桌面运行
:OpenAI还将与苹果合作推出了适用于macOS的ChatGPT桌面级应用。这一应用允许用户在没有网络的情况下使用ChatGPT,并且可以在本地设备上处理敏感信息,保护用户隐私。
下面来一起了解一下它官网的一些视频展示的逆天操作:
视频中展示的是巨佬在使用 GPT-4o 对他儿子进行作业辅导。它开始就告诉gpt-4o 说不要直接说出答案,而是帮助它一步一步解决这个几何题目,我们在视频中可以看到,的确是这样,gpt-4o 一步一步的帮助他儿子解决了这个问题,而且还是非常细致的解释,并且是非常有情感的
,每当他儿子完成一步之后,gpt-4o 从语气上都会有一种更进一步的感觉,这种情感化的交互方式,让人感觉非常的亲切。
而且,所有的过程都是这个娃在拿着笔在一步一步的解决这个几何题目,gpt-4o 就是看着这个娃做的解题过程,它会判断这个娃每一步的解题步骤是否对了,直到正确解答,知其然知其所以然!讲真这个比一些毒害少年儿童,直接告诉答案甚至代做的作业辅导班强几万倍吧
,而且这个做题的交互简直太赞了!这明显得益于GPT-4o的图像理解能力的增强。
讲真,按照这个趋势,教培行业似乎极有可能被干掉,那些不会做奥数题的家长,有福了,因为 安特曼说,gpt-4o 是会免费的。这意味着,你不需要花费一分钱,就可以请一个专业的教培老师,帮助你的孩子解决问题。
之前我们于gpt 的实时语音对话只能是一对一,好了,颠覆认知的时刻来了,你在一个对话窗口中,可以同时存在两个gpt-4o对话,甚至,它两还可以互相对话,这个视频中,这两 gpt-4o 相互唱起了小曲。。。
在这个例子中,研究人员展示的是,它告诉 gpt-4o 它想学习西班牙语言,当然它使用英语说的,然后它使用摄像头对着苹果和香蕉,问gpt-4o这个是什么,gpt-4o 利用它图像识别的能力,认出了香蕉和苹果,然后告诉研究人员。
但是!但是!但是!它回的语言居然是英语和西班牙语的混合,也就是,gpt-4o 回答,this is manzana
and plátano
。差点没有惊掉我的下巴,一句回答中包含了多种语言。这中组合输出的能力,简直太强了。
这个视频展示的是 gpt-4o 加入到了一个在线会议中,它可以看到共享的屏幕,因此它知道会议有多少个人,然后开始是每个人说了一下自己的喜欢的人和事,接着主持人发文,他们各自有哪些爱好,gpt-4o 一一都回答出来了,而且是非常的准确,最后还来了一个总结,后面腾讯会议,zoom 估计交互得更上啊,不加入一个智能记录员,这体验就得甩开好几条街了。
这个视频展示的是 gpt-4o 扮演的事一个翻译者的角色,画面中的两个人一个人是将英语的,一个人是将西班牙语的,gpt-4o 就负责把听到的英语转化为西班牙语,把西班牙语转换为英语,然后两个哥们就愉快的对话了,你说你的西班牙,我说我的英语,我们都听得很懂的,所以,同声传译这个行业,是不是也要凉凉了。
歪日哦,富有情感的和你对话是王炸的话,和这个对比简直小巫见大巫,它哼起了小区,而且还会偶尔和你聊天的时候爽朗的发出笑声,这种情感化的交互方式,让人感觉非常的亲切。当这个老外说它想睡觉,哼个小曲,gpt-4o 就开始哼起了外婆的澎湖湾,听得我差点给睡着了…这种情感化的交互方式,让人感觉非常的亲切。
在这个视频中,老外让 gpt-4o 数数,1,2,3,。。。10. gpt-4o 一口气说完了,然后老外说,你能不能慢一点,gpt-4o 就慢慢的说了一遍,然后老外说,你能不能快一点,gpt-4o 就快速的说了一遍,这种语速控制就完全可以用来训练自己的听力了,这个功能比较赞,不过,我的下巴还在。
这个视频中,老外给 gpt-4o 说它要给它老爸讲个笑话,然后他想让 gpt-4o 先听听它这个笑话是不是好笑,结果,gpt-4o 真的爽朗得笑了,笑得一点都不像机器人,听到它这个笑声的时候,我的下巴还差那么一点就掉了。。。
这个视频的效果也是相当的炸裂,视频中时候一个盲人,很显然他看不见,因此它所到之处,让 gpt-4o 告诉它周围都有写什么风景,gpt-4o 一一告诉他,从这个视频中,我有点小小的启发!
gpt-4o 可能更好的交互是类似 Google Glass的形式
,这样的产品出来,估计全世界的盲人都要为之震撼,他们都将会重见光明,这个产品的价值,简直不可估量。
这个视频中显示了两个gpt-4o 开始了对话,什么,永动机???实际上不是,是视频中 openai 的大佬先告诉一个 gpt-4o 说等会有个可以看见世界的 AI 会和你对话,你可以和他交流,随后它启动了另外一个 gpt-4o,然后两个 gpt-4o 开始对话了,并且大佬还可以随时打断加入他们的对话。我的脑袋已经开始疼了,这个视频太炸裂了。这意味着,我是不是可以搞 3 个手机,搞一桌四川麻将了???
视频中,这个大佬要准备面试了,问 gpt-4o 怎么穿着得体,然后 gpt-4o 告诉他带个帽子试试,结果带上 gpt-4o 就开始爽朗的笑了。。。,嗯,后面穿什么出门,估计可以让 gpt-4o 建议建议合不合适。。。
这个场景是两个人想玩石头剪刀布的游戏,然后让 gpt-4o 做裁判,然后就开始了,gpt-4o 说 1,2,3,亮出你们的爪子,然后判断谁输谁赢,好了,我似乎又找到了一个乐子。
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
保证100%免费
】Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。