赞
踩
https://mp.weixin.qq.com/s/pZLpmHrbGlAhbxnUFi1ukQ
「在移动设备上运行 LLM?可能需要 Meta 的一些技巧。」刚刚,图灵奖得主 Yann LeCun 在个人社交平台表示。他所宣传的这项研究来自 Meta 最新论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases 》,在众多作者中也有我们熟悉的来自 Meta FAIR 田渊栋。田渊栋表示:「我们的 MobileLLM 预训练模型(125M/350M),性能达到 SoTA,特别是在聊天 / API 调用方面表现出色。此外,本工作中的一个有趣研究是跨 Transformer 层的权重共享,这样不仅节省了参数,还减少了推理过程中的延迟。」
https://mp.weixin.qq.com/s/9pyjOfuDmMyDJUWAkJ9TCQ
模型如 ChatGPT 依赖于基于人类反馈的强化学习(RLHF),这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈,提出了一种解决方案。然而,RLHF 面临着成本高昂、难以优化等问题,以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的依赖,Anthropic 推出了 Constitutional AI,旨在要求语言模型在回答时遵循一系列人类规则。同时,OpenAI 的研究通过采用弱模型监督强模型的方法,为超人类水平模型的对齐提供了新的视角。尽管如此,由于用户给出的指令千变万化,将一套固定的社会规则应用于 LLMs 显得不够灵活;而且,弱模型对强模型的监督提升效果尚不明显。为了解决这些大语言模型价值对齐的挑战,上海交通大学、上海人工智能实验室 () 的科研团队发表了新工作《Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation》,提出了一种原创的自我对齐策略 —— 社会场景模拟。这种方法的核心思想是,人类社会价值观的形成和发展源于社会各方参与者之间的互动和社会影响。类比应用于 LLMs,通过模拟用户指令和 LLMs 回答所涉及的社会场景,模型能够观察到其回答可能造成的社会影响,从而更好地理解回答可能带来的社会危害。
https://mp.weixin.qq.com/s/HE4U-dyQfgNZGESzOnVNQw
大模型的成功很大程度上要归因于 Scaling Law 的存在,这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。以往的大量研究集中于上游复杂度或 交叉熵 损失的 Scaling law(即在预训练数据上进行评估),但在实际应用中,模型通常要经历一个 迁移学习 的过程:首先在无监督数据上进行预训练,然后针对特定的下游任务(如编码或翻译)进行微调。那么,Scaling Law 能不能用于预测下游任务性能? 这个关键问题很大程度上仍未得到解答。在最近的一项工作中,斯坦福大学和谷歌的研究者探索了迁移学习的 Scaling Law。
https://mp.weixin.qq.com/s/mbqSzMQ0Sxg854GldlQFuA
单克隆抗体已成为关键的治疗方法。特别是,纳米抗体(一种在骆驼科动物中自然表达的小型单域抗体)在 2019 年第一个纳米抗体药物获得批准后迅速获得发展势头。虽然如此,这些生物制剂作为治疗剂的开发仍然是一个挑战。尽管已有成熟的体外定向进化技术,部署起来相对较快且成本低廉,但产生治疗性抗体的黄金标准仍然是来自动物免疫或患者的发现。免疫系统衍生的抗体往往在体内具有良好的特性,包括半衰期长、与自身抗原的反应性低和毒性低。在最新的研究中,剑桥大学的研究人员推出了 AbNatiV,一种深度学习工具,用于评估抗体和纳米抗体的天然性,即它们属于免疫系统衍生的人类抗体或骆驼纳米抗体分布的可能性。AbNatiV 是一种多用途工具,可以准确预测任何来源(包括合成文库和计算设计)的 Fv 序列的天然性。它提供了一个可解释的分数,可以预测免疫原性的可能性,以及一个残基水平的概况,可以指导抗体和纳米抗体的工程设计,与免疫系统衍生的抗体和纳米抗体无法区分。该团队进一步引入了自动化人源化流程,并将其应用于两种纳米抗体。实验室实验表明,与使用传统结构和残基频率分析进行人源化的纳米抗体不同,AbNatiV 人源化纳米抗体保留了与野生型相当甚至更好的结合和稳定性。
https://mp.weixin.qq.com/s/rvIJLIEvvzQ5n8v7ZF6pWw
生成式 AI 领域,又有重量级产品出现。周一晚间,Mistral AI正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这次 Mistral AI 发布的版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat的聊天助手(对标 ChatGPT),任何人都可以试试效果。
https://mp.weixin.qq.com/s/4d9jDodEPNVii7iV5-qL8Q
黄院士的新核弹,来了!全新消费级显卡,专为提速笔记本大模型应用而生。就在这两天的MWC上,英伟达重磅推出了全新GPU——RTX 500和RTX 1000。比起只使用CPU,全新RTX 500可以为Stable Diffusion等模型提供高达14倍的生成式AI性能!不仅如此,搭载RTX 500后,用AI进行照片编辑的速度也将提高3倍,3D渲染图形的性能更是提高了10倍。更重要的是,RTX 500和RTX 1000是用于轻薄笔记本电脑,属于英伟达Ada Generation系列的工作站显卡。即便在性能上有了如此提升,英伟达还是将二者定位在了 “入门级” ,主打的就是让普通笔记本也有彪悍的AI能力。
https://mp.weixin.qq.com/s/yWCXt0oVJlSQOo96pVyK2w
Google DeepMind CEO Demis Hassabis 近期参加了《纽约时报》的对谈,Demis 谈论了 Google 最新的 AI 突破、构建 AGI 以及在计算机可以完成每项工作的世界中会发生什么?此外,Demis 还表示, AI 设计的药物和治疗方法可以治愈真正可怕的疾病,距离实现这一目标只有几年的时间。他认为,能源变得免费或廉价,从而导致货币性质的变化。
https://mp.weixin.qq.com/s/t3fsKksf7DWwVJY5vldPNw
要说最近最郁闷的公司,谷歌肯定算得上一个:自家的 Gemini 1.5 刚刚发布,就被 OpenAI 的 Sora 抢尽了风头,堪称 AI 界的「汪峰」。具体来说,谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型(涉及文本、视频、音频),性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似,并引入了长上下文理解方面的突破性实验特征。它能够稳定处理高达 100 万 token(相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词),极限为 1000 万 token(相当于《指环王》三部曲),创下了最长上下文窗口的纪录。此外,它还能仅靠一本 500 页的语法书、 2000 条双语词条和 400 个额外的平行句子学会一门小语种的翻译(网络上没有相关资料),翻译得分接近人类学习者。很多测试过 Gemini 1.5 Pro 的人都表示,这个模型被低估了。比如有人尝试将从 Github 上下载的整个代码库连同 issue 都扔给 Gemini 1.5 Pro,结果它不仅理解了整个代码库,还识别出了最紧急的 issue 并修复了问题。
https://x.com/samraaj/status/1762194073551835350?s=20
⚡️介绍 ion design (YC W24)⚡️
我们可以即时将 Figma 设计转化为干净的 React 代码。我们已经帮助企业提速约 40%
ion 通过以下方式节省成千上万的小时:
从您的代码库学习结构
重用您现有的组件
自动暗黑模式
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。