小丑西瓜9

这个屌丝很懒，什么也没留下！

热门标签

每日一看大模型新闻（2023.12.14）谷歌DeepMind最先进Imagen 2发布：这些AI图片你能辨别吗？；全国首个古籍大语言模型“荀子”发布；首个「创造式任务」基准来了！北大清华联手发布_mathematical discoveries from program search with

作者：小丑西瓜9 | 2024-04-04 18:56:39

踩

mathematical discoveries from program search with large language models

1.产品发布

1.1谷歌正在研发新的手机端AI助手Pixie

发布时间：2023-12-14

Briefing: Google Plans New ‘Pixie’ AI Assistant for Pixel Phones — The Information

主要内容：据《The Information》报道，谷歌正在研发一款Pixie新AI助手，专为Pixel设备（包括智能手机在内）打造，搭载Gemini大模型。Pixie有望随着Pixel 9和9 Pro手机的推出而在明年上市，旨在通过利用谷歌地图和Gmail等应用程序中的用户数据，提供比当前Google Assistant更个性化的帮助和建议。

1.2元象开源XVERSE-65B对话版

发布时间：2023-12-14

元象开源XVERSE-65B对话版，注册即可体验高性能大模型！

主要内容：元象公司宣布开源高性能大模型XVERSE-65B-Chat版，无条件免费商用，为开发者提供强大且易用的工具，用于构建和部署垂直领域应用。用户可以登录大模型官网或小程序体验。据介绍，在最新公布的SuperCLUE中文通用大模型综合基准中，XVERSE-65B-Chat在国内外22个大模型中位居国内开源总分第一，在生成创作、角色扮演、逻辑推理、代码及工具使用方面能力出众，经1052道多轮简答题和3213道客观选择题测评。

1.3谷歌DeepMind最先进Imagen 2发布：这些AI图片你能辨别吗？

发布时间：2023-12-14

谷歌DeepMind最先进Imagen 2发布：这些AI图片你能辨别吗？

主要内容：谷歌最近发布了一系列令人振奋的消息。他们推出了Gemini和Gemini Pro，这是一项强大的技术，可以通过Gemini API访问。此外，他们还发布了Imagen 2，这是一种先进的文本到图像扩散技术，能够生成高质量、逼真的图片，并更好地理解用户提示。Imagen 2还提供了丝滑的风格调节功能，使用户能够控制和调整图像风格。此外，它还支持修补和扩图等图像编辑功能。为了确保安全性，谷歌团队采取了严格的防护措施，包括与SynthID集成以添加数字水印。总的来说，谷歌的Imagen 2在图像生成领域取得了显著的进展，为用户提供了更高质量、更灵活和更安全的图像生成体验。

1.4全国首个古籍大语言模型“荀子”发布

发布时间：2023-12-14

免费用！全国首个古籍大语言模型“荀子”发布：能写诗会翻译--快科技--科技改变未来

主要内容：“荀子”大语言模型包含超过20亿字的传世古籍文献，以推动古籍研究和传承为宗旨。模型提供智能标引、翻译、诗歌生成、阅读理解等功能，显著提高古籍处理和研究效率。在发布会上，多家高校、出版机构和互联网企业的专家学者高度评价了该模型的实用性。

试用地址:https://github.com/Xunzi-LLM-of

1.5暴打GPT-3.5，谷歌Gemini大杀器官宣免费用

发布时间：2023-12-14

暴打GPT-3.5，谷歌Gemini大杀器官宣免费用！最强代码生成工具上线支持20+语言

主要内容：谷歌年底开发者福利大放送！Gemini发布一周后，面向开发者的API上线了。目前Gemini Pro和Gemini Pro Vision可以免费体验，满足大多数开发需求。明年初将正式收费，定价和GPT-3.5相同。Gemini Pro支持32K上下文窗口，函数调用、嵌入、语义检索、自定义知识等功能，并支持全球38种语言。用户可通过Google AI Studio和Vertex AI自定义Gemini，不用担心数据和IP被用于训练模型。Gemini Pro在文字基准和图像评测上优于GPT-3.5。同时，谷歌推出Duet AI for Developers，代码补全和生成的AI辅助工具，未来将结合Gemini模型。谷歌与25家公司合作提供数据集，帮助开发人员构建应用程序和排错。Duet AI for Developers免费开放至明年1月底，之后每月19美元收费。该工具支持20+种语言，提高开发人员效率。

1.6税务公司H&R Block推出AI报税助手

发布时间：2023-12-14

H&R Block launches AI tax filing assistant - The Verge

主要内容：美国税务公司H&R Block发布了一款新的对话式AI聊天机器人AI Tax Assist，可以回答纳税人的问题。用户可以通过H&R Block的DIY税务软件的付费版本访问AI Tax Assist，向其提出有关税务规则、可能的免税和其他税务相关问题。

1.7基于盘古打造！华为交通大模型研发正式启动

发布时间：2023-12-14

基于盘古打造！华为交通大模型研发正式启动_凤凰网

主要内容：华为联合云南交投集团和长安大学在昆明举行了“交通大模型研发启动仪式”，开启人工智能大模型技术在交通领域的研究探索。他们共同创立了交通大模型联合研究中心，通过盘古基础大模型叠加交通行业场景的方式，加速推动交通行业数智化发展水平。

2.技术更新

2.1阿里推虚拟试穿技术Outfit Anyone

发布时间：2023-12-14

阿里推虚拟试穿技术Outfit Anyone 加上Animate Anyone轻松拿捏换装视频

主要内容：Outfit Anyone采用双流条件扩散模型，处理模特、服装和文本提示，实现逼真虚拟试穿效果，包括对各种古怪和独特服装风格的处理。技术展示了对各种体型和动漫角色的泛化能力，支持不同生活背景和新动画角色的试穿需求。结合Animate Anyone技术，实现了更丰富的试穿体验，用户可以轻松制作任意角色的换装视频。

项目地址:Outfit Anyone

体验地址:https://huggingface.co/spaces/HumanAIGC/OutfitAnyone

2.2谷歌发布开源虚拟人物库“VALID”

发布时间：2023-12-14

谷歌AI联合佛罗里达高校发布开源虚拟人物库“VALID” 含210个全套虚拟人物

主要内容：谷歌AR&VR与佛罗里达中央大学合作发布开源虚拟人物库“VALID”，含210个全套虚拟人物，代表七个不同种族，旨在促进多样性和包容。研究结果显示对亚洲、黑人和白人虚拟人物的一致认知，但其他种族存在认知歧义。同族偏见影响了虚拟人物辨识，强调参与者种族对研究的影响。库提供开放访问，支持Unity和Unreal等游戏引擎，挑战刻板印象，为虚拟人物研究和应用提供多样性视角。

项目网址:https://github.com/google/valid-avatar-library

论文:Frontiers | VALID: a perceptually validated Virtual Avatar Library for Inclusion and Diversity

谷歌博客:https://blog.research.google/2023/12/valid-perceptually-validated-virtual.html

2.3首个「创造式任务」基准来了！北大清华联手发布Creative Agents：专为想象力而生！

发布时间：2023-12-14

首个「创造式任务」基准来了！北大清华联手发布Creative Agents：专为想象力而生！

主要内容：近年来，研究通过训练服从自然语言指令的智能体，让其具备解决各种开放式任务的能力。然而，现有研究往往未考虑让智能体发挥创造性、解决高自由度的任务。北京大学和清华大学等机构提出了Creative Agents框架，将智能体分为想象模块和控制器两部分，赋予智能体想象力，解决创造式任务。作者提出了基于GPT-4V的自动化评价指标，并实现了多个变体的Creative Agents。实验结果表明，Creative Agents是首个能够创造复杂多样建筑的AI Agents。该研究提供了一套基准，为具有创造性的AI Agents研究提供了重要参考。此外，作者还提出了两种不同的评价方式，验证了GPT-4V评价指标与人类评价的一致性。总体来说，这项研究是对开放式智能体的创造性研究的重要尝试，为后续相关领域的研究提供了基准，也为实现通用人工智能提供了重要思路。

论文链接：https://arxiv.org/pdf/2312.02519.pdf

代码链接：https://github.com/PKU-RL/Creative-Agents

项目主页：https://sites.google.com/view/creative-agents

2.4大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

发布时间：2023-12-14

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

主要内容：EAGLE是一种增强大语言模型生成效率的方法，旨在提升大语言模型的推理速度，同时保证模型输出文本的分布一致。该方法外推LLM的第二顶层特征向量，能够显著提升生成效率。相比于传统自回归解码，EAGLE比普通自回归解码快3倍，比Lookahead解码快2倍，比Medusa解码快1.6倍。EAGLE使用了轻量级的自回归头来预测原始LLM的特征，利用原始LLM提取的上下文特征，建立自回归头与词嵌入层之间的联系。EAGLE还采用了多轮递归的投机采样方法，确保最终生成的每个词的分布与原始LLM的分布保持一致。EAGLE可以与其他平行技术结合使用，如vLLM、DeepSpeed、Mamba、FlashAttention、量化和硬件优化等。

技术报告：https://sites.google.com/view/eagle-llm

代码：https://github.com/SafeAILab/EAGLE

体验平台：https://github.com/SafeAILab/EAGLE/issues

2.5 Ollama支持多模态模型使用

发布时间：2023-12-14

Ollama支持多模态模型使用

主要内容：Ollama最新版本允许用户在macOS和Linux上本地运行多模态模型，提供更灵活的应用场景。用户通过输入“ollama run llava”并下载llava-7B模型，即可轻松运行Llama2、Code Llama等模型，拖放图像输入问题。Ollama支持多个语言模型系列和不同的"tags"，用户可根据需求选择量化级别，权衡模型精确度和运行速度。

体验地址：Ollama使用入口地址 Ai桌面客户端最新工具和软件app下载

2.6 DeepMind用LLM解决数学开放问题

发布时间：2023-12-14

FunSearch: Making new discoveries in mathematical sciences using Large Language Models - Google DeepMind

主要内容：谷歌DeepMind最新研究FunSearch登上了国际顶尖期刊《自然》，这是一种搜索数学和计算机科学新解决方案的方法。FunSearch的工作原理是将预先训练好的大模型（LLM）与自动“评估器”配对使用，前者的目标是以计算机代码的形式提供创造性的解决方案，后者则负责防止出现幻觉和不正确的想法。通过这两个组件之间的来回迭代，初始解决方案“进化”为新知识。FunSearch发现了上限集问题的新解决方案，这是数学领域的一个长期未决问题，代表了利用大模型首次发现科学或数学领域具有挑战性的开放问题。

论文地址：Mathematical discoveries from program search with large language models | Nature

3.其他资讯

3.1“读心头盔”问世，可将人类脑电波“翻译”成文字

发布时间：2023.12.14

英媒：“读心头盔”问世，可将人类脑电波“翻译”成文字_凤凰网

主要内容：澳大利亚科学家研发出世界首个可“读心”的头戴式智能设备，通过监测大脑电活动并转化为文字，可帮助中风或瘫痪患者发声。目前准确率约为40%，未来有望提高至90%。

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/360494