AI大模型日报#0522：国产大模型首入全球总榜前10、、微软“Build 2024”大盘点、Hinton万字访谈、字节大模型团队揭秘_中科大项亮

作者：小蓝xlanll | 2024-05-30 22:53:55

踩

中科大项亮

导读：AI大模型日报，爬虫+LLM自动生成，一文览尽每日AI大模型要点资讯！

目前采用“文心一言”（ERNIE 4.0）、“零一万物”（Yi-Large）生成了今日要点以及每条资讯的摘要。欢迎阅读！

《AI大模型日报》今日要点：今日人工智能领域资讯综述：在人工智能大模型方向，今日有多条值得关注的资讯。首先，字节跳动首次公开其大模型团队的关键成员，这八位专家学术背景深厚，分别来自中国科学技术大学、北京航空航天大学、清华大学等顶尖高校，涵盖了计算机视觉、机器学习等多个领域。这一举动不仅展示了字节跳动在AI方面的雄心，也预示着其未来可能在该领域有更多突破。其次，智谱AI发布的新模型CogVLM2在多项基准测试中表现优异，成为新的行业标杆。该模型支持长达8K的文本和高清图像，且仅需16GB显存即可运行，这对于开发者和研究者来说无疑是一大利好。CogVLM2的发布有望推动多模态模型的发展和应用。另外，百度也发布了其智能代码助手Comate的最新成果——Comate代码知识增强2.0。这款智能代码助手内置了超过10000个Github热门代码库，能够实时分析开发者的编程意图，并推荐合适的代码片段和库函数，从而显著提高编程效率和代码质量。这一技术的推出，有望为全球开发者带来前所未有的编程体验。在大模型竞技场方面，中国公司零一万物旗下的Yi-Large大模型在国际竞技场中脱颖而出，首次进入全球总榜前10。这一成就不仅展示了中国在人工智能领域的实力，也预示着全球大模型竞争的激烈程度将进一步升级。此外，微软在“Build 2024”全球开发者大会上重点展示了其在人工智能领域的最新进展，包括Copilot Studio、Azure AI Studio等新平台的发布，以及Phi系列新模型的推出。这些新技术和平台的推出，将进一步推动生成式AI技术的发展和应用。同时，在业界巨擘的访谈方面，图灵奖得主Geoffrey Hinton的最新访谈也引发了热议。他深入探讨了大型语言模型的技术路径以及多模态学习的重要性等关键议题，为人工智能领域的未来发展提供了深刻的洞见。最后，Anthropic公司在理解大型语言模型内部运作方面取得的重大突破也值得关注。该公司成功地在Claude 3模型中提取了数百万个特征，首次详细理解了大模型的“思维”方式。这一进展对于提高人工智能模型的安全性具有里程碑意义，也预示着未来人工智能模型将更加透明、可解释。

标题: 字节大模型关键8人首次曝光！中科大北航清华校友，还透露下一步

摘要: 科技记者报道：字节跳动的大模型团队成员首次公开亮相，揭示了该团队的关键人物和他们的学术背景。这八位专家分别来自中国科学技术大学、北京航空航天大学、清华大学等顶尖高校，涵盖了计算机视觉、机器学习、语音识别等多个领域。冯佳时，豆包大模型视觉基础研究团队负责人，拥有新加坡国立大学博士学位，曾任该校助理教授。项亮，豆包大模型Foundation团队负责人，本科毕业于中国科学技术大学，后保送至中科院自动化所。王明轩，豆包大语言模型研究团队负责人，北航校友，博士毕业于中科院计算所。田值，豆包大模型视觉生成模型技术专家，在川大本科期间就发表了顶会论文，后在阿德莱德大学获博士学位。王雨轩，豆包大模型语音部门负责人，本科毕业于北航，后攻读北京大学研究生，博士毕业于俄亥俄州立大学。严林，豆包大语言模型对齐团队负责人，研究生毕业于中科院计算所。陈卓，豆包大模型音频生成研究团队负责人，西安交大校友，硕博毕业于哥伦比亚大学。李成刚，豆包大语言模型预训练方向负责人，清华大学机械工程本硕学位。这些专家在各自的领域内有着丰富的经验和卓越的成就，他们的加入显示了字节跳动在人工智能领域的雄心壮志。此外，字节跳动还启动了名为Top Seed的大模型校招计划，旨在吸引应届博士生加入，提供顶级薪资和充足的算力数据，以推动大模型、图像和视频生成、机器学习算法和系统、音频生成和理解等前沿课题的研究。
网址: 字节大模型关键8人首次曝光！中科大北航清华校友，还透露下一步 | 量子位

标题: 开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

摘要: 科技记者报道：在人工智能领域，开源的多模态模型再次迎来了新的突破。智谱AI开发的CogVLM2模型在多项基准测试中超越了GPT-4v和Gemini Pro，成为新的行业标杆。CogVLM2不仅在图像理解和文本解释方面表现出色，还支持长达8K的文本和高达1344*1344分辨率的图像。该模型的整体参数量为19B，但通过多专家模块结构的优化，实际推理时激活的参数量仅约12B。这意味着在使用Int4量化版本时，CogVLM2仅需16GB显存即可运行，这对于开发者来说是一个巨大的优势。 CogVLM2不仅支持中文和英文，还提供了开源可商用的模型版本，这对于商业应用和研究开发都是一个福音。智谱AI团队还贴心地提供了Lora微调代码，以适应不同场景的需求。 CogVLM2的在线Demo也已经上线，开发者和用户可以先行体验。该模型在GitHub上也引起了不小的关注，各种场景的咨询和讨论正在进行中。智谱AI团队表示，CogVLM2在视觉语言模型的训练方式上实现了深度融合，确保了在增强视觉理解能力的同时，不会削弱模型在语言处理上的原有优势。随着CogVLM2的发布，智谱AI计划将其能力内嵌到GLM新版本中，并在智谱清言App和智谱AI大模型MaaS开放平台上线，为用户提供更加强大的多模态AI服务。
网址: 开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑 | 量子位

标题: 内置10000+Github 热门代码库，百度正式发布Comate代码知识增强2.0

摘要: 在5月18日举行的iTechClub华北区第七届互联网技术精英高峰论坛上，百度工程效能部总监臧志发表了主题演讲，并发布了百度智能代码助手Comate的最新成果——Comate代码知识增强2.0。这款智能代码助手是国内首个支持实时检索的，内置超过10000个Github热门代码库，为全球开发者提供了前所未有的编程体验。 Comate代码知识增强2.0是基于百度文心大模型打造的代码智能补全和推荐工具。它通过深度学习和自然语言处理技术，能够实时分析开发者的编程意图，自动推荐合适的代码片段和库函数，显著提高了编程效率和代码质量。 Comate代码知识增强2.0的三大优势包括：内置了10000+Github热门代码库，支持全面检索和问答，覆盖各类语言和框架；支持Web在线检索，实时获取最新技术知识，并能够理解网页内容，基于用户需求给出答案；能够根据用户输入的API链接生成调用代码和测试用例，同时支持深入理解本地代码库和组织内部的私域知识。 Comate已支持代码编写、学习、面试和测试等多种场景，并能够生成框架代码、辅助修改代码以及生成自动化测试代码。Comate的全部功能可以通过官网下载IDE插件使用，也可以在Comate官网通过网页端在线体验。百度每日新增代码中已有27%由Comate自动生成，整体采纳率达到46%。Comate在各大插件市场的智能助手评分榜中位列榜单第一，显示了其在提升编程效率和代码质量方面的显著成效。
网址: 内置10000+Github 热门代码库，百度正式发布Comate代码知识增强2.0 | 机器之心

标题: 黑马！大模型竞技场榜单更新，国产玩家首次进入全球总榜前10

摘要: 科技记者报道：在人工智能领域，中国公司零一万物旗下的Yi-Large大模型在国际竞技场中脱颖而出，首次进入全球总榜前10，成为国产大模型中的佼佼者。Yi-Large千亿参数闭源大模型在总榜中排名第七，与OpenAI的GPT-4-0125-preview成绩相当。同时，智谱华章的GLM-4-0116也进入总榜，位列第15。这一成就基于超过1170万全球用户的真实盲测投票数，并且大模型竞技场最近修改了规则，确保了投票的公正性。零一万物创始人兼CEO李开复博士表示，LMSYS提供了一个公正的平台，其他竞争对手也都非常认可。尽管零一万物的GPU资源只有Google、Microsoft的5%，但团队一直在探索如何训练出与大厂同样优秀的模型。在分类别的排行榜中，Yi-Large在中文类别中表现突出，与GPT-4o并列总榜第一。在编程能力、长提问及最新推出的 “艰难提示词” 的三个评测中，Yi-Large同样表现亮眼。 Yi-Large是一周前零一万物刚对外发布的闭源模型，官方评测结果显示，它在推理方面位列第一，超越了GPT-4等其他大模型。下一步，零一万物计划采用MoE架构的Yi-XLarge，目前已经启动训练。大模型竞技场（Chatbot Arena）由LMSYS Org发布，是一个由高校学生和教师合作创立的开放研究组织。它提供了一个平台，让用户可以匿名比较不同大模型的性能，并通过大规模的盲测和动态更新评分机制，保证结果的客观和专业。此次更新的大模型竞技场共有44款模型参赛，既有开源高手，也有各大公司和创业公司的闭源模型。Yi-Large的成功展示了中国在人工智能领域的快速进步，并为全球大模型竞技场增添了新的竞争者。
网址: 黑马！大模型竞技场榜单更新，国产玩家首次进入全球总榜前10 | 量子位

标题: 从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

摘要: 科技记者报道：在人工智能领域，一个名为Llama3的代码库在GitHub上迅速走红，获得了超过2000颗星。该代码库由开发者Nishant Aklecha（昵称“纳哥”）创建，它提供了一个从零开始实现Llama3模型的教程，使用Meta公司开源的权重进行推理。这个代码库之所以受到关注，是因为它详细解释了注意力机制中的多头矩阵乘法、位置编码以及所有中间层。它不仅展示了每行代码的功能，还对模型的结构和参数信息进行了深入解析，包括Transformer层的数量、多头注意力块中的头数以及词汇表的大小。大神Andrej Karpathy对该代码库给予了高度评价，认为它对每一步的解释都非常清晰，有助于理解模型的内部工作原理。网友们也对纳哥的工作表示赞赏，认为这是一个极具教育意义的项目。在运行代码之前，用户需要下载Meta官方提供的Llama3模型权重。纳哥推荐使用Karpathy的简洁版BPE代码作为分词器。代码库中还包含了将文本转换为token的tiktoken分词器，以及将token转换为高维嵌入表示的步骤。纳哥还展示了如何构建Transformer的第一层，并从头实现注意力机制，包括加载注意力头的query、key、value和output向量，以及应用位置编码等步骤。这个项目的成功表明，开源社区对于深入理解和复现大型语言模型的需求日益增长，而纳哥的代码库为这一需求提供了一个极佳的资源。
网址: 从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+ | 量子位

标题: 微软“Build 2024”大盘点：Copilot、大模型，生成式AI时代来啦
摘要: 微软在5月22日于西雅图举办的“Build 2024”全球开发者大会上，重点展示了其在人工智能领域的最新进展。大会为期三天，主要内容围绕大模型和生成式AI技术，这些技术已经融入微软的开发平台和产品线中。在大会的第一天，微软发布了Copilot Studio，这是一个支持开发具有AI Agent功能的应用的平台。此外，微软还推出了全新的开发平台Azure AI Studio，该平台支持包括GPT-4o、Phi-3-vision在内的1600多种大模型。 Azure AI Studio的正式发布是大会的亮点之一，它为开发者提供了简化开发流程、部署AI模型的工具，包括RAG（检索增强生成）、模型测试评估、大规模部署和持续监控等功能。微软还发布了Phi-3系列模型，这些模型参数小、性能强、功耗低，有四种不同参数的模型，包括Phi-3-vision、Phi-3-mini、Phi-3-small和Phi-3-medium。其中，Phi-3-mini是最受欢迎的类型，下载量已超过100万次。特别值得一提的是Phi Silica模型，它只有33亿参数，但性能强大，每秒可生成27 tokens数据，功耗仅为1.5瓦，非常适合在笔记本、平板等移动设备中使用。 Copilot Studio的更新使得开发AI Agent变得更加简单，用户只需描述所需功能和知识，即可快速创建定制化的Copilot。微软还推出了Windows Copilot Runtime，这是一个旨在简化生成式AI应用开发的平台，提供了丰富的AI框架和工具链。新的Azure虚拟机搭载了最新的Cobalt 100芯片，包括通用型和内存优化型系列，适合不同规模的工作负载和数据库应用。 Team Copilot的发布则旨在提升工作效率，它可以自动编写会议摘要、跟踪项目进程、解读长文档，并与其他Microsoft产品协同工作。最后，微软推出了“Build with AI”计划，旨在支持初创企业利用AI技术创新。
网址: 微软“Build 2024”大盘点：Copilot、大模型，生成式AI时代来啦|ai|虚拟机|应用程序|财务会计|财务报表|插件功能|windows_网易订阅

标题: Hinton万字访谈：用更大模型「预测下一个词」值得全力以赴

摘要: 科技记者视角：图灵奖得主Geoffrey Hinton的最新访谈视频在网络上引起了热议，被誉为“每一秒都是精华”。在这段对话中，Hinton深入探讨了人工智能领域的多个关键议题，包括大型语言模型的技术路径、多模态学习的重要性、数字计算与知识共享、智能系统的意识与情感，以及他与优秀学生和合作者的故事。 Hinton强调了大型语言模型通过寻找不同领域的共同结构来进行编码的能力，这种能力使它们能够压缩信息并形成深层次的理解。他指出，模型通过预测下一个符号，实际上必须执行一定程度的推理，这种推理能力随着模型规模的增加而增强。Hinton认为，这是一个值得继续深入研究的方向。在回忆与Ilya Sutskever的合作时，Hinton提到Ilya很早就预见到增大模型规模的潜力，尽管Hinton当时并不完全认同这一观点。Ilya的直觉最终被证明是正确的，这表明了在AI领域中直觉和创新思维的重要性。 Hinton的职业生涯跨越了多个研究机构，包括卡内基梅隆大学、多伦多大学、伦敦大学学院和谷歌。他的工作不仅推动了神经网络和深度学习的发展，也为理解大脑工作原理和人工智能的未来提供了深刻的洞见。总的来说，这段访谈不仅展示了Hinton作为人工智能领域先驱的深刻见解，也揭示了他对未来技术发展的乐观态度和对创新思维的重视。对于科技界和公众来说，这都是一次难得的学习和启发机会。
网址: Hinton万字访谈：用更大模型「预测下一个词」值得全力以赴 | 机器之心

标题: 从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

摘要: Anthropic，一家专注于人工智能安全的公司，近日宣布在理解大型语言模型内部运作方面取得重大突破。该公司成功地在Claude Sonnet模型中表征了数百万个概念，这是对现代生产级大型语言模型内部机制的首次详细理解。这一进展对于提高人工智能模型的安全性具有里程碑意义。长期以来，人工智能模型一直被视为“黑匣子”，其内部工作机制不透明，这使得人们难以信任这些模型。Anthropic的研究团队通过与Claude等模型交互，发现模型能够理解和运用广泛的概念，但这些概念的表征方式并不直观。每个概念都是通过许多神经元的激活来表征的，而每个神经元又参与表征许多概念。为了解决这一问题，Anthropic使用了一种名为“字典学习”的方法，该方法分离了在不同上下文中重复出现的神经元激活模式。这种方法使得模型的内部状态可以用一些活跃的特征而不是许多活跃的神经元来表征。这就像在字典中，每个单词都是由字母组合而成，每个句子都是由单词组合而成一样，在人工智能模型中，每个特征都是由神经元组合而成，每个内部状态都是由特征组合而成。在2023年10月，Anthropic将字典学习方法应用于一个非常小的玩具语言模型，并发现了与大写文本、DNA序列、引文中的姓氏、数学中的名词或Python代码中的函数参数等概念相对应的连贯特征。随后，其他研究人员也将类似的方法应用于更大、更复杂的模型。 Anthropic乐观地认为，可以将该方法扩展到目前常规使用的大型人工智能语言模型，并在此过程中了解大量支持其复杂行为的特征。这需要提高许多数量级，既存在工程挑战，也存在科学风险。研究人员首次成功地从Claude 3.0 Sonnet模型中提取了数百万个特征，这些特征涵盖了特定的人和地点、与编程相关的抽象概念、科学主题、情感以及其他概念。这些特征非常抽象，通常在不同的上下文和语言中表征相同的概念，甚至可以推广到图像输入。重要的是，这些特征还会以直观的方式影响模型的输出。研究人员发现了一些与模型安全性和可靠性相关的特征，包括与代码漏洞、欺骗、偏见、阿谀奉承和犯罪活动相关的特征。一个显著的例子是“保密
网址: 从Claude 3中提取数百万特征，首次详细理解大模型的「思维」 | 机器之心

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】