AI大模型日报#0607：10家国产大模型、GPT-4o挑战高考作文 | OpenAI公开破解GPT-4新方法_faithful logical reasoning via symbolic chain-of-t

作者：盐析白兔 | 2024-07-06 16:55:50

踩

faithful logical reasoning via symbolic chain-of-thought

导读：AI大模型日报，爬虫+LLM自动生成，一文览尽每日AI大模型要点资讯！

目前采用“文心一言”（ERNIE 4.0）、“零一万物”（Yi-Large）生成了今日要点以及每条资讯的摘要。欢迎阅读！

《AI大模型日报》今日要点：阿里云推出的Qwen2大语言模型系列在性能上全面超越Llama3与国内其他闭源大模型，其72B版本在多项能力上表现卓越，得益于优化的预训练数据、训练方法及精细微调。同时，新加坡国立大学提出名为SymbCoT的推理框架，结合符号化逻辑表达式与思维链，显著提升了大语言模型（LLMs）的推理质量、鲁棒性和可信度，该成果已获ACL 2024会议录用。另一方面，随着高考作文聚焦AI，10家国产大模型与GPT-4共同进行了一场作文PK，展现了各自的观点与风格，并自我评分，揭示了AI在教育与思维训练中的潜力。此外，百奥几何发布的抗体设计生成式AI大模型GeoFlow，性能与AlphaFold3相当，标志着生成式AI在大分子设计领域的重大进展。OpenAI也公开了新方法，将GPT-4的内部表征解构为大量可理解特征，提升了对模型内部思维的理解。最后，快手推出的AI「可灵」视频生成大模型以其出色的物理特性模拟与复杂运动刻画能力受到关注，同时智谱AI通过推出高性价比大模型与MaaS模式，有望在中国企业服务市场中脱颖而出。

标题: 阿里Qwen2正式开源，性能全方位包围Llama-3

摘要: 中国科技巨头阿里云推出的Qwen2大语言模型系列，在性能上超越了业界知名的开源模型Llama3-70B，以及国内闭源大模型如文心4.0等。Qwen2-72B模型在自然语言理解、知识、代码、数学及多语言等多项能力上均表现出色，研究团队通过优化预训练数据和训练方法，以及精细的微调过程，提升了模型的智能水平。Qwen2系列模型在16个基准测试中表现优异，并在提升基础能力以及对齐人类价值观这两方面取得了较好的平衡。Qwen2-72B-Instruct在所有评测中均大幅超越了Qwen1.5的72B模型，并且取得了匹敌Llama-3-70B-Instruct的表现。Qwen2系列中的其他模型，如Qwen2-7B-Instruct，在代码及中文理解上也展现出显著优势。自开源以来，Qwen2系列模型在全球开源社区中占据重要位置，为全球开发者提供了更多的选择。
网址: 阿里Qwen2正式开源，性能全方位包围Llama-3 | 机器之心

标题: ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力，开源框架SymbCoT来了

摘要: 徐俊东，本文第一作者，拥有伦敦大学学院和新加坡国立大学的教育背景，专注于大语言模型的推理能力研究。其个人主页为https://aiden0526.github.io/JundongXu/。新加坡国立大学的研究人员提出了一种名为SymbCoT的推理框架，该框架结合了符号化逻辑表达式与思维链，旨在提升大语言模型（LLMs）的推理质量、鲁棒性和可信度。该工作已被ACL 2024会议录用，论文标题为“Faithful Logical Reasoning via Symbolic Chain-of-Thought”，论文和代码地址分别为https://arxiv.org/pdf/2405.18357.pdf和https://github.com/Aiden0526/SymbCoT。 SymbCoT框架包含四个部分：翻译、规划、执行和验证。它通过对比翻译前后的语义信息，验证翻译和执行过程中的准确性，并纠正错误。实验结果显示，SymbCoT在多个复杂逻辑推理数据集上超越了现有方法，包括直接提示、传统CoT和使用外部推理工具的方法。该研究在社交媒体上引起了广泛关注，被认为有助于改进高级工作流程，构建更可靠和智能的LLM AI代理。
网址: ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力，开源框架SymbCoT来了 | 机器之心

标题: 10家国产大模型、GPT-4o共同挑战新鲜高考作文，还自我打分，谁是第一？

摘要: 科技记者报道：随着2024年高考语文作文题目聚焦人工智能，10家国产大模型展开了一场别开生面的高考作文PK。参赛选手包括百度文心一言、阿里通义千问、腾讯元宝、字节豆包、Kimi、智谱清言、科大讯飞星火、百川智能百小应、商汤商量、昆仑万维天工，以及GPT-4作为踢馆选手。它们围绕“随着互联网的普及、人工智能的应用，越来越多的问题能很快得到答案。那么，我们的问题是否会越来越少？”这一主题，撰写议论文并自评打分。各家大模型在作文中展现了不同的观点和风格。文心一言探讨了科技进步与问题之间的关系，认为科技并未减少问题数量，而是改变了我们与问题之间的关系。通义千问强调了在信息洪流中筛选高质量问题的重要性。腾讯元宝则认为问题本质并未因技术进步而消失，反而呈现出更为复杂多元的趋势。字节豆包呼吁在信息时代保持问题意识，不断探索前行。Kimi则讨论了互联网和人工智能在解决问题上的双刃剑效应。最终，各家大模型给自己的作文打分，评分标准包括选准角度、确定立意、明确文体、自拟标题等。这场AI作文大赛不仅展示了国产大模型的语言表达能力，也引发了关于人工智能在教育和思维训练中作用的深入思考。
网址: 10家国产大模型、GPT-4o共同挑战新鲜高考作文，还自我打分，谁是第一？ | 机器之心

标题: 与AlphaFold3持平！国产抗体设计生成式AI大模型发布，能同时预测抗原抗体复合物结构和抗体从头设计

摘要: 国产抗体设计生成式AI大模型GeoFlow发布，性能与AlphaFold3持平。该模型由百奥几何公司研发，能够同时预测抗原抗体复合物结构和抗体从头设计。GeoFlow在66个复合物结构测试集中成功率达43.9%，与AlphaFold3相当。研发团队采用几何深度学习架构和流匹配生成模型，在原子层面对抗原抗体相互作用力进行建模。GeoFlow不仅用于复合物结构预测，还可用于抗体从头设计和优化，展现了生成式AI在大分子设计领域的应用前景。
网址: 与AlphaFold3持平！国产抗体设计生成式AI大模型发布，能同时预测抗原抗体复合物结构和抗体从头设计 | 量子位

标题: OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！

摘要: 科技记者报道： OpenAI近日公布了一种新方法，旨在破解其旗舰语言模型GPT-4的内部工作机制。这项研究由OpenAI的超级对齐团队进行，其中包括了Ilya Sutskever的参与。研究的核心是将GPT-4的内部表征解构为1600万个可理解的特征，这使得复杂语言模型的内部工作变得更加透明。研究人员通过改进大规模训练稀疏自编码器的方法，成功地实现了这一突破。这种方法允许直接设置L0，消除了特征缩减问题，并允许直接设置L0。研究发现，这种方法在均方误差/L0边界上表现良好，并且在1600万的规模下，几乎没有失活的潜在单元。这项研究是理解和解释神经网络工作原理的重要一步。它不仅有助于提升对模型内部思维的理解，还可能对未来的AI研究和开发产生深远影响。
网址: OpenAI公开破解GPT-4思维的新方法，Ilya也参与了！ | 量子位

标题: 快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

摘要: 国产AI「可灵」视频生成大模型采用Sora技术路线，结合自研创新，生成视频运动幅度大且合理，模拟物理世界特性，具备强大概念组合能力和想象力。支持2分钟30fps超长视频，分辨率高达1080p，多种宽高比。由快手推出，已在快影APP中开启邀测。可灵不仅在想象力上丰富，在描绘运动时符合真实运动规律，复杂运动也能准确刻画，并能模拟真实物理世界特性。技术上，可灵采用原生视频生成技术路线，模型设计、数据保障、计算效率、模型能力扩展等方面均有独特技术应用。自建高质量数据筛选方案，使用分布式训练集群，并通过算子优化、重算策略优化等手段提升硬件利用率。分阶段训练策略结合量与质，确保模型在训练的各个阶段均能得到优化提升。可灵还支持多种控制信息输入，为用户提供丰富的内容控制能力。
网址: 快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模 - 智源社区

标题: 为什么说国产大模型的野心，都藏在 MaaS 的生态中

摘要: 科技记者摘要：中国企业服务市场长期面临挑战，SaaS 公司难以实现标准化与盈利并重。然而，随着大模型时代的到来，智谱 AI 等公司通过推出升级版 GLM-4-9B 开源模型，以及 GLM-4 模型的降价策略，为行业带来了新的希望。这些模型不仅性能提升，价格也大幅下降，为企业提供了更具性价比的选择。智谱 AI 还针对企业需求推出了定向降价策略，包括 GLM-4-Air 极速版等，以满足不同企业的需求。大模型的降价策略不仅是一场价格战，更是技术实力的较量，智谱 AI 通过规模效应和 MaaS（模型即服务）模式，有望在竞争激烈的市场中脱颖而出。
网址: 为什么说国产大模型的野心，都藏在 MaaS 的生态中 | 极客公园

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】