木道寻08

这个屌丝很懒，什么也没留下！

热门标签

苹果AI功能，GPU内存瓶颈，大气预测模型，Chrome内置Gemini

作者：木道寻08 | 2024-07-13 22:06:48

踩

智源社区

刚刚！苹果发布Apple Intelligence，官宣免费接入ChatGPT，Siri迎来重磅更新

大模型竞速赛鸣枪开跑后，苹果似乎已经脱离了第一梯队，曾经的行业风向标并没有像其他大厂那样频繁地宣讲 AI，加之缺乏能够参与竞争的「明星产品」，其一度被贴上了「落后」的标签。但其实熟悉苹果的网友都知道，这是一家「重落地」的公司，更加擅长的是把创新技术工程化，实现「工程创新」。也正因如此，在生成式 AI 发展如火如荼之际，仍有很多网友在期待苹果的「划时代」产品。

如今，苹果终于「提枪上马」了。在刚刚结束的 WWDC24 主题演讲中，苹果发布了生成式 AI 模型 Apple Intelligence，并介绍了 iOS 18、Siri 等基于 Apple Intelligence 实现...

来源：

Nucleic Acids Res. | GPSFun：使用语言模型的几何感知蛋白序列功能预测

DRUGAI今天为大家介绍的是来自中山大学杨跃东团队的一篇论文。了解蛋白质功能对于阐明疾病机制和发现新药靶点至关重要。然而，蛋白质序列的指数增长与其有限的功能注释之间的差距正在扩大。在之前的研究中，作者开发了一系列方法，包括GraphPPIS、GraphSite、LMetalSite和SPROF-GO，用于蛋白质残基或蛋白质水平的功能注释。为了进一步提高这些方法的适用性和性能，作者现推出GPSFun，这是一款用于几何感知蛋白质序列功能注释的多功能网络服务器，结合了语言模型和几何深度学习以提升以往工具的性能。具体而言，GPSFun利用大型语言模型高效预测输入蛋白质序列的3D构象，并提取有用的序列...

来源：http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247505451&idx=1&sn=49d2384e0504d79822c9b851ff25c7f6&chksm=fd2ed1f543080afc6e2421c1e71c592ab2358d13f5c827116266d6302d0a253aa25c3820eda0&scene=0&xtrack=1#rd

5秒完成3D生成，真香合成数据集已开源，上交港中文新框架超越Instant3D

陈林投稿自凹非寺量子位 | 公众号 QbitAI使用大模型合成的数据，就能显著提升3D生成能力？来自上海交大、香港中文大学等团队还真做到了。他们推出Bootstrap3D框架，结合微调的具备3D感知能力的多模态大模型。这个框架能够自动生成任意数量的高质量的多视角图片数据，助力多视图扩散模型的训练。结果表明，新的合成数据能够显著提高现有3D生成模型的生成物体的美学质量和文本prompt的控制能力。目前，Bootstrap3D的数据集已经全面开源。用大模型合成数据近年来，3D内容生成技术迎来了飞速发展。然而，相对于2D图片生成，生成高质量的3D物体仍面临诸多挑战。其中核心的瓶颈即在于3D数据，...

来源：http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247732880&idx=3&sn=93a9097421f9b2657cf3f57aa02277de&chksm=e9de2f3c47eba775093437ff1ebfeea603b49c664b13c3453b2dc6683dc429065ce799f59fb0&scene=0&xtrack=1#rd

博士论文 | 2024年Northwestern | 智能体建模：基于智能体的多级模型的设计与分析 319页

基于智能体的建模 (Agent-based modeling，ABM) 在复杂系统研究中发挥着关键作用，它允许研究人员研究个体之间的相互作用如何共同引起群体级和系统级行为。然而，从社会环境系统到肿瘤生物学再到交通建模等领域，越来越多地寻求对不同规模系统之间的相互作用进行建模。多级基于智能体的建模 (Multi-level agent-based modeling，ML-ABM) 扩展了经典的 ABM 技术以满足这一需求。尽管这种需求不断增长，但多级建模技术为建模过程带来了相当大的复杂性，尚未在 ABM 从业者中得到广泛采用。我们为广泛使用的 NetLogo ABM 平台...

来源：http://mp.weixin.qq.com/s?__biz=MzU4NTQyNjc5Mg==&mid=2247490783&idx=1&sn=740b0693e854b51c429485da664b6ea5&chksm=fcd3131f59086f6552ac9b122506ff4bfa4ad38cd0acd677e5aa2cc2a67a87ebedad9ec65a11&scene=0&xtrack=1#rd

AlphaFold3不开源，DeepMind商业化最大的一道坎来了

AlphaFold3的出现，对于整个生物医药都有巨大的意义。但因为其没有立刻开源，掀起了一场强烈的开源闭源争议，甚至遭到了科学界的抵制。据专业人士估计，像DeepMind那样训练AlphaFold3可能需要花费超过100万美元的云计算资源。对于如今动辄上亿美元的AI大模型军备赛不算什么，但也已经是非常多实验室无法承受的数字。尽管DeepMind立马“滑跪”，宣布将在6个月内面向学术界开源，但这个决定仍然不能让科学家们满意。学术进步岂能受到资本制约？已经有不少团体立项复现AlphaFold3，难不成DeepMind的商业化之路要断了？开源争议今年5月，Google DeepMind 和 Isom..

来源：http://mp.weixin.qq.com/s?__biz=MzkzMDQyNTY0Mw==&mid=2247505443&idx=1&sn=c9cf2b73995a5b364ae06181851c7a71&chksm=c3e79aca71d5cdac806bd40beb98ca00dbb591746d7e14a6eb6619d8818f0f89b3f29e8df716&scene=0&xtrack=1#rd

InfoQ

在这里，一起见证 AI 时代的数智化跃迁

InfoQ 中国成立17周年，继续与各位并肩前行。

来源：https://www.infoq.cn/article/pW4B4xse6Nh8MDTDhIKQ

国内科技企业和机构发力AI研发，50余篇论文入选顶会ICML2024

2024年国际机器学习大会（ICML2024）共收到9473篇论文投稿，最终录用了2609篇，接收率为27.5%。

来源：https://www.infoq.cn/article/Z4mcTK6XujWIoHbwJE6m

“都是调用的GPT？”ChatGPT、Claude、Perplexity、Gemini 同时都宕机了

“为什么三年之前就在到处宣扬的快速数字化转型，直到今天也无法实现站点的高效规模伸缩？”

来源：https://www.infoq.cn/article/rNDOUPUd2fCg32ykpgU1

抖音Android端图片优化实践

本文介绍抖音Android端通过使用BDFresco图片框架进行图片优化的实践、经验和价值，分享问题和解决策略，旨在为同行提供参考。

来源：https://www.infoq.cn/article/JDQ1rO5gAACNvZZU2SFi

操作系统与AI融合之路再进一步！首个AI原生开源操作系统，openEuler 24.03 LTS正式发布

本次发布会汇聚操作系统产业界顶尖力量，共探openEuler社区技术、生态、国际化发展。

来源：https://www.infoq.cn/article/cWVQffwgQdIg8xUmgDdF

ShowMeAI社区

打造AI爆款应用<新>黄金法则；盘点20款最流行AI搜索工具；ChatGPT对在线知识社区的影响；100万用户教会我的5个教训 | ShowMeAI日报

盘点 20 款最流行的AI搜索应用，你最喜欢哪几个？ [图片] 国内秘塔AI搜索 https://metaso.cn/ 好用，免费，国内 Top 水平天工AI (昆仑万维) https://www.tiangong.cn/ 好用，免费，技术实力 Top 且快速升级中简单搜索 App (百度) https://secr.baidu.com/ 只有手机版，规规矩矩的一款AI增强搜索应用 360 AI 搜索 https://so.360.com 最近数据增长蛮快的，综合体验比较流畅澜舟AI搜索 https://ai-search.langboat.com 中规中矩 BrainStorm …

来源：https://zhuanlan.zhihu.com/p/698345703

又一款爆火AI游戏诞生！《换你来当爹》做对了什么？| ShowMeAI体验报告

[图片] 社区里几百人玩一款AI游戏的场面，值得记录一下！大模型游戏化极度看重〖有趣〗程度。可有趣的灵魂那么难得，以至于只要一眼，我们就在产品的海洋里发现了 ta 。1. 有趣的灵魂在发疯疯疯《换你来当爹》是一款全员发疯的AI游戏，主线任务是任意设定一个角色，然后把他培养成「大孝子」！灵感估计来源于男生大学宿舍里互相喊「爸爸」的传统？看到设定的一瞬间，会心一笑游戏最初在即刻平台出圈，随后传回微信社群，并成功激发起…

来源：https://zhuanlan.zhihu.com/p/697856247

朱啸虎：AI应用明年肯定大爆发；第3款爆火AI游戏出现了；AI应用定价策略「不能说的秘密」；人类数据不够用了怎么办 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！1. 换你来当爹：国内第3款爆火出圈的AI游戏应用，hhh 太搞笑了 [图片] 周末的时候，社群里伙伴们开始玩一款「换你来当爹」的AI游戏进入游戏界面后，输入名字，系统随机生成孩子的「出生设定」。然后恭喜你！可以开始当爹了！！好大儿的培养过程，伴随着各种糟心的意外，然后把难题摆在你面前。哎呀呀！逆子… 这时，你可以在系统给定的两个选项中选择一个，当然也…

来源：https://zhuanlan.zhihu.com/p/697655366

上海交通大学《动手学大模型》编程实战课；提示工程大赛冠军经验分享；AI Agent最新行业地图(3份)；人类与ChatGPT恋爱行为指南；提升AI产品留存率的7个技巧 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！ 1. 终于来了！OpenAI 周一官网直播，ChatGPT 和 GPT-4 上新啦！ [图片] Sam Altman 和 OpenAI 近期一直在造势，演讲、访谈、小更新等动作不断。终于！官方推特宣布，将于美西时间5月13日上午10点 (⏰ 北京时间5月14日凌晨1点) 在 OpenAI 官网进行直播，演示 ChatGPT 和 GPT-4 的更新。到底会更新什么呢？！！各方还在猜来猜去。@indigo 的猜测帖传播度很广，精选…

来源：https://zhuanlan.zhihu.com/p/697448133

ShowMeAI | 全球最有前途的100家AI公司，中国2家上榜；混合专家模型MoE详解；人大最新《大语言模型》电子书开放下载；斯坦福最新AI指数报告

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！ 1. CB Insights 发布「AI 100 2024」榜单，评选出全球最有前途的 100 家人工智能公司 [图片] CB Insights 是全球知名的市场情报分析机构，以其深入的数据分析、前瞻性的行业洞察而著称。CB Insights 最近发布了「AI 100 2024 」榜单，综合考虑了公司交易活动、行业合作伙伴关系、团队实力、投资者实力、专利活动、专项评分等数据维度，并结合 CB Insights 调研和访谈，…

来源：https://zhuanlan.zhihu.com/p/696949266

Aminer.cn

大型语言模型的不确定性表达：忠实度与准确性

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。

来源：https://www.aminer.cn/research_report/665fc8bac028d8419b0a4168

清华大学唐杰：大模型与超级智能

本文探讨了大模型的发展历程，介绍了作者团队研发的GLM-4大模型，并针对AGI研究面临的挑战对AGI未来发展提出了一些思考。

来源：https://www.aminer.cn/research_report/665fc671c028d8419b0a3f77

训练数据匮乏：LLM在正式定理证明中的挑战

别担心，AMiner AI会帮助你高效检索和阅读文献！

来源：https://www.aminer.cn/research_report/665d2bd6c028d8419b08ba06

GPU内存瓶颈：大规模语言模型推理能力的制约因素

想把握最新的科技进展和研究成果，却发现自己的阅读速度根本赶不上文献产出的速度？

来源：https://www.aminer.cn/research_report/665555cec028d8419b0438c5

虚构事实的担忧：大型语言模型的新知识处理能力

AMiner AI，一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中，让科研变得更加有趣和高效！

来源：https://www.aminer.cn/research_report/664c3a53707801418e87e415

arXiv.org

ChemReasoner: Heuristic Search over a Large Language Model's Knowledge

Space using Quantum-Chemical Feedback The discovery of new catalysts is essential for the design of new and more efficient chemical processes in order to transition to a sustainable future. We introduce an AI-guided computational screening framework unifying linguistic reasoning with quantum-chemistry based feedback from 3D atomistic representations. Our approach formulates catalyst discovery as an uncertain environment where an agent actively searches for highly effective catalysts via the iterative combination of large language model (LLM)-derived hypotheses and atomistic graph neural network (GNN)-derived feedback. Identified catalysts in intermediate search steps undergo structural evaluation based on spatial orientation, reaction pathways, and stability. Scoring functions based on adsorption energies and reaction energy barriers steer the exploration in the LLM's knowledge space toward energetically favorable, high-efficiency catalysts. We introduce planning methods that automatically guide the exploration without human input, providing competitive performance against expert-enumerated chemical descriptor-based implementations. By integrating language-guided reasoning with computational chemistry feedback, our work pioneers AI-accelerated, trustworthy catalyst discovery.

来源：http://arxiv.org/abs/2402.10980v4

Self-Improving Robust Preference Optimization

Both online and offline RLHF methods such as PPO and DPO have been extremely successful in aligning AI with human preferences. Despite their success, the existing methods suffer from a fundamental problem that their optimal solution is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks). Here we address this challenge by proposing Self-Improving Robust Preference Optimization SRPO, a practical and mathematically principled offline RLHF framework that is completely robust to the changes in the task. The key idea of SRPO is to cast the problem of learning from human preferences as a self-improvement process, which can be mathematically expressed in terms of a min-max objective that aims at joint optimization of self-improvement policy and the generative policy in an adversarial fashion. The solution for this optimization problem is independent of the training task and thus it is robust to its changes. We then show that this objective can be re-expressed in the form of a non-adversarial offline loss which can be optimized using standard supervised optimization techniques at scale without any need for reward model and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate (WR) against human (GOLD) completions. In particular, when SRPO is evaluated on the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of 15% after 5 self-revisions, achieving WR of 90%.

来源：http://arxiv.org/abs/2406.01660v3

The Influencer Next Door: How Misinformation Creators Use GenAI

Advances in generative AI (GenAI) have raised concerns about detecting and discerning AI-generated content from human-generated content. Most existing literature assumes a paradigm where 'expert' organized disinformation creators and flawed AI models deceive 'ordinary' users. Based on longitudinal ethnographic research with misinformation creators and consumers between 2022-2023, we instead find that GenAI supports bricolage work, where non-experts increasingly use GenAI to remix, repackage, and (re)produce content to meet their personal needs and desires. This research yielded four key findings: First, participants primarily used GenAI for creation, rather than truth-seeking. Second, a spreading 'influencer millionaire' narrative drove participants to become content creators, using GenAI as a productivity tool to generate a volume of (often misinformative) content. Third, GenAI lowered the barrier to entry for content creation across modalities, enticing consumers to become creators and significantly increasing existing creators' output. Finally, participants used Gen AI to learn and deploy marketing tactics to expand engagement and monetize their content. We argue for shifting analysis from the public as consumers of AI content to bricoleurs who use GenAI creatively, often without a detailed understanding of its underlying technology. We analyze how these understudied emergent uses of GenAI produce new or accelerated misinformation harms, and their implications for AI products, platforms and policies.

来源：http://arxiv.org/abs/2405.13554v2

Hints-In-Browser: Benchmarking Language Models for Programming Feedback

Generation Generative AI and large language models hold great promise in enhancing programming education by generating individualized feedback and hints for learners. Recent works have primarily focused on improving the quality of generated feedback to achieve human tutors' quality. While quality is an important performance criterion, it is not the only criterion to optimize for real-world educational deployments. In this paper, we benchmark language models for programming feedback generation across several performance criteria, including quality, cost, time, and data privacy. The key idea is to leverage recent advances in the new paradigm of in-browser inference that allow running these models directly in the browser, thereby providing direct benefits across cost and data privacy. To boost the feedback quality of small models compatible with in-browser inference engines, we develop a fine-tuning pipeline based on GPT-4 generated synthetic data. We showcase the efficacy of fine-tuned Llama3-8B and Phi3-3.8B 4-bit quantized models using WebLLM's in-browser inference engine on three different Python programming datasets. We will release the full implementation along with a web app and datasets to facilitate further research on in-browser language models.

来源：http://arxiv.org/abs/2406.05053v1

RU-AI: A Large Multimodal Dataset for Machine Generated Content

Detection The recent advancements in generative AI models, which can create realistic and human-like content, are significantly transforming how people communicate, create, and work. While the appropriate use of generative AI models can benefit the society, their misuse poses significant threats to data reliability and authentication. However, due to a lack of aligned multimodal datasets, effective and robust methods for detecting machine-generated content are still in the early stages of development. In this paper, we introduce RU-AI, a new large-scale multimodal dataset designed for the robust and efficient detection of machine-generated content in text, image, and voice. Our dataset is constructed from three large publicly available datasets: Flickr8K, COCO, and Places205, by combining the original datasets and their corresponding machine-generated pairs. Additionally, experimental results show that our proposed unified model, which incorporates a multimodal embedding module with a multilayer perceptron network, can effectively determine the origin of the data (i.e., original data samples or machine-generated ones) from RU-AI. However, future work is still required to address the remaining challenges posed by RU-AI. The source code and dataset are available at https://github.com/ZhihaoZhang97/RU-AI.

来源：http://arxiv.org/abs/2406.04906v1

齐思

齐思头条2024/06/10「无MatMul LLM减少10倍内存消耗，Block Transformer推理吞吐量提升10-20倍，LLMs无法解决常识问题，LangChainAI展示PDF表格提取，OpenAI移除Sky语音功能」

Twitter:

消除LLMs中的MatMul操作 ：一篇突破性论文声称可以完全消除大型语言模型（LLMs） 中的MatMul操作 ，同时保持性能，显著减少超过10倍的内存消耗。提出的无MatMul LLM 使用三元累加 和优化的GRU 和GLU 单元，显示出与Transformer++ 模型竞争的性能，并具有硬件效率的潜力，详细信息见来源。

Block Transformer架构展示显著增益 ：Block Transformer架构 在推理吞吐量方面比传统transformers提高了10-20倍 ，通过一种新颖的全局到局部建模方法优化语言模型推理。该架构通过将昂贵的全局建模隔离到较低层，并在上层应用快速局部建模，减少了推理瓶颈，详细信息见Twitter帖子。

Alice in Wonderland问题揭示LLM推理缺陷 ：一项研究表明，最先进的LLMs，包括GPT-3.5/4和Claude，无法解决简单的常识问题 如"Alice in Wonderland (AIW)问题"，尽管在标准化基准测试中得分很高。这一差异强调了需要新的推理基准来更好地检测和解决LLMs的推理弱点，详细信息见Twitter帖子。

LangChainAI的PDF表格提取 ：LangChainAI展示了如何从PDF中提取表格信息并使用Llama3 进行总结，展示了LLMs 在非结构化环境中的常见用例。更多细节见他们的tweet。

OpenAI的Sky Voice和Studio交易 ：OpenAI暂时移除了Sky语音功能 ，因为正在与多家工作室就Sora的使用进行谈判。这些交易预计很快会宣布，突显了AI生成语音在媒体中的商业兴趣和潜在应用，详细信息见来源。

Hugging Face和Pollen Robotics的开源机器人 ：Hugging Face 和Pollen Robotics 推出了他们的第一个项目，一个开源机器人 ，旨在执行家务。这款机器人代表了多模态AI系统 发展的重要一步，能够集成各种数据流以实现实际应用。更多信息见VentureBeat文章。

中国在开源AI方面的进展 ：尽管硅谷存在抵制，中国在开源AI 方面取得了显著进展，超越了Facebook的Llama-3 ，推出了Qwen2 72B 模型。这一发展突显了中国在AI技术方面的快速进步，详细信息见来源。

Claude的角色发展 ：AnthropicAI在Chris Olah分享的详细文章中讨论了塑造其AIClaude 角色的过程。文章探讨了AI应具备的性格特征，详细信息见来源。

短路方法增强模型鲁棒性 ：Ethan Perez和Dan Hendrycks介绍了短路，一种替代RLHF和对抗训练的新方法，显著增强了模型的鲁棒性。该方法在tweet中进行了讨论。

重建GPT架构在电子表格中 ：Carlos E. Perez 在电子表格中重建了GPT架构 ，名为nanoGPT ，由**@karpathy** 设计，约有85,000个参数 。该模型非常适合学习transformers 的工作原理，无需编码即可探索，详细信息见来源。

微软Office 2007漏洞发现 ：分享了发现第一个微软Office 2007漏洞 的故事，强调了安全研究 的重要性以及识别和缓解广泛使用软件漏洞的持续努力。完整故事见tweet by Laughing_Mantis。

实时浏览器内语音识别 ：OpenAI的Whisper模型现在支持使用Transformers.js 和ONNX Runtime Web 进行实时、浏览器内语音识别 ，能够跨100种语言进行多语言转录 。该模型完全在设备上运行，确保数据不会离开用户设备，详细信息见tweet by @flngr和@osanseviero。

RAG系统中的查询理解 ：@kingzzm提供的综合资源讨论了在RAG系统中添加查询重写层 以更好地处理复杂查询。它概述了三种关键模式：将复杂问题分解为子问题，通过查询重写生成语义嵌入的答案，并使用回溯更有效地回答一般问题。更多细节见来源。

开放源代码机器人和AI ：Teknium1强调了开源机器人 的重要性，突出了AI在推进机器人技术中的作用。讨论见帖子。

WEBINSTRUCT数据集用于指令数据提取 ：Philipp Schmid介绍了WEBINSTRUCT ，一个由爬取的网页数据创建的1000万高质量指令数据集，无需人工注释或GPT-4。实现包括使用自定义训练模型从预训练网页语料库中召回相关文档。更多信息见推文。

视频生成和AI的进展 ：视频生成 的进展显著，工具如Sora, Veo, 和 Kling 被比作早期的GPT-2。AI在视频中的未来潜力包括推理、链式思维、多模态泛化和物理模拟 ，这可能会革新机器人、教育和材料设计 等领域。更多细节见tweet by NandoDF。

LLM预训练中的课程学习和数据混合 ：Cwolferesearch 讨论了数据混合 在预训练期间对大型语言模型（LLMs）性能的显著影响。最近的研究强调了课程学习 的效率，其中数据的组成在训练过程中发生变化，以及领域上采样 ，在训练结束时增加领域特定数据的权重，显著提高了LLM的质量。详细见Twitter线程。

使用RAG比较Llama-3和Qwen ：Akshay Pachaar 和Jerry Liu 提出使用检索增强生成（RAG） 来比较Llama-3 和Qwen 模型的性能。该方法旨在提供每个模型的优缺点的详细分析，详细信息见来源。

构建LLMs一年的经验总结 ：顶级从业者的史诗级合作结果是关于**“构建LLMs一年的经验总结”** 的三部分系列文章，发表在**@OReillyMedia** 上。该系列涵盖了关于提示、RAG工作流、缓存、微调、评估、护栏和监控的最佳实践，以及可持续和可靠部署的策略。系列文章可从这里访问。

基础代理作为决策制定的范式转变 ：研究人员提出基础代理 作为跨物理和虚拟世界的通用代理，类似于语言任务的LLMs。这些代理旨在通过基于世界知识的推理提供统一的策略接口和决策过程，以克服传统AI决策系统的局限性，详细信息见Twitter帖子。

LLM安全问题和短路 ：Andy Zou Jiaming声称没有LLM是安全的 ，揭示了一年前他们发布了一种自动越狱工具 ，能够破解所有主要的LLMs。他介绍了短路，这是第一个对抗性鲁棒的对齐技术，详细信息见他的帖子。

MIT的鲸鱼AI研究 ：MIT科学家利用AI解码抹香鲸的复杂通信系统 ，揭示了类似人类的通信模式。这一突破可能显著推进我们对海洋生物学的理解以及AI在解码非人类语言中的应用，详细信息见来源。

Qwen2 AI模型发布 ：阿里巴巴的Qwen2 AI模型 已经发布，包含五种不同大小的模型，支持27种语言，并在代码和数学方面增强了能力。值得注意的是，除了Qwen2-72B之外，所有模型现在都采用Apache 2.0许可证 ，促进开源开发，详细信息见来源。

生产中的模型测试的交错实验 ：交错实验 被强调为在生产中测试机器学习模型 的稳健策略。该方法涉及同时部署遗留模型和新候选模型，在响应用户时交错它们的推荐，并跟踪用户交互以确定优越的模型。此方法在tweet by @svpino中进行了详细阐述，并在另一tweet by @svpino中进一步强调。

Decoder-Only Transformers的弱点 ：@fedzbar在其@GoogleDeepMind实习期间领导的研究揭示了Decoder-Only Transformers 在复制和计数等任务中的基本弱点。该研究还提出了简单的方法来提高其性能，详细信息见tweet by PetarV_93。

HackerNews:

基因疗法恢复遗传性耳聋儿童的听力 链接：本文讨论了一项临床试验，其中基因疗法成功恢复了遗传性耳聋儿童的听力。

讨论亮点：

作用机制 ：该疗法涉及注射一种腺相关病毒（AAV） ，该病毒被设计为携带并传递功能性的人类OTOF转基因 到儿童的内耳中。
基因整合 ：一些病毒，如慢病毒和AAV ，将其DNA注入细胞并将其载荷DNA直接拼接到细胞的染色体中，使基因表达在细胞或其后代存活期间永久存在。
CRISPR技术 ：CRISPR被强调为一种工具，帮助将DNA整合到基因组中的特定位置，由特定序列引导。
未来潜力 ：人们对基于AAV和CRISPR 的其他治疗方法的潜力感到兴奋，并对应用于如ALS等疾病的兴趣浓厚。
伦理和实际考虑 ：讨论包括在解决当前健康问题 和探索美容基因改造 之间的平衡。一些人主张在追求如翅膀或其他非必要改造之前，先解决现有的健康问题。

Betula 链接：Betula是一款免费的联邦自托管单用户书签软件，旨在组织书签或维护链接日志。讨论亮点：

书签管理器 ：用户分享了各种替代方案，如Grimoire, BookmarkOS, Wakelet, Raindrop, Booky, Knowies, CarryLinks, Zotero, Pinalist, Ggather, Lasso, OneKeep ，以及一个定制解决方案Django-link-archive 。
联邦和搜索 ：一位用户尝试使用ActivityPub 进行联邦化的类似项目，但发现其复杂，选择了更简单的HTTP/REST 模型。目标是一个独立索引的高质量网页的小型联邦。
书签问题 ：常见问题包括忘记书签和需要基于上下文的检索 。建议的解决方案包括纯文本可搜索快照 和页面内容的AI分析 。
标签和搜索 ：用户表达了对标签书签 和更好与浏览器搜索功能集成的需求。Firefox支持标签但缺乏描述和移动支持。
定制解决方案 ：一些用户构建了自己的工具，如用于可视化和组织书签的Showboard ，以及用于在一页上显示所有书签以便于访问和搜索的One Page Favorites 。

Discord:

ComfyUI_LLMVISION Compromise ：ComfyUI_LLMVISION 库被Nullbulge 组织入侵，可能影响已安装用户。该库集成了GPT-4 和Claude 3 模型用于图像和文本交互。详细信息。

Layer Pruning in LLMs ：通过插值小模型的权重矩阵初始化大模型，可节省50%计算成本 ，提高训练效率，参考论文Learning to Grow Pretrained Models for Efficient Transformer Training。

Sign Descent Optimization ：使用Grokfast-EMA 算法的符号下降精确恢复LION 优化器，详见论文Noise Is Not the Main Factor Behind the Gap Between SGD and Adam on Transformers, but Sign Descent Might Be。

StableAudioWebUI Installation and Features ：StableAudioWebUI 提供一键安装程序，支持Float 16 低显存推理和多种采样器类型。安装链接。

LangChain and DashScope Reranker ：LangChain 和DashScope Reranker 通过过滤无关内容提高搜索准确性，适用于信息密集环境。详细信息。

BitBLAS Speedup Benchmark ：BitBLAS 在矩阵操作中显著优于供应商库，特别是在float16xnf4 GEMV 和GEMM 中，性能提升达4倍。基准测试。

DecoupleQ for 2-bit Quantization ：DecoupleQ 通过将参数分解为整数和浮点数实现2位后训练量化，包含CUDA内核 。仓库链接。

Real-time in-browser speech recognition with OpenAI Whisper ：使用Transformers.js 和ONNX Runtime Web 实现的OpenAI Whisper 实时浏览器内语音识别，支持多语言转录。演示和源码。

Training LoRAs and Checkpoints ：LoRAs 可用4GB VRAM 训练，成本约为**$1** ，而Checkpoints 至少需要12GB VRAM 。详细信息。

Layer Pruning Strategy ：移除LLMs中多达一半的层对性能影响最小，建议使用QLoRA 等参数高效微调方法修复模型。参考论文。

LangChain RAG Workflow ：LangChain 的RAG 工作流涵盖文档加载、文本分割、嵌入和存储，支持100多种文档加载器。文档加载器，数据连接。

Homomorphic Encryption and Zero-Knowledge Proofs ：讨论了同态加密 和零知识证明 在保护计算任务隐私中的应用，尽管计算开销大。详细信息。

Stop Strings Handling in LM Studio ：LM Studio 需立即响应停止字符串，问题与llama.cpp 后端相关，建议应用端字符串解析解决。详细信息。

Flash Attention for Qwen2 Model ：建议使用ChatML 并启用Flash Attention 以避免Qwen2 模型的性能问题。详细信息。

Intel IPEX-LLM for LLM Acceleration ：Intel IPEX-LLM 库支持在Intel CPU和GPU上低延迟运行LLMs，集成llama.cpp 、HuggingFace transformers 和LangChain 。库链接。

Training Cross-Encoders with Sentence-Transformer ：讨论了使用最新sentence-transformer 训练交叉编码器的经验，聚焦于高级NLP模型训练技术。详细信息。

Visualization Tool for Research Topics ：MIT开发的可视化工具帮助记者识别未被媒体覆盖的热门研究话题，工具开源并接受反馈。工具，GitHub仓库。

Model Arithmetic for Fine-Tuning ：通过计算L3 base 和L3 instruct 模型权重差异进行微调，效果优于直接微调instruct 模型。详细信息。

LangChain and DashScope Reranker ：LangChain 和DashScope Reranker 通过提高文档检索效率增强搜索能力。详细信息。

VNTL Leaderboard for Japanese Visual Novel Translation ：VNTL 排行榜根据128行翻译的余弦相似度评估LLMs的日文视觉小说翻译能力。排行榜。

Cluster of RK3588 Boards for LLM Training ：计划使用RK3588 SoC 创建6-7块板的集群，每块板具有16GB-32GB RAM 、8 CPU核 和4 GPU核 ，实现522 TOPS 。详细信息。

HuggingFace & Github:

动漫与图像生成

Kivotos XL 2.0 是Yodayo Kivotos XL系列的最新版本，基于Animagine XL V3 开源模型，专注于生成Blue Archive系列 的高质量动漫风格艺术作品。
- 开发者 ：Linaqruf
- 平台：ComfyUI或Stable Diffusion Webui
- 库：
  声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/木道寻08/article/detail/821768