赞
踩
coop-intelligence 投稿量子位 | 公众号 QbitAI近年来,具身智能(如自动驾驶和机器人等自主智能体)取得了迅猛发展。然而,由于单个智能体的感知范围和计算资源有限,通常难以独立完成复杂任务。通过多智能体协作和与环境交互,协同智能能够显著提升智能体的智能化水平。例如,车路协同可以有效提升自动驾驶的安全性。因此协同具身智能也已引起行业的广泛关注。为此,清华大学智能产业研究院联合香港大学、斯坦福大学、上海AI Lab、香港中文大学、慕尼黑工业大学、北京航空航天大学和嬴彻科技等国内外多家单位实验室,将在ECCV 2024大会上联合举办以“协同智能”为主题的自动驾驶和机器人Works...
来源:http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247732934&idx=4&sn=dcf6ad43f6ea8670c43f5529d5a53cb6&chksm=e902c21278d639d60da2a744ed88c948f236d88a2310fc41342d1cb72d4728b367de649a4c08&scene=0&xtrack=1#rd
Datawhale分享推荐:黄玉琳,京东,Datawhale成员团队介绍我们是京东零售集团供应链算法优化团队,通过在人工智能与运筹优化领域的持续性技术革新,为京东自营千万级商品提供算法策略支持,实现了以用户为中心的供应链管理和更高效、更快速的响应。近期荣获了INFORMS Prize、2024 Gartner供应链技术创新奖(亚洲唯一企业)等行业大奖。我们渴望充满激情、怀揣技术梦想的同学加入这个大家庭,立足一线业务,深入发展技术,共同推动AI技术在供应链领域的落地应用。招聘岗位机器学习算法工程师岗位职责参与智能库存、履约、价格以及品类等算法体系搭建,深入了解和挖掘业务痛...
来源:http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247666401&idx=2&sn=4c41886c5439562986a0f7387c1e25c3&chksm=e92893d105e13d5d9499f4a722ac2cdafc92c1a2d65f19c083f3ec5496faba6f41e77baec3aa&scene=0&xtrack=1#rd
AlphaFold3发布后,尽管对于生物医药界意义深远,但对于业内的震撼似乎远远小于AlphaFold2。要知道,AlphaFold 2和AlphaFold 3之间有一个主要区别:验证方式。AlphaFold2当时在CASP14上进行盲测,打败其他对手而名声大噪;而AlphaFold3则使用了基准测试数据集,这些数据集通常被精心编译过。那么AlphaFold3究竟有哪些提升?近日,牛津大学的人工智能科学研究员兼生物化学老师Eric Schmidt发表了一篇关于AlphaFold3的深度测评文章。Eric对AlphaFold3的模型架构和技术细节进行了研究,并且推测哪些是重要的,哪些是不重要的。...
来源:http://mp.weixin.qq.com/s?__biz=MzkzMDQyNTY0Mw==&mid=2247505458&idx=1&sn=3b68710a869fc15dd89d0913645f6fcf&chksm=c3b97b7762b33ac878d079f44b498dda5c6ebc1d122d12bcd92f7260890aa067a870684b405b&scene=0&xtrack=1#rd
Datawhale线下主办方:讯飞开放平台、Datawhale武汉市,长江之滨的璀璨明珠,历史与现代交融的活力之城。这里,两江交汇,三镇辉映,樱花盛开,美食飘香。AI+X 主题活动今年将走进 10 个城市,100 所高校,武汉是继北京、深圳、上海、杭州后第五个城市。见面交流关注Datawhale的小伙伴们,武汉面基啦。这次也邀请了Datawhale产学研各界的朋友一起来线下见面交流。1. 刘禹良,华中科技大学人工智能与自动化学院研究员、博士生导师,入选2023年度美国斯坦福大学“全球前2%顶尖科学家榜单”,华科大“Monkey”多模态大模型主要完成人之一(Monkey曾...
来源:http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247666494&idx=1&sn=31b14ba63e061a60386bfb824a7a238c&chksm=e9e295f8cd98027fc14d0af0ea4fe07efb0c84aed71432c169243ab6aa5b0402bbb2926172a5&scene=0&xtrack=1#rd
导语物理学中有两类普适力学——量子力学和狭义相对论。本文作者认为,生物中所谓的“自然选择原理”也是一个普适力学。研究发现,生物演化的动力学过程可以由一组简洁、有结构的数学方程所概括。在这个普适力学规范下,有序和无序,或熵和“负熵”,统一起来了,生命现象是可能的,至少在这个意义下,达尔文力学可以称为生命的力学。这个受生物启发而建立的达尔文力学或演化力学可作为期待已久的统计力学的普适动力学基础,对于体系自由度从 N=∞ 到 N=1 都适用。研究领域:达尔文力学,演化力学,统计力学,动力学,普适力学敖平| 作者科学杂志1915| 来源1950年代初,李政道先生和杨振宁先生在物...
来源:http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247692155&idx=1&sn=635a815775d14caaee2003ad0b7e5b32&chksm=e98c2277229a6f2d47635715ed82dfd63f4b6fd0b380b6bfad944560df3963be7bd05f6237c4&scene=0&xtrack=1#rd
苹果此次基于大模型推出的AI功能,与国内手机厂商相比在应用实现上有何区别?
来源:https://www.infoq.cn/article/Ty5Ae8jfB6Z4cYNA1KIU
构建世界知识可以不经过语言,直接让模型通过观察世界自己发现规律。
来源:https://www.infoq.cn/article/wpuQwSLaDd8zI7IpQp4J
抖音、剪映等,Seed-TTS 都会逐渐提供支持。
来源:https://www.infoq.cn/article/40fuFXufgETiAuDu8Ntd
可怕的是这些主张很可能得到了OpenAI员工乃至硅谷不少技术投资者的支持。
来源:https://www.infoq.cn/article/HgI7G6Oth4C6PS4bsqR7
大模型以及对应的大数据、大算力,带来了训练推理效率和成本的巨大压力。
来源:https://www.infoq.cn/article/FA0iHBPehJsZZ3Xk1HiY
盘点 20 款最流行的AI搜索应用,你最喜欢哪几个? [图片] 国内秘塔AI搜索 https://metaso.cn/ 好用,免费,国内 Top 水平 天工AI (昆仑万维) https://www.tiangong.cn/ 好用,免费,技术实力 Top 且快速升级中 简单搜索 App (百度) https://secr.baidu.com/ 只有手机版,规规矩矩的一款AI增强搜索应用 360 AI 搜索 https://so.360.com 最近数据增长蛮快的,综合体验比较流畅 澜舟AI搜索 https://ai-search.langboat.com 中规中矩 BrainStorm …
来源:https://zhuanlan.zhihu.com/p/698345703
[图片] 社区里几百人玩一款AI游戏的场面,值得记录一下! 大模型游戏化极度看重〖有趣〗程度。可有趣的灵魂那么难得,以至于只要一眼,我们就在产品的海洋里发现了 ta 。1. 有趣的灵魂在发疯疯疯 《换你来当爹》是一款全员发疯的AI游戏,主线任务是任意设定一个角色,然后把他培养成「大孝子」!灵感估计来源于男生大学宿舍里互相喊「爸爸」的传统?看到设定的一瞬间,会心一笑 游戏最初在即刻平台出圈,随后传回微信社群,并成功激发起…
来源:https://zhuanlan.zhihu.com/p/697856247
日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦!1. 换你来当爹:国内第3款爆火出圈的AI游戏应用,hhh 太搞笑了 [图片] 周末的时候,社群里伙伴们开始玩一款「 换你来当爹」的AI游戏 进入游戏界面后,输入名字,系统随机生成孩子的「出生设定」。 然后恭喜你!可以开始当爹了!! 好大儿的培养过程,伴随着各种糟心的意外,然后把难题摆在你面前。 哎呀呀!逆子… 这时,你可以在系统给定的两个选项中选择一个,当然也…
来源:https://zhuanlan.zhihu.com/p/697655366
日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦! 1. 终于来了!OpenAI 周一官网直播,ChatGPT 和 GPT-4 上新啦! [图片] Sam Altman 和 OpenAI 近期一直在造势,演讲、访谈、小更新等动作不断。终于!官方推特宣布,将于 美西时间5月13日上午10点 (⏰ 北京时间5月14日凌晨1点) 在 OpenAI 官网进行直播,演示 ChatGPT 和 GPT-4 的更新。 到底会更新什么呢?!!各方还在猜来猜去。@indigo 的猜测帖 传播度很广,精选…
来源:https://zhuanlan.zhihu.com/p/697448133
日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦! 1. CB Insights 发布「AI 100 2024」榜单,评选出全球最有前途的 100 家人工智能公司 [图片] CB Insights 是全球知名的市场情报分析机构,以其深入的数据分析、前瞻性的行业洞察而著称。CB Insights 最近发布了「AI 100 2024 」榜单,综合考虑了公司交易活动、行业合作伙伴关系、团队实力、投资者实力、专利活动、专项评分等数据维度,并结合 CB Insights 调研和访谈,…
来源:https://zhuanlan.zhihu.com/p/696949266
大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。
来源:https://www.aminer.cn/research_report/665fc8bac028d8419b0a4168
本文探讨了大模型的发展历程,介绍了作者团队研发的GLM-4大模型,并针对AGI研究面临的挑战对AGI未来发展提出了一些思考。
来源:https://www.aminer.cn/research_report/665fc671c028d8419b0a3f77
别担心,AMiner AI会帮助你高效检索和阅读文献!
来源:https://www.aminer.cn/research_report/665d2bd6c028d8419b08ba06
想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?
来源:https://www.aminer.cn/research_report/665555cec028d8419b0438c5
AMiner AI,一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中,让科研变得更加有趣和高效!
来源:https://www.aminer.cn/research_report/664c3a53707801418e87e415
Industry Perspectives Recently, generative AI (GAI), with their emerging capabilities, have presented unique opportunities for augmenting and revolutionizing industrial recommender systems (Recsys). Despite growing research efforts at the intersection of these fields, the integration of GAI into industrial Recsys remains in its infancy, largely due to the intricate nature of modern industrial Recsys infrastructure, operations, and product sophistication. Drawing upon our experiences in successfully integrating GAI into several major social and e-commerce platforms, this survey aims to comprehensively examine the underlying system and AI foundations, solution frameworks, connections to key research advancements, as well as summarize the practical insights and challenges encountered in the endeavor to integrate GAI into industrial Recsys. As pioneering work in this domain, we hope outline the representative developments of relevant fields, shed lights on practical GAI adoptions in the industry, and motivate future research.
来源:http://arxiv.org/abs/2406.06475v1
Detection and Diagnosis: A Review As the manufacturing industry advances with sensor integration and automation, the opaque nature of deep learning models in machine learning poses a significant challenge for fault detection and diagnosis. And despite the related predictive insights Artificial Intelligence (AI) can deliver, advanced machine learning engines often remain a black box. This paper reviews the eXplainable AI (XAI) tools and techniques in this context. We explore various XAI methodologies, focusing on their role in making AI decision-making transparent, particularly in critical scenarios where humans are involved. We also discuss current limitations and potential future research that aims to balance explainability with model performance while improving trustworthiness in the context of AI applications for critical industrial use cases.
来源:http://arxiv.org/abs/2404.11597v2
to the Medical Triage Domain In difficult decision-making scenarios, it is common to have conflicting opinions among expert human decision-makers as there may not be a single right answer. Such decisions may be guided by different attributes that can be used to characterize an individual's decision. We introduce a novel dataset for medical triage decision-making, labeled with a set of decision-maker attributes (DMAs). This dataset consists of 62 scenarios, covering six different DMAs, including ethical principles such as fairness and moral desert. We present a novel software framework for human-aligned decision-making by utilizing these DMAs, paving the way for trustworthy AI with better guardrails. Specifically, we demonstrate how large language models (LLMs) can serve as ethical decision-makers, and how their decisions can be aligned to different DMAs using zero-shot prompting. Our experiments focus on different open-source models with varying sizes and training techniques, such as Falcon, Mistral, and Llama 2. Finally, we also introduce a new form of weighted self-consistency that improves the overall quantified performance. Our results provide new research directions in the use of LLMs as alignable decision-makers. The dataset and open-source software are publicly available at: https://github.com/ITM-Kitware/llm-alignable-dm.
来源:http://arxiv.org/abs/2406.06435v1
Considerations in the Intersection of Large Language Models and Social Robotics The integration of Large Language Models (LLMs) in social robotics presents a unique set of ethical challenges and social impacts. This research is set out to identify ethical considerations that arise in the design and development of these two technologies in combination. Using LLMs for social robotics may provide benefits, such as enabling natural language open-domain dialogues. However, the intersection of these two technologies also gives rise to ethical concerns related to misinformation, non-verbal cues, emotional disruption, and biases. The robot's physical social embodiment adds complexity, as ethical hazards associated with LLM-based Social AI, such as hallucinations and misinformation, can be exacerbated due to the effects of physical embodiment on social perception and communication. To address these challenges, this study employs an empirical design justice-based methodology, focusing on identifying socio-technical ethical considerations through a qualitative co-design and interaction study. The purpose of the study is to identify ethical considerations relevant to the process of co-design of, and interaction with a humanoid social robot as the interface of a LLM, and to evaluate how a design justice methodology can be used in the context of designing LLMs-based social robotics. The findings reveal a mapping of ethical considerations arising in four conceptual dimensions: interaction, co-design, terms of service and relationship and evaluates how a design justice approach can be used empirically in the intersection of LLMs and social robotics.
来源:http://arxiv.org/abs/2406.06400v1
Workflows Scientific innovation relies on detailed workflows, which include critical steps such as analyzing literature, generating ideas, validating these ideas, interpreting results, and inspiring follow-up research. However, scientific publications that document these workflows are extensive and unstructured. This makes it difficult for both human researchers and AI systems to effectively navigate and explore the space of scientific innovation. To address this issue, we introduce MASSW, a comprehensive text dataset on Multi-Aspect Summarization of Scientific Workflows. MASSW includes more than 152,000 peer-reviewed publications from 17 leading computer science conferences spanning the past 50 years. Using Large Language Models (LLMs), we automatically extract five core aspects from these publications -- context, key idea, method, outcome, and projected impact -- which correspond to five key steps in the research workflow. These structured summaries facilitate a variety of downstream tasks and analyses. The quality of the LLM-extracted summaries is validated by comparing them with human annotations. We demonstrate the utility of MASSW through multiple novel machine-learning tasks that can be benchmarked using this new dataset, which make various types of predictions and recommendations along the scientific workflow. MASSW holds significant potential for researchers to create and benchmark new AI methods for optimizing scientific workflows and fostering scientific innovation in the field. Our dataset is openly available at \url{https://github.com/xingjian-zhang/massw}.
来源:http://arxiv.org/abs/2406.06357v1
苹果与OpenAI合作将ChatGPT整合到苹果生态系统 :OpenAI 与苹果 合作,将ChatGPT 整合到iOS、iPadOS和macOS ,预计今年晚些时候推出。这一整合将使用户能够在苹果设备上使用ChatGPT,增强其AI能力 (source)。
苹果的AI整合和个人助手开发 :苹果 正在利用Apple Intelligence和Siri 构建一个个人助手 ,以在其设备上创建无缝的AI体验。该计划包括多模态I/O 、代理能力 和注重隐私的设备内智能 ,详细信息见chiefaioffice的推文和mervenoyann的进一步阐述。
苹果的Ferret-UI多模态模型 :苹果发布了一篇论文,详细介绍了"Ferret-UI",这是一种多模态视觉语言模型 ,能够理解iOS设备上的图标、部件和文本,预计将增强Siri的能力。这一发展在Jim Fan的推文中被强调,并在WWDC活动中由Tim Cook进一步讨论。
苹果的AI战略和OpenAI合作 :在即将到来的WWDC 2024 上,苹果预计将宣布与OpenAI 的合作,旨在解决Siri的不足并增强其AI能力。这一战略举措在TechCrunch文章中进行了讨论。
苹果的AI模型在Hugging Face Hub上发布 :苹果通过在Hugging Face hub上发布四个新AI模型 ,标志着其AI战略的重要一步。这一发展由Clement Delangue和Scobleizer分享。
Whisper WebGPU用于实时浏览器语音识别 :OpenAI Whisper 已实现通过WebGPU 在浏览器中进行实时语音识别 。该模型支持超过100种语言,并完全在设备上运行,确保数据隐私 (source)。
BaseChat by URIAL与基础LLM互动 :BaseChat 是URIAL 推出的新工具,允许用户在不进行对齐微调的情况下与基础LLM 互动。该工具旨在提供有关预训练期间学习的知识和技能以及对齐微调效果的见解 (source)。
Prometheus-2:用于RAG应用的开源评估器 :Prometheus-2 是为RAG(检索增强生成)应用 设计的开源评估语言模型 。它与人类对GPT-4 和Claude3 的评估高度相关且一致,是评估LLM的可靠工具 (source)。
LangChain使用PowerPoint进行RAG :LangChain 利用PowerPoint演示文稿 构建RAG(检索增强生成) 系统。这涉及使用HuggingFace 技术处理非结构化数据,以增强PowerPoint在AI应用中的实用性 (source)。
LLM在简单任务上的推理失败 :一项研究揭示了大型语言模型(LLM) 如GPT-3.5/4、Claude等在简单任务(如"爱丽丝梦游仙境"问题)上的显著推理失败,尽管它们在标准化基准测试中表现良好。这一问题由rohanpaul_ai和NandoDF详细讨论,强调了需要新的基准来更好地评估LLM的推理能力。
MIT的AI研究鲸鱼语言 :MIT的科学家们正在使用人工智能 研究抹香鲸的语言,发现它们的通信系统复杂且类似于人类语言。这项研究由ACCIONA_EN分享,并在AI进展的背景下进一步讨论。
视频生成技术的进展 :视频生成技术 的进展显著,工具如Sora、Veo和Kling被比作视频领域的GPT-2。未来的进展可能达到GPT-4水平,能够实现视频推理、多模态摘要和物理模拟,如NandoDF和chiefaioffice所讨论。
苹果与Google的Gemini未来合作 :苹果确认计划与Google的Gemini 合作,表明了一个旨在推进AI功能的战略伙伴关系。这一合作在TechCrunch报告中被强调。
LangChain的WebRTC AI语音聊天 :LangChain 展示了使用WebRTC、语音转文本和文本转音频技术构建AI语音聊天应用的潜力。实验室详细信息由LangChainAI强调,展示了互动AI应用的潜力。
苹果的本地模型和安全云 :苹果的State of the Union揭示了一个3B参数SLM ,使用为特定功能训练的适配器,并采用扩散模型为每种风格使用适配器。这些模型在本地或苹果的安全云 上运行,与OpenAI 模型有所区别。更多信息见MaxWinebach的推文。
DiffusionAvatars将在CVPR 2024上展示 :DiffusionAvatars 项目为扩散模型添加了细粒度的3D控制,从多视角视频创建高保真3D头部头像,将在CVPR 2024 上展示。更多详细信息见TobiasKirschst1的推文。
NATURAL PLAN基准由Google推出 :Google推出了NATURAL PLAN ,这是一个自然语言中的现实规划基准,包括旅行规划、会议规划和日历安排 等任务。该基准对最先进的模型构成挑战。更多信息见arankomatsuzaki的推文。
Meta的综合RAG基准(CRAG) :Meta推出了CRAG ,这是一个包含4,409个QA对和模拟Web和知识图谱(KG)搜索的模拟API的事实QA基准 。该基准旨在增强对检索增强生成模型的评估,如arankomatsuzaki的推文所强调。
LLM-POET:使用大型语言模型进化复杂环境 :一篇名为LLM-POET 的新论文提出了一种在开放式进化 中使用大型语言模型(LLM)的新方法。该方法旨在进化复杂环境,由ciaran_regan_宣布。
重现GPT-2(124M)的视频讲座 :karpathy 的详细4小时视频讲座 介绍了从头开始重现GPT-2(124M)的过程,涵盖网络构建、优化和评估。讲座在YouTube上可观看,并包括一个全面的GitHub仓库以供逐步代码更改。
Intel的L-MAGIC用于360度全景场景生成 :Intel的L-MAGIC 可以从单个输入图像和文本提示生成360度全景场景 ,支持深度图和草图等多种输入模式。更多详细信息见dreamingtulpa的推文。
动态3D高斯用于持久动态视图合成的跟踪 :Jonathon Luiten 介绍了一种使用3D高斯建模动态场景的新方法,增强了高斯喷溅 以实现准确的新视图合成和密集的3D轨迹。详细方法见论文和soumithchintala的推文。
安卓控制数据集由Google DeepMind推出 :Google DeepMind推出了ANDROIDCONTROL ,这是一个包含15,283个人类演示的任务数据集,涵盖833个安卓应用,旨在提高计算机控制代理的性能。该数据集允许研究代理在各种任务复杂性上的表现,详见Rohan Paul的推文。
Gsplat v1.0用于3D高斯喷溅 :Berkeley AI宣布了gsplat v1.0 ,这是一个高效的CUDA后端,用于3D高斯喷溅,提供高达2倍的训练速度和高达4倍的GPU内存使用减少。这一工具是实时渲染数百万高斯喷溅的重大进展,详见Ruilong Li的推文。
15,140个ChatGPT提示数据集 :一个包含15,140个ChatGPT提示 的新数据集已发布,来源包括Reddit和Discord。该数据集包括1,405个越狱提示,为研究AI互动提供了丰富的资源,详见Rohan Paul的推文。
高级知识图谱RAG工作坊 :由llama_index主持的高级知识图谱RAG特别工作坊,邀请了@tb_tomaz来自@neo4j,将涵盖属性图索引构建、查询和知识图谱代理。该课程旨在教授使用LlamaIndex属性图抽象进行知识图谱构建和查询,重点是对复杂问题的推理。
GitHub - haampie/libtree: ldd as a tree 链接: 这个仓库提供了一个工具,可以将 ldd
的输出以树状图的形式可视化,从而更清晰地查看库的依赖关系。讨论要点:
ldd 的行为 : 最新版本的 ldd
不会调用目标二进制文件,从而避免了任意代码执行的风险。libtree 手动解析 ELF 文件及其依赖项,确保分析更安全。
与其他工具的比较 : libtree 与 lddtree
和 objdump
等工具进行了比较,后者提供了来自 ELF 文件的原始数据,包括 VDSO 将搜索的库。
颜色编码 : 在 libtree 中,颜色表示特定状态:洋红色 表示排除的项目,蓝色 表示之前见过的依赖项。
VDSO 库 : libtree 不列出 linux-vdso.so.1
,因为它不是文件系统上的真实库,而是由内核映射以进行优化,不像 Windows 上的 kernel32.dll
是一个真实文件。
库搜索路径 : 依赖项通过多条路径找到,如 LD_LIBRARY_PATH, rpath, runpath ,而不仅仅是单个环境变量。libtree 帮助追踪这些路径以诊断缺失的依赖项。
GitHub - google/mesop 链接: 这个仓库用于贡献 google/mesop 的开发,这是一个用 Python 快速构建 Web 应用的工具。
讨论要点:
支持和官方状态 : “这不是一个官方支持的 Google 产品。” 这是 Google 员工的 20% 业余项目,没有正式的人员配置或支持。
使用案例 : 该工具适用于 AI 聊天演示 和快速原型设计,但不推荐用于生产级应用。
与其他工具的比较 : 用户将其与 Streamlit 和 Gradio 进行了比较,指出了功能上的相似之处。
技术问题 : 提出了关于 Python 中线程 的问题,以及由于全局解释器锁(GIL)可能导致的性能问题。建议使用事件循环和异步 I/O 以获得更好的性能。
文档和可用性 : 入门演示应用程序有断开的链接和不完整的文档,影响了可用性。
SD3模型变体和Ultra层 :Ultra 显著增强了2B模型 的细节和色彩,但成本高昂。未使用Ultra的2B模型质量较差,尤其在眼睛和整体细节上。详细信息
ControlNet概述和功能 :ControlNet通过添加额外条件(如人体姿势和构图)增强了Stable Diffusion 的图像生成能力。详细信息
Tooncrafter本地动画生成 :Tooncrafter 在高VRAM GPU(如RTX 3090)上生成平滑动画,并与ComfyUI 集成。设置详情
VAE在ComfyUI中的使用 :VAE编码器和解码器 在图像到图像任务中使用,编码器用于图像到图像任务,解码器用于从潜在空间到图像空间的转换。推荐示例
LlamaIndex中的混合检索 :使用VectorStoreQueryMode.HYBRID
进行混合检索的示例查询和代码片段由@farzzy528分享。
LlamaIndex的JSON查询引擎 :详细教程解释了如何利用JSON schema和JSONPath高效查询JSON数据。YouTube教程
AI隐私研究 :Bagel Network比较了可信执行环境(TEEs) 、安全多方计算(MPC) 、全同态加密(FHE) 和零知识机器学习(ZKML) 。Bagel的博客
在Azure上保护RAG管道 :@pavan_mantha1的教程介绍了使用Azure服务保护RAG管道,包括Azure服务主体 、Azure密钥保管库 、AKS管理的Qdrant集群 、ArizePhoenix 用于可观察性、Entra ID 用于身份验证和Azure OpenAI 用于安全LLM。博客链接
高级知识图谱RAG工作坊 :即将举行的高级知识图谱RAG工作坊将涵盖高层次属性图索引、图构建、检索和知识图谱代理。工作坊链接
文件组织器 :@seldo的开源CLI项目使用LLM描述文件,将其移动到描述性子目录,并分类到有用的文件夹中。GitHub链接
双A5500 GPU性能比较 :@ross_wheeler_56532分享了顶级设置和分支设置的训练损失和性能指标,分别为3.567863和3.565372,使用mpirun -n 2 train_gpt2cu
。
梯度累积对加速的影响 :@eriks.0595指出显著的梯度累积(8倍)导致的加速效果有限,建议在更快的GPU上减少全局规范调用。
NCCL对同一GPU多重排名的限制 :@eriks.0595提到自NCCL 2.5以来,多重排名不能使用同一GPU。NVIDIA GitHub问题
将CUTLASS集成到LLM.c中 :@ericauld建议将基本的CUTLASS函数集成到llm.c
中以优化张量核心操作。YouTube视频和示例代码
Intel Xeon处理器的AVX-512支持 :Intel Xeon W 2400和3400系列 支持AVX-512 ISAs 和FP16指令 ,适用于如llamafile 的项目。基准测试
AMD的AVX-512支持 :@eriks.0595和@as_ai讨论了AMD在Zen 4/5中的AVX-512 支持,尽管指令分解为256位步骤,但增加的寄存器空间有益。详细信息
BitBLAS与Torch Matmul性能比较 :@mobicham分享了BitBLAS 和Torch Matmul 在FP16解码中的基准测试,4-bit BitBLAS在大输入形状下实现或超过理论4倍加速,2-bit BitBLAS在非常大输入形状下表现更好。基准测试
TorchAO中的量化/稀疏技术 :@gau.nernst建议比较TorchAO 中所有支持的量化/稀疏技术,包括端到端速度/准确性基准测试。
oneDNN Graph与TorchScript推理 :@orion160正在更新性能调优指南,考虑是否移除使用oneDNN Graph与TorchScript推理 的部分,该功能在PyTorch中处于beta阶段,默认由IPEX启用,正在整合到Inductor (torch.compile) 中。详细信息
解释器命令行到聊天机器人Web界面 :@tsmith.tx考虑将解释器命令行体验转变为聊天机器人Web界面 ,可以在聊天中直接显示文件(如数据分析的图表),并在容器中运行解释器。
Qwen-VL模型概述和性能 :Qwen-VL由阿里云开发,是一个大规模视觉语言模型(LVLM) ,支持多语言对话、细粒度图像识别和理解 ,在零样本图像描述 和通用视觉问答(VQA) 任务中超越当前SOTA模型。技术备忘录
SELFGOAL框架 :Ruihan Yang等人的论文SELFGOAL: Your Language Agents Already Know How to Achieve High-level Goals介绍了一种通过动态分解任务为子目标的树结构来增强语言代理实现高层次目标的能力。
GPT计算机助手 :GPT计算机助手 是一个Python库,为Windows、macOS和Ubuntu提供类似ChatGPT的助手,支持创建自定义代理、添加自定义工具和支持各种模型。GitHub链接
MAX Graph中的量化 :最新更新支持预量化的GGML k-quants:Q4_0
、Q4_K
和Q6_K
,量化的矩阵乘法操作ops.qmatmul
支持这些格式。Llama 3管道和Quantize TinyStories管道
Mojo中的快速K均值聚类 :@dorjeduck分享了一篇博客文章,详细介绍了在Mojo中实现K均值聚类的过程,展示了向量化和并行化带来的性能优势。GitHub代码
Mojo夜间编译器更新 :新的夜间Mojo编译器版本2024.6.1005
已发布。更新使用modular update nightly/mojo
。详细变更和当前变更日志
并发文件下载无需Futures :@nick.sm提出了无需使用futures进行并发文件下载的替代方案,建议使用特殊关键字或内置函数接受多个闭包。@heyitsmeguys推荐使用when_all
发送器适配器处理并发操作。
Holodayo XL 2.1 是Yodayo Holodayo XL系列的最新版本,继Holodayo XL 1.0之后发布。这个开源模型基于Animagine XL V3 构建,专为生成高质量的动漫风格艺术作品而设计。
Holodayo XL 2.1 解决了Holodayo XL 2.0中的问题,如不良手部、不良解剖和过曝的艺术风格 。
该模型在ComfyUI或Stable Diffusion Webui平台 上使用,推荐用户使用特定标签来引导模型生成高质量、相关和美学上令人满意的图像。
训练过程中使用的关键超参数包括硬件、批量大小、梯度累积步数、噪声偏移、训练轮数、UNet学习率、文本编码器学习率、优化器和调度器 等。
Holodayo XL 2.1采用Fair AI Public License 1.0-SD许可证 。
来源:https://news.miracleplus.com/share_link/29632
刘子威在Twitter上宣布推出了Lumina-Next,这是一款先进的文本到图像生成模型,以其快速生成高分辨率图像的能力脱颖而出。值得注意的是,它还支持生成音乐(1D)和点云(3D),展示了其在图像创作之外的多功能性。该内容提供了一个实时演示、模型源代码、详细报告和视频演示的链接,为对最前沿AI生成模型感兴趣的人提供了全面的资源。这一进展意义重大,因为它代表了生成式AI领域的一大进步,提供了更好的性能和更广泛的创意可能性。对于AI和机器学习的爱好者和专业人士来说,探索Lumina-Next可能是一次有价值的时间投资。
来源:https://x.com/liuziwei7/status/1799846727534727649
FirmPilot最近完成了700万美元的A轮融资,这笔资金将用于通过其AI驱动的营销引擎赋能律师事务所和其他服务型中小企业。Blumberg Capital领投的这轮融资显示了AI在提升营销策略和潜在客户生成方面的巨大潜力。FirmPilot的技术通过分析竞争环境和市场趋势,帮助企业提高搜索结果排名并产生更多潜在客户,承诺能大幅降低营销成本并提高投资回报率。公司的成功得益于其引人注目的潜在客户生成数量和强劲的客户保留率。对于希望在数字营销竞争中保持领先的律师事务所和中小企业来说,FirmPilot提供了一种数据驱动、高效率的营销新选择,与传统的营销方法相比具有明显优势。
来源:https://www.prweb.com/releases/firmpilot-closes-7m-to-empower-law-firms-and-smbs-with-ai-driven-marketing-302166751.html
Tx-LLM代表了人工智能在药物发现颜色的重大进展。这个大型语言模型从PaLM-2进行了精细调整,其显著之处在于能够编码跨不同治疗模式的广泛知识。Tx-LLM之所以与众不同,是因为它在大量针对药物开发流程各个阶段的数据集上进行了训练,使其能够处理和预测多样化的化学和生物实体的属性。它的表现令人印象深刻,在大多数测试任务中与或超过了最先进的结果。特别是,在结合分子SMILES表示和文本的任务中表现出色,突显了它在制药行业中作为强大工具的潜力。对Tx-LLM的研究还揭示了模型大小、领域微调和提示策略的好处,表明它可能成为药物发现和开发的端到端解决方案。这些内容对人工智能和药理学领域的专业人士尤为重要,因为它指出了未来研究和应用的有希望的方向。
来源:http://arxiv.org/abs/2406.06316v1
WildBench是一种创新的基准评估框架,以真实用户查询为基础,用于评估大型语言模型(LLMs)的性能。由Bill Yuchen Lin及其团队开发,该框架独特之处在于从超过一百万个人-聊天机器人对话日志中获取任务,确保所提出的挑战既实用又与日常用户相关。WildBench引入了两个新的指标,WB-Reward和WB-Score,专为像GPT-4-turbo这样的先进LLMs量身定制,旨在提供更可靠和可解释的模型输出评估。
WildBench最值得注意的方面之一是其结构化评估方法,使用任务特定的检查表,并为分数提供详细解释,这是与过去更加不透明的评估方法有所不同。此外,该框架在减轻响应长度偏差方面的方法是一个体贴的补充,解决了模型比较中的常见问题。
WildBench的重要性得到了与人类投票的Elo评分的强相关性的强调,表明其自动评估与人类在具有挑战性的任务上的判断密切相关。对于那些对LLM评估的前沿感兴趣,特别是在聊天机器人性能方面,WildBench提供了一个引人注目且严谨的工具,承诺增进我们对模型在实际场景中能力的理解。
来源:http://arxiv.org/abs/2406.04770v1
Proofread:利用大语言模型自动修正键盘输入的文本错误 提升打字体验
来源:https://xiaohu.ai/p/9477
使用Domo AI 和Udio 创建动漫风格音乐视频的详细教程
来源:https://xiaohu.ai/p/9470
Apple Intelligence背后基础模型:一个约30亿参数的设备端模型和一个服务器端大模型
来源:https://xiaohu.ai/p/9447
苹果发布 Apple Intelligence 智能助手 深度个性化 支持跨应用交互操作
来源:https://xiaohu.ai/p/9439
iOS 18 推出了全新自定义选项 Apple Intelligence深度集成
来源:https://xiaohu.ai/p/9395
虽然这篇文章的标题称其为“最佳论文”,但实际上并非如此。我的目标是探索一篇真正的最佳论文应具备的特质。
来源:https://baoyu.io/translations/writing/the-best-essay
在 2024 年全球开发者大会上,我们向大家展示了苹果智能系统,这是一套深度融入 iOS 18、iPadOS 18 及 macOS Sequoia 的个人智能体系。这一系统集成了多个功能强大的生成式 AI,专为处理用户日常需求而设计,能够根据用户当前的活动实时调整。苹果智能中的基础模型经过专门微调,以优化各种用户体验,如文本编写、通知的排序与摘要、为家庭及朋友对话创造有趣的图像,以及简化应用间的交互操作。
来源:https://baoyu.io/translations/apple/introducing-apple-foundation-models
现在是使用大语言模型 (LLMs) 构建产品的激动人心的时刻。在过去的一年中,LLMs 的表现已经“足够好”可以应用于现实世界。LLMs 改进的速度,加上社交媒体上的大量演示,将推动预计到 2025 年 AI 投资达到 2000 亿美元。LLMs 的广泛可用性,让每个人,而不仅仅是机器学习工程师和科学家,都能在他们的产品中构建智能。虽然构建 AI 产品的门槛已经降低,但要创建那些不仅仅是演示效果好的产品,仍然充满挑战。
来源:https://baoyu.io/translations/llm/what-we-learned-from-a-year-of-building-with-llms
如何测试 Chrome 内置的 Gemini Nano 大语言模型
来源:https://baoyu.io/blog/ai/how-to-enable-gemini-nano-for-chrome
我用文字描述的方式请教 copilot 指导我写 R 代码(科研作图用),但效果不好。与此同时我查到一现成的完美代码,但因为看不懂,无法根据实际情况调整,所以也无法复现。这个时候我想让 copilot 帮我协调一下,即用现成的代码基础上根据我的说明进行调整,promote 我应该一次性说清楚,还是分多次?
来源:https://baoyu.io/blog/ai/qa-how-to-use-gpt-to-write-code
CodiumAI Cover-Agent: An AI-Powered Tool for Automated Test Generation and Code Coverage Enhancement!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。