当前位置:   article > 正文

大模型日报 2月29日_safety guard llama3

safety guard llama3

资讯

研究

基于神经网络的偏微分方程求解器新突破:北大&字节研究成果入选Nature子刊

https://mp.weixin.qq.com/s/9gYXYQ3M3cm-fxikvEcAhQ

近年来,基于神经网络的偏微分方程求解器在各领域均得到了广泛关注。其中,量子变分蒙特卡洛方法(NNVMC)在量子化学领域异军突起,对于一系列问题的解决展现出超越传统方法的精确度 [1, 2, 3, 4]。北京大学与字节跳动研究部门 ByteDance Research 联合开发的计算框架 Forward Laplacian 创新地利用 Laplace 算子前向传播计算,为 NNVMC 领域提供了十倍的加速,从而大幅降低计算成本,达成该领域多项 State of the Art,同时也助力该领域向更多的科学难题发起冲击。该工作以《A computational framework for neural network-based variational Monte Carlo with Forward Laplacian》为题的论文已发表于国际顶级期刊《Nature Machine Intelligence,相关代码已开源。

ICLR 2024 Spotlight|厦门大学、Intel、大疆联合出品,从网络视频中学习零样本图像匹配大模型

https://mp.weixin.qq.com/s/dNF6AeYHDnUh_AP3ZoVVVA

图像匹配是计算机视觉的一项基础任务,其目标在于估计两张图像之间的像素对应关系。图像匹配是众多视觉应用如三维重建、视觉定位和神经渲染 (neural rendering) 等的基础和前置步骤,其精确度和效率对于后续处理十分重要。传统算法(SIFT)在面临长基线或极端天气等复杂场景时,其匹配的准确度和密度往往有限。为了解决这些问题,近年来,基于深度学习的匹配模型逐渐流行。然而,由于缺乏大规模且多样化的具有真值标签的训练数据,目前的匹配模型通常是在 ScanNet 和 MegaDepth上分别训练室内和室外两个模型。这种针对特定场景的训练限制了模型对 zero-shot 场景的泛化,无法扩展至未知场景中。此外,现有的数据构建方法往往依赖于 RGBD 扫描或 SfM+MVS 进行重建,其效率和适用性有限,无法有效地扩展数据并用于模型训练。为了解决基于深度学习方法泛化性的问题,来自厦门大学、Intel、大疆的研究者们提出了 GIM: Learning Generalizable Image Matcher from Internet Videos。GIM 是第一个可以让匹配模型从互联网视频中学习到强泛化能力的训练框架。

陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存

https://mp.weixin.qq.com/s/KTCltdMi3HRwO_LoZvQOGw

陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法:它仅用8k大小的token文档进行训练,就能将Llama-2窗口扩展至128k。最重要的是,在这个过程中,只需要原来1/6的 内存,模型就获得了10倍 吞吐量。除此之外,它还能大大降低训练成本:用该方法对7B大小的羊驼2进行改造,只需要一块A100就能搞定。团队表示:希望这个方法有用、好用,为未来的LLM们提供廉价又有效的长上下文能力。

70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

https://mp.weixin.qq.com/s/z4YcN7UYBUJBhivuf70vmg

基因组是完整编码 DNA、RNA 和蛋白质的序列,这些序列协调整个生物体的功能。机器学习的进步与全基因组的海量数据集相结合,可以实现生物基础模型,加速复杂分子相互作用的机械理解和生成设计。斯坦福大学(Stanford University)和 Arc Institute 的研究人员开发了 Evo,这是一种基因组基础模型,可进行多模态和多尺度学习,能完成从分子到基因组规模的预测和生成任务。使用基于深度信号处理进步的架构,该团队将 Evo 扩展到 70 亿参数,单核苷酸字节分辨率的上下文长度为 131 KB。经过整个原核基因组的训练,Evo 可以概括分子生物学中心法则 () 的三种基本模态,从而可以执行零样本功能预测。Evo 还擅长多元素生成任务,该团队用 Evo 首次生成合成了 CRISPR-Cas 分子复合物和整个转座系统。利用从整个基因组中学到的信息,Evo 还可以在核苷酸分辨率下预测基因的必要性,并可以生成长度高达 650 kb 的富含编码的序列。

产业

LLaMa 3或将推迟到7月发布,剑指GPT-4,从Gemini吸取教训

过去的图像生成模型常被人们诟病人物主要以「白人」为主,而谷歌 Gemini 正在因为它的矫枉过正而深陷翻车风波。它「过度谨慎」的文生图结果会与历史事实出现极大偏差,让用户们瞠目结舌。谷歌表示,该模型变得比开发者预期的更加谨慎。这不仅体现在生成图片的问题上,还体现在常常将一些提示认作敏感提示,从而拒绝回答。在此事不断发酵时,这项安全与可用性如何平衡的难题也给 Meta 提出了巨大挑战。LLaMA 2是开源领域的「强中手」,更是 Meta 的招牌模型,一经发布即改变了大模型格局。现在,Meta 正在积极筹备 LLaMa 3,不过这得先解决 LLaMA 2 的遗留问题:回答有争议问题时表现过于保守。

优化药物发现的OpenFold训练

https://developer.nvidia.com/blog/optimizing-openfold-training-for-drug-discovery/

预测氨基酸序列的3D蛋白质结构一直是生物信息学中一个长期存在的重要问题。近年来,基于深度学习的计算方法已经出现,并且显示出了有希望的结果。在这些研究工作中,AlphaFold2是第一个达到与较慢的基于物理的计算方法相媲美结果的方法。它被《自然》杂志命名为2021年度方法。该模型是基于序列注意力机制的变体构建的,这种机制被其他当代深度学习模型广泛采用。OpenFold是AlphaFold2的第一个可训练的公开重实现,并且复现了AlphaFold2的结果。作为一个开源项目,OpenFold的发布使得全世界的研究人员能够应用并在这项技术上进行构建。

Morph Studio 与 Stability Al 合作推出 AI 电影制作平台

https://techcrunch.com/2024/02/28/morph-studio-lets-you-make-flims-using-stability-ai-generated-clips/

AI 视频初创公司 Morph Studio 推出了同名的人工智能电影制作平台并开启内测,该工具采用故事板的形式,用户可以通过输入不同场景的文本提示来创建和编辑镜头,并将它们组合成一个有凝聚力的叙述。Morph 与 Stability AI达成合作由其提供 AI生成视频模型,但 Morph 计划后续推出一系列生成视频模型供用户选择。Morph 将生成、编辑和交叉剪切的过程称为"工作流程”,用户可以在 Morph 的创作者社区中分享他们独特的电影制作工作流程,其他人只需更改 AI 提示即可复制和修改模板。

Adobe 推出生成式 AI音乐原型工具 Project Music GenAl Control

https://www.theverge.com/2024/2/28/24085551/adobe-project-music-genai-control-prototype-tool-hot-pod

周三在布鲁克林举行的 Hot Pod 峰会上,Adobe 宣布了新的生成式 AI实验项目:Project Music GenAl Control.一款新的原型工具,允许用户使用文本提示生成音乐,然后编辑音频,而无需跳转到专用编辑软件。

ARK 对话 Figure 创始人|最新估值 20 亿美元!为扩展人类能力,未来将数十亿台机器人推向世界

https://mp.weixin.qq.com/s/QmHLXCcNVIQsFKqX47bidw

Figure 创始人 Brett Adcock 是一名连续创业,此前创立的 AI 招聘软件 Vettery 以 1 亿美元被全球最大的招聘公司 Deco Group 收购,此后又创立了 eVTOL 公司 Archer,随后又成功 IPO。2022 年,Brett Adcock 创立了通用人形机器人 Figure,并且个人投入至少 1 亿美元,Figure 的目标是创造价格实惠且实用的人形机器人,让它们可以轻松融入制造、零售和仓库等商业领域。根据最新报道,Figure 在新一轮融资中筹集了约 6.75 亿美元,融资前估值约为 20 亿美元,OpenAI曾考虑收购 Figure,目前投资 500 万美元。

莫衷一是:让比尔·盖茨等一众富豪都投资的矿业公司,利用AI技术寻找到巨大的铜矿?

https://mp.weixin.qq.com/s/I626sGvPYHzYCukPemXzEQ

AI (人工智能) 不断颠覆人类认知的今天,AI似乎变得无所不能。比如在前段时间,就出现了一则 “AI找到世界级铜矿” 的新闻: “硅谷独角兽 酷波德金属(KoBold Metals) 利用AI技术在赞比亚的明戈巴项目(Mingomba copper project)上发现了巨型铜矿储量。这不仅是矿业勘探的一次重大突破,更是AI技术在资源开发领域成熟应用的里程碑。” 虽然知道AI厉害,会作诗绘画做视频,但没想到AI现在居然还能挖矿了?不过当人们仔细研究这一事件的时候,还是发现了一些不一样的端倪**。

推特

Mistral Mensch澄清公告:仍然致力领导开放重量模型,将会快速迭代

https://x.com/arthurmensch/status/1762818733016322168?s=20

澄清我们最新公告的几个问题,因为我们看到了一些创意解读:

  • 我们仍然致力于领导开放重量模型!我们请求一点耐心,1.5k H100s 只能让我们走到这一步。

  • 我们与微软有一个转售协议,我们对此感到非常兴奋。与类似的合作伙伴关系一起,它将加速我们的增长。

  • 微软与许多其他公司一起,作为一个分销伙伴,投资了一笔小额可转换票据。我们是一家拥有全球雄心的独立欧洲公司,这一部分也不会改变。

我们看到 Le Chat 和 Mistral Large 在 la Plateforme 和 Azure 上都有一些兴趣,我们将会快速迭代!

BigCode 正式推出 StarCoder2:一系列新一代的开放源代码大语言模型

https://x.com/osanseviero/status/1762845923636318649?s=20

BigCode 正式推出 StarCoder2 —— 一系列新一代的开放源代码大语言模型(LLMs)。这些模型全部基于一个全新、大规模且高品质的代码数据集 The Stack v2 进行训练。我们不仅公开了所有的模型和数据集,还包括了数据处理和训练代码的详细信息,详情请参阅 相关论文

DeepLearning AI新课程:Amit Sangani教授Llama 2提示工程

https://x.com/AndrewYNg/status/1762879627633287477?s=20

新的短期课程:与Meta合作建立的“Llama 2提示工程”课程,由Amit Sangani教授!Meta的Llama 2对AI产生了颠覆性的影响。使用开源构建可以让你控制自己的数据,审查错误,根据需要更新(或不更新)模型,并与全球社区一起推进开放模型的发展。

Llama不是一个单一模型,它是一个模型集合。在这个课程中,你将:

  • 学习不同Llama 2版本之间的区别,以及何时使用每种版本。

  • 提示Llama聊天模型——你还将看到Llama的指令标签如何工作——以便它们可以帮助你完成日常任务,如写作或总结。

  • 使用高级提示,如用于分类的少量示例提示,以及用于解决逻辑问题的思路链提示。

  • 使用Llama集合中的专用模型完成特定任务,如Code Llama帮助你编写、分析和改进代码,以及Llama Guard,它检查提示和模型响应中的有害内容。

课程还涉及如何在你自己的电脑上本地运行Llama 2。

我希望你能参加这个课程,并尝试这些强大的开放模型!

https://deeplearning.ai/short-courses/prompt-engineering-with-llama-2

暂时无法在飞书文档外展示此内容

Adam Wolff分享在Meta担任总监的故事

https://x.com/dmwlff/status/1762885255030259854?s=20

我在@Meta担任总监的时间已经结束了。

但我是作为FB聊天的一名工程师开始的。

关于它的一切都是破碎的 — 我们不得不重写它。

而尽管修复它的努力是导致@reactjs的项目之一,但最重要的修复远比这更简单...


Wolff讲述了FB聊天系统的诸多问题,特别是用户界面(UI)的问题,这促使他们重写前端和后端。这个过程不仅带来了@reactjs的诞生,还解决了FB聊天的根本问题,即通过建立可观测性,解决了导致消息丢失的DNS服务器错误。他强调了可观测性的重要性,以及如何通过持续迭代的过程发现和解决问题,最后讨论了数据驱动与以数据为依据的过程之间的区别。

Meta Reality Labs:基于腕带的sEMG神经网络解码模型

https://x.com/SussilloDavid/status/1762960425392513059?s=20

在过去的十年里,我们Meta Reality Labs(之前的CTRL-labs)的团队致力于开发一种神经运动接口。

我们的目标是解决人机交互的挑战,提供无劳累、直观且高效的计算机输入方式。

我们开发了一种腕带设备,可以轻松佩戴并取下,通过表面肌电图(sEMG)非侵入性地感测手腕和手部的肌肉活动。sEMG技术使用皮肤上的金属接触点来检测肌肉活动,允许我们将有意的神经运动命令转换为计算机输入。

我们创建了基于腕带的sEMG神经网络解码模型,这些模型经过数千名参与我们研究的有偿志愿者的数据训练。

这些模型能在不同人之间泛化,消除了对每个人或每次会话校准的需求,这些历来都是生物信号接口的挑战。

暂时无法在飞书文档外展示此内容

Patrick Loeber分享本地运行打字助手,受“如何将你的打字速度提高5倍,并在打字时进入流状态”启发

https://x.com/patloeber/status/1762472665699213471?s=20

受到这条推文的启发,我用Ollama和Mistral 7B构建了我自己的本地运行打字助手。

它只用了大约100行Python代码就运行得非常好!

我还创建了一个视频,对每一步进行了详细解释:

  • 代码:https://github.com/patrickloeber/ai-typing-assistant

  • 博客文章:https://patloeber.com/typing-assistant-llm/

  • 编码教程:https://youtu.be/IUTFrexghsQ

暂时无法在飞书文档外展示此内容

Jason Wei:我的心智模型中的Sora,就像是视频生成的“GPT-2时刻”

https://x.com/_jasonwei/status/1762930762180161795?s=20

我的心智模型中的Sora,就像是视频生成的“GPT-2时刻”。

GPT-2在2018年推出,能够生成连贯且语法正确的文本段落。GPT-2无法在不犯错误的情况下写出一篇完整的论文,比如不一致或是虚构事实,但它激发了后续几代模型的发展。自GPT-2以来不到五年,GPT-4现在能够理解诸如思维链或写长篇论文而不虚构事实的技能。

同样的,今天的Sora可以生成短视频,这些视频既有艺术性又逼真。Sora目前还不能生成一个具有一致角色和引人入胜故事线的40分钟电视节目。然而,我相信,像维持长期一致性、接近完美的现实感和生成有实质内容的故事线这样的技能,将会在下一代Sora和其他视频生成模型中出现。

关于这将如何展开的几点预测:

  • 视频的信息密度不如文本,因此学习像通过视频进行推理这样的技能将需要更多的计算和数据

  • 因此,利用其他模态作为与视频相关联的信息将对引导学习过程至关重要

  • 就像高质量文本数据集一样,将会有大量对高质量视频数据的竞争

  • 拥有视频经验的AI研究人员将非常抢手,但他们将不得不适应新的范式,就像传统的自然语言处理研究者不得不适应语言模型扩展的成功一样

  • 电影产业的颠覆将类似于GPT-4如何改变写作(作为一个工具和辅助,超越了平均质量,但仍远不及专业人士的作品)

论文

StableLM 2 1.6B 技术报告

链接:http://arxiv.org/abs/2402.17834v1

我们介绍了 StableLM 2 1.6B,这是我们语言模型系列中的新一代。在这份技术报告中,我们详细介绍了导致StableLM 2 1.6B基础和指令调整版本的数据和训练过程。这两个模型的权重可通过Hugging Face下载和使用。报告包括对这些模型的全面评估,包括零-shot和少-shot基准测试,多语言基准测试以及重点放在多回合对话的MT基准测试上。在发布本报告时,StableLM 2 1.6B在2B参数下是遥遥领先的最先进的开放模型。鉴于其吸引人的小尺寸,我们还提供了在多台边缘设备上的吞吐量测量。此外,我们公开了几个量化检查点,并提供了它们与原始模型的性能指标比较。

研究类问题: LLM 网络 智能体 的多角度分解问题数据集

链接:http://arxiv.org/abs/2402.17896v1

现有的问答(QA)数据集对最强大的大语言模型(LLMs)来说已经不再构成挑战。传统的QA基准如TriviaQA、NaturalQuestions、ELI5和HotpotQA主要研究了“已知未知”问题,明确指出了缺失的信息以及如何找到答案。因此,在这些基准上取得良好表现会带来一种虚假的安全感。自然语言处理社区仍未满足的需求是一个包含大量不明确信息需求、即“未知未知”的非事实型、多角度问题库。我们声称可以在搜索引擎日志中找到这样的问题,这令人惊讶,因为大多数问题意图查询实际上都是事实型的。我们提出Researchy Questions,一个经过仔细筛选的非事实型、“分解性”和多角度的搜索引擎查询数据集。我们展示用户在这些问题上投入了大量“精力”,如点击和会话时长等信号,并且它们对于GPT-4也具有挑战性。我们还表明,“缓慢思考”的答题技巧,如分解成子问题来回答,比直接回答有益。我们发布了约100,000个Researchy Questions,以及被点击的Clueweb22网址。

大语言模型数据集:全面调查

链接:http://arxiv.org/abs/2402.18041v1

本文探讨了大语言模型(LLM)数据集,在LLM的显著进展中起着至关重要的作用。这些数据集类似于维持和培育LLM发展的根系基础设施。因此,对这些数据集的审查成为研究中的一个关键议题。为了解决当前对LLM数据集缺乏全面概述和彻底分析的问题,并获取对其当前状况和未来趋势的见解,本调查从五个角度整合和分类LLM数据集的基本方面:(1)预训练语料库;(2)指导微调数据集;(3)偏好数据集;(4)评估数据集;(5)传统自然语言处理(NLP)数据集。调查揭示了当前面临的挑战,并指出了未来研究的潜在方向。此外,还提供了对现有可用数据集资源的全面审查,包括来自444个数据集的统计数据,涵盖8个语言类别,跨越32个领域。数据统计中包含了来自20个维度的信息。调查范围涵盖的总数据量超过774.5 TB用于预训练语料库,其他数据集则包含700M个实例。我们旨在呈现LLM文本数据集的整体景观,作为这一领域的研究人员的综合参考,并为未来研究做出贡献。相关资源可在以下链接找到:https://github.com/lmmlzn/Awesome-LLMs-Datasets。

多模态分层预训练在视觉丰富的网页理解中的应用

链接:http://arxiv.org/abs/2402.18262v1

摘要:随着视觉丰富文档(如网页和扫描/数字文档(图片、PDF等)的普及,学术界和工业界对自动文档理解和信息提取的兴趣日益增加。本文介绍了WebLM,一个多模态预训练网络,旨在解决仅建模文本和HTML结构模态的局限性。与将文档图像处理为统一的自然图像不同,WebLM集成了文档图像的层次结构,以增强对基于标记语言的文档的理解。此外,我们提出了几个预训练任务,有效地建模文本、结构和图像模态之间的相互作用。实证结果表明,预训练的WebLM在几个网页理解任务中显著超越了以往的最先进预训练模型。预训练模型和代码可在 https://github.com/X-LANCE/weblm 获取。

如何逐步思考:链式推理的机制理解

链接:http://arxiv.org/abs/2402.18312v1

尽管大语言模型(LLMs)在Chain-of-Thought (CoT)提示下展示出优越的推理能力,但对于促进CoT生成的模型内部机制仍存在理解不足的情况。本研究从机械角度探讨了LLMs内部的神经亚结构,展示了LLMs在虚构本体论上运用多步推理时部署了多个平行路径的答案生成。这些平行路径提供了从输入问题背景和生成的CoT逐步生成答案。我们观察到LLM中间层存在明显的功能分裂。这种内部相位转换表现在不同的功能组件上。据我们所知,这是对LLMs中CoT推理进行机械研究的首次尝试。

循环神经网络 还不是Transformer(目前还不是):上下文学习中的关键瓶颈

链接:http://arxiv.org/abs/2402.18510v1

这篇论文研究了循环神经网络(RNN)和Transformer在解决算法问题时表示能力的差距。我们着重于理解RNN在处理长序列时的记忆效率是否可以与Transformer的性能匹敌,特别是在使用Chain-of-Thought(CoT)提示的情况下。我们的理论分析表明,CoT可以提高RNN的性能,但无法弥合与Transformer的差距。关键瓶颈在于RNNs无法完全从上下文中检索信息,即使有了CoT:对于一些明确或隐含需要这种能力的任务,如联想回忆和确定图是否为树形结构,我们证明RNNs的表达能力不足以解决这些任务,而Transformer可以轻松解决。相反,我们证明采用增强RNNs上下文检索能力的技术,包括检索增强生成(RAG)和添加单个Transformer层,可以使RNNs能够解决所有与CoT有关的多项式可解问题,从而弥合与Transformer的表示差距。

大语言模型中的巨大激活值

链接:http://arxiv.org/abs/2402.17762v1

我们观察到大语言模型(LLMs)中的一个经验现象——很少的激活显示出明显比其他激活大得多的值(例如,比其他激活大100,000倍)。我们称之为大量激活。首先,我们展示了大量激活在各种LLMs中的普遍存在,并对它们的位置进行了表征。其次,我们发现它们的值基本保持不变,而且在LLMs中起着不可或缺的偏置项作用。第三,这些大量激活导致注意力概率集中在它们对应的token上,同时在自注意力输出中起到隐式偏置项的作用。最后,我们还研究了Vision Transformer中的大量激活。

产品

Superhuman

https://superhuman.com/

Superhuman 是一款电子邮件客户端,它提供了一系列强大的功能,如即时回复、自动摘要、用声音写作等。Superhuman 旨在帮助用户更高效地处理电子邮件,提高回复速度和工作效率。通过结合人工智能技术,Superhuman 提供了许多创新的功能,使用户能够更快速地撰写、编辑和发送电子邮件。

Videotok

https://www.videotok.app/

Videotok 是一款简单的视频创作工具,可以帮助用户制作短视频和 TikTok 视频。它具有一些特色功能,如从文本开始创建视频、自动生成字幕、特效、AI 生成的声音和音乐等。此外,Videotok 还计划与各种平台集成,添加更多 AI 生成的效果和滤镜等功能。

HuggingFace&Github

R2R

https://github.com/SciPhi-AI/R2R

R2R 弥补实验性 RAG 模型与强大的生产就绪系统之间的差距。团队构建了 R2R 框架消除了复杂性,优先考虑简单性和实用性,为在生产中部署、调整和维护 RAG 管道提供了一条直接的途径。

ChatMusician

https://shanghaicannon.github.io/ChatMusician/

ChatMusician是一个集成了内在音乐能力的开源LLM软件。它基于对LLaMA2的持续预训练和微调,能够理解和生成音乐,将音乐视为第二语言。ChatMusician可以创作结构良好的全长音乐,以文本、和弦、旋律、主题、音乐形式等为条件,超越了GPT-4基线。在大学水平音乐理解基准MusicTheoryBench上,ChatMusician在零样本设置上明显超过了LLaMA2和GPT-3.5。该软件可以被视为LLMs在音乐领域的应用,展示了LLMs在音乐创作方面的潜力。

Craftax

https://github.com/MichaelTMatthews/Craftax

Craftax 是一个完全用 JAX 编写的 RL 环境。Craftax 重新实现并显着扩展了 Crafter 的游戏机制,从 NetHack 等 roguelike 游戏中汲取灵感。Craftax 符合 gymnax 接口,允许与现有的基于 JAX 的框架(如 PureJaxRL 和 JaxUED)轻松集成。

投融资

Glean完成超过2亿美元融资,估值达22亿美元 加速企业级生成AI部署

https://www.glean.com/blog/glean-series-d

Glean宣布完成超过2亿美元融资,估值达到22亿美元,由Kleiner Perkins和Lightspeed Venture Partners领投,包括现有投资者Sequoia Capital、新投资者Coatue、ICONIQ Growth和IVP、战略投资者Capital One Ventures、Citi、Databricks Ventures和Workday Ventures以及现有投资者General Catalyst在内的多方参与。Glean的AI驱动的工作助手利用先进的搜索和RAG技术提供最相关、最新的信息给LLMs,以产生高度个性化的回答,并建立在每个组织独特的企业知识图谱上。这轮融资将用于进一步开发安全且直观的企业AI平台,提高工作效率和生产力。

AI图像编辑器PhotoRoom完成4300万美元融资,估值达到5亿美元

https://techcrunch.com/2024/02/27/confirmed-photoroom-the-ai-image-editor-raised-43m-at-a-500m-valuation/

总部位于巴黎的AI图像编辑应用PhotoRoom确认完成了4300万美元的最新融资,估值达到5亿美元。这次融资由Balderton Capital领投,新投资者Aglaé和老投资者Y Combinator也参与其中。Photoroom的联合创始人及CEO Matthieu Rouif表示,Photoroom的AI照片编辑应用已达到1.5亿下载量,每年处理约50亿张图片。该公司计划利用这笔资金来扩大团队和继续投资于研发与基础设施。Photoroom目前有50名员工,计划在年底前翻倍。Photoroom专注于从头开始训练自己的模型,需要大量计算能力及与机构和创作者达成图像版权交易,并寻找更多技术人才以提升模型的效率和操作。新推出的Photoroom Instant Diffusion工具,帮助创造出风格统一的产品照片。

初创公司Ideogram获得8000万美元融资 用于发展AI图像生成技术

https://www.bnnbloomberg.ca/startup-ideogram-raises-80-million-for-ai-image-generation-1.2040466

多伦多初创公司Ideogram完成8000万美元A轮融资,由Andreessen Horowitz领投,Index Ventures、Redpoint Ventures、Pear VC和SV Angel跟投。一群前谷歌员工共同创立了Ideogram,致力于解决在图像生成中包含可识别文字的难题,比如制作可以阅读的标语或穿着印有明确字样T恤的可爱猫咪的图像。Ideogram也推出了新的AI软件,用于生成包含复杂、长篇文字的图像,并提供了“魔法提示”功能,通过扩充用户的简短提示来产生更好、更详细的图像。该资金将用于招聘和计算需求。

Assemblio筹集210万欧元种子轮资金

https://www.startbase.com/news/assemblio-sichert-sich-21-mio-e-in-seed-runde/ 总部位于斯图加特的初创公司Assemblio成功完成了210万欧元的种子轮融资。该轮融资由LEA Partners领投,并由Mätch VC、Cross Atlantic Angels、SilverScale Capital等投资者参与。Assemblio作为Fraunhofer IPA的一家衍生公司,致力于加快制造企业的装配计划。公司推出的平台运用装配信息模型(AIM),允许用户通过简单的拖拽动作来解构CAD文件,自动生成视频和PDF格式的装配计划,大幅度节省了传统的装配计划时间。Assemblio的客户群体主要集中在机械工程、汽车及医疗技术领域,诸如博世和克朗斯等客户已经开始应用这项技术,而其技术的多功能性预示着目标客户群的潜在扩张。

Intenseye刷新纪录,完成6400万美元B轮融资 加速推动AI变革工作场所安全

https://www.businesswire.com/news/home/20240227534107/en/Intenseye-Secures-Record-breaking-64M-Series-B-to-Advance-Its-Mission-of-Transforming-Workplace-Safety-With-AI

AI工作场所安全解决方案领导者Intenseye宣布完成由Lightspeed Venture Partners领投、Insight Partners、Point Nine以及Air Street Capital等现有投资者参投的总额6400万美元的B轮融资。资金将用于拓展技术生态系统、整合LLMs和移动支持,优化多种用例,并继续投资隐私创新,确保遵循道德AI和保护工人心理安全的承诺。Intenseye的AI平台24/7监控工作场所潜在安全风险,以防止相关伤害与疾病的发生,增强安全性和合规性。

联汇科技完成新一轮数亿元战略融资,响应「 AI 赋能产业焕新」

https://news.pedaily.cn/202402/530410.shtml

联汇科技完成了新一轮数亿元人民币的战略融资,投资方包括中国移动产业链发展基金中移和创投资等。这轮融资将用于多模态大模型和自主智能体的技术研发、产品创新及市场拓展,旨在扩大在运营商、能源电力、媒体等大B行业及重点细分市场的领先优势。联汇科技将响应国务院国资委“AI赋能产业焕新”的号召,加快技术赋能重点产业,推动智能经济形态的建设。

学习

【BBuf的CUDA笔记】十五,OpenAI Triton入门笔记三 FusedAttention

https://zhuanlan.zhihu.com/p/684557290?utm_medium=social&utm_oi=56635854684160&utm_psn=1746539829519716352&utm_source=wechat_timeline

这篇文章是关于OpenAI Triton的入门教程,主要介绍了如何使用Triton实现FlashAttention V2。文章通过对比Triton和cutlass实现版本的性能,展示了Triton在不同配置下的优势。同时,文章提供了FlashAttention V1/V2的Python极简实现,帮助读者理解代码流程。此外,文章还详细解读了Triton实现的FlashAttention V2 Forward Pass,包括其并行化策略和性能优化。最后,文章总结了FlashAttention V1/V2的原理,并提供了相关资料链接。

人工智能水印技术入门:工具与技巧

https://mp.weixin.qq.com/s/a7loCRioleww_X9nWeGisA

本文介绍了人工智能水印技术,旨在对抗深度伪造内容的传播。水印可以是可见或不可见的,用于标记AI生成内容的来源。文章讨论了数据投毒、签名技术以及开放与封闭水印的优缺点。介绍了Hugging Face Hub上的水印工具,包括图像、文本和音频水印。图像水印通过修改模型输出或在生成后添加,文本水印通过调整生成概率实现,音频水印则在特定频率上操作。这些技术有助于提高内容真实性的可追溯性。

二月份值得关注的大模型相关研究

https://mp.weixin.qq.com/s/Si56l4Imj0eaPdCzMh8PDQ

本文总结了2024年2月份值得关注的大模型相关研究,涉及多个领域。技术亮点包括开源文本嵌入模型Nomic Embed、国产DeepSeek-Coder系列模型、DeepSeekMath数学模型、强化学习算法GRPO、检索增强生成模型Corrective RAG、移动优化的文本到图像模型MobileDiffusion、Stable Cascade三阶段文生图算法、SDXL-Lightning蒸馏加速文生图模型、V-JEPA无监督视觉模型、Lumiere文本到视频生成模型、Genie基础世界模型、以及BASE TTS大规模文本到语音模型。这些研究展示了在自然语言处理、代码生成、数学推理、图像和视频生成、以及语音合成等方面的最新进展。

声明

本文档仅供学习交流使用,版权归原作者所有,若涉侵权,请联系Jack Jin 15101136166

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/597133
推荐阅读
相关标签
  

闽ICP备14008679号