【AIGC半月报】AIGC大模型启元：2024.05（上）_kan 神经网络

作者：你好赵伟 | 2024-05-07 23:25:57

踩

kan 神经网络

AIGC大模型启元：2024.05（上）

(1) Video Mamba Suite（Mamba视频领域应用）

2024.05.01 来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作。他们全面审视了 Mamba 在视频建模中的多重角色，提出了针对 14 种模型 / 模块的 Video Mamba Suite，在 12 项视频理解任务中对其进行了深入评估。结果令人振奋：Mamba 在视频专用和视频 - 语言任务中均展现出强劲的潜力，实现了效率与性能的理想平衡。这不仅是技术上的飞跃，更是对未来视频理解研究的有力推动。
　　研究团队精心打造了 video-mamba-suite（视频 Mamba 套件）。该套件旨在补充现有研究的不足，通过一系列深入的实验和分析，探索 Mamba 在视频理解中的多样化角色和潜在优势。

(2) KAN（全新神经网络架构）

2024.05.02 一种全新的神经网络架构KAN，诞生了！与传统的MLP架构截然不同，且能用更少的参数在数学、物理问题上取得更高精度。
　　在函数拟合、偏微分方程求解，甚至处理凝聚态物理方面的任务都比MLP效果要好。
　　而在大模型问题的解决上，KAN天然就能规避掉灾难性遗忘问题，并且注入人类的习惯偏差或领域知识非常容易。
　　来自MIT、加州理工学院、东北大学等团队的研究一出，瞬间引爆一整个科技圈：Yes We KAN！

推荐文章： 全新神经网络架构KAN一夜爆火！200参数顶30万，MIT华人一作，轻松复现Nature封面AI数学研究version=4.1.22.6014&platform=win&nwr_flag=1#wechat_redirect)
项目链接： https://kindxiaoming.github.io/pykan/
论文链接： https://arxiv.org/abs/2404.19756

(3) Meshy 3（文本生成3D模型）

2024.05.01 文本生成3D模型Meshy 3重磅发布，目前可免费试用，UI、提示词都支持中文。
　　本次，Meshy 3生成的3D模型更加细腻逼真，支持360度全景观超分辨率贴图、纹理、位移、法线、曲率以及物理光照渲染效果。
　　也就是说，用户可以像雕塑那样去生成3D模型，并且可下载fbx、obj、glb、usdz等文件格式放在不同场景中使用。

推荐文章： 支持中文，免费试用！文本生成360度，物理光照3D模型
项目链接： /
论文链接： /
免费体验地址： https://app.meshy.ai/zh/discover

(4) MemGPT（LLM记忆管理框架）

2024.05.02 根据《MemGPT：将大语言模型作为操作系统》论文，其研发灵感来自于操作系统的分层内存系统，通过在快速和慢速内存之间移动数据来提供大内存资源的外观。MemGPT系统，智能地管理不同的内存层，以有效地在LLM的有限上下文窗口内提供扩展上下文，并利用中断来管理自身与用户之间的控制流。
　　MemGPT的研究者写道：“大型语言模型彻底改变了人工智能，但受到有限的上下文窗口的限制，阻碍了它们在扩展对话和文档分析等任务中的实用性。为了能够在有限的上下文窗口之外使用上下文，我们提出了虚拟上下文管理，这是一种从传统操作系统中的分层内存系统中汲取灵感的技术，该技术通过快速内存和慢速内存之间的数据移动提供大内存资源的外观。使用这种技术，我们引入了 MemGPT，这是一个智能管理不同内存层的系统，以便在 LLM 有限的上下文窗口内有效地提供扩展上下文，并利用中断来管理其自身和用户之间的控制流。我们在两个领域评估了受操作系统启发的设计，现代 LLM 的有限上下文窗口严重影响了其性能：文档分析，MemGPT 能够分析远远超出底层 LLM 上下文窗口的大型文档，以及多会话聊天，其中 MemGPT 能够分析远远超出底层 LLM 上下文窗口的大型文档。MemGPT 可以创建会话代理，通过与用户的长期交互来记忆、反映和动态发展。”

推荐文章： GitHub 8.9K Star，伯克利大学开源LLM记忆管理框架MemGPT
项目链接： https://github.com/cpacker/MemGPT
论文链接： https://arxiv.org/abs/2310.08560
免费体验地址： https://app.meshy.ai/zh/discover

(5) Vim（Vision Mamba(Mamba高性能视觉版)）

2024.05.03 来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba（Vim）。
　　在 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务上，与 DeiT 等成熟的视觉 Transformers 相比，Vim 实现了更高的性能，同时还显著提高了计算和内存效率。例如，在对分辨率为 1248×1248 的图像进行批量推理提取特征时，Vim 比 DeiT 快 2.8 倍，并节省 86.8% 的 GPU 内存。结果表明，Vim 能够克服对高分辨率图像执行 Transformer 式理解时的计算和内存限制，并且具有成为视觉基础模型的下一代骨干的巨大潜力。

推荐文章： 重磅！视觉Mamba正式收录顶会ICML 2024！
论文地址： https://arxiv.org/pdf/2401.09417.pdf
项目地址： https://github.com/hustvl/Vim

(6) InternVL 1.5（上海AI Lab多模态大语言模型）

2024.05.06 上海AI Lab 推出的 InternVL 1.5 是一款开源的多模态大语言模型 (MLLM)，旨在弥合开源模型和专有商业模型在多模态理解方面的能力差距。
　　与开源和闭源模型相比，InternVL 1.5 在 OCR、多模态、数学和多轮对话等 18 个基准测试中的 8 个中取得了最先进的结果。
　　论文称，InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型，特别是在与 OCR 相关的数据集中。

推荐文章： 上海AI Lab开源首个可替代GPT-4V的多模态大模型
论文地址： https://arxiv.org/abs/2312.14238
代码地址：

体验地址： https://internvl.opengvlab.com

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/551752