7 月 26-28 日,Apache 将在杭州举办 CommunityOverCode Asia 2024(简称 CoC),该会议将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践。HyperAI超神经以合作社区的身份受邀参会,我们在现场为大家准备了精彩的打卡活动以及丰富的礼物周边,欢迎大家来展位互动~
福利来咯!我们为大家准备了 5 张价值 999 元的活动门票, 将以抽奖的形式进行发放,大家可以关注「HyperAI超神经」公众号参与抽奖。
7 月 15 日-7 月 19 日,hyper.ai 官网更新速览:
-
优质公共数据集:10 个
-
优质教程精选:2 个
-
社区文章精选:4 篇
-
热门百科词条:5 条
-
8 月截稿顶会:4 个
访问官网:hyper.ai
公共数据集精选
1. Test of Time 大模型时间推理能力的基准测试数据集
该数据集简称 ToT,分为三个子集:其中 ToT-semantic 包含 1,850 个示例、ToT-arithmetic 包含 2,800 个示例、ToT-semantic-large 包含 46,480 个示例,ToT 分别考察了 LLM 的时间理解和算术能力。
直接使用: https://go.hyper.ai/D5089
该数据集包含超过 5 万篇科学论文的图文数据,特别为交错图文阅读理解任务而构建。
直接使用: https://go.hyper.ai/DMmWq
该数据集包含 2,690 张带注释的图像(1,056 x 1,056 像素),可用于研究解决水果质量控制任务。
直接使用: https://go.hyper.ai/03ytr
4. GDHY 1981-2016 年全球主要作物历史产量数据集
该数据集提供了 1981 年至 2016 年期间全球主要农作物的历史产量数据,对于分析气候变化对农作物产量的影响、评估全球网格作物模型模拟以及提供全球和季节性作物预测系统的基础都具有重要价值。
直接使用: https://go.hyper.ai/xNzH3
该数据集由中国 40 多个不同地点的 42 张 OHS 卫星图像组成。训练集、验证集和测试集中分别有 4,822 、 513 和 2,460 个子图像。
直接使用: https://go.hyper.ai/OFxxR
该数据集由吉林一号卫星平台拍摄的高分辨率视频组成,具有 12,000×5,000 像素的分辨率,旨在推动卫星视频分析领域的技术进步,应对其中存在的挑战,如目标尺寸小、空间分辨率低、外观和纹理信息有限等问题。
直接使用: https://go.hyper.ai/LcMbH
该数据集是当前规模最大的 3D 医学图像分割数据集。它汇集了 72 个公开数据集,来自 CT、MR 和 PET 三种模态的 22K+ 图像, 302K+ 分割标注,涵盖了人体 8 个主要部位中的 497 个分割目标,实现了通过文本提示的放射学影像通用医疗分割模型。
直接使用: https://go.hyper.ai/aANbx
GAIA 由 450 多个具有明确答案的复杂问题组成,需要不同级别的工具和自主性才能解决。因此,它分为 3 个级别,其中 1 级可以被非常优秀的 LLM 攻克,而 3 级则表明模型能力有了很大的提升。每个级别都分为一个完全公开的开发集用于验证,以及一个包含私人答案和元数据的测试集。
直接使用: https://go.hyper.ai/VY3cU
该数据集包含「戴头盔」和「没戴头盔」2 个不同类别的 764 幅图像,可用于头盔检测任务。
直接使用: https://go.hyper.ai/QuMyR
该数据集是一个基于高光谱数据的土壤水分评估基准数据集,通过在德国卡尔斯鲁厄进行的为期 5 天的野外测量活动获得的,旨在研究和开发能够基于高光谱数据估算土壤水分含量的模型。
**直接使用: ** https://go.hyper.ai/fG77T
更多公共数据集,请访问:
公共教程精选
该模型为首个中英双语 DiT 架构,是基于 Diffusion transformer 的文本到图像生成模型,此模型具有中英文细粒度理解能力。研究团队构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。该教程无需输入任何命令,一键克隆即可立即开启图像生成。
在线运行: https://go.hyper.ai/Dwtf7
2. Paints-Undo 一张图生成绘画全过程 Demo
PaintsUndo 是一个可以模拟人类绘画行为的模型,旨在为人类提供绘画行为的基础模型,同时希望未来的 AI 模型能够更好地符合人类艺术家的现实需求。该项目提供了一系列模型,这些模型将图像作为输入,然后输出该图像的绘制序列。该教程为 PaintsUndo 一键运行 Demo,相关环境和依赖已经安装完毕,一键克隆启动即可体验。
在线运行: https://go.hyper.ai/Nr3DC
社区文章精选
1. 神经网络替代密度泛函理论!清华研究组发布通用材料模型 DeepH,实现超精准预测
清华大学研究人员利用原创的 DeepH 方法,发展出 DeepH 通用材料模型,并展示了一种构建「材料大模型」的可行方案,这一突破性进展为创新材料发现提供了新机遇。本文是对论文的解读与分享。
查看完整报道: https://go.hyper.ai/lxFha
2. 不是取代,而是共生!气象科学的未来需要AI与数值预报的有机结合
随着 AI 的快速发展,近年来关于「传统数值预报是否即将被 AI 追赶、超越甚至完全取代?二者如何共生?」的问题,引发人们的关注与思考。对此,中国气象局上海台风研究所副所长黄伟认为:「在可预见的将来,AI 气象预报和传统数值预报的有机结合,才是预报技术取得突破的最有效途径。」本文是 HyperAI超神经对两者关系的解读与分享。
查看完整报道: https://go.hyper.ai/ui8Yv
3. 入选ICML!人大团队将等变图神经网络用于靶蛋白结合位点预测,性能最高提升20%
中国人民大学高瓴人工智能学院的研究团队首次将 E(3) 等变图神经网络 (GNN) 应用于配体结合位点预测,提出名为 EquiPocket 的框架,解决了基于 CNN 的方法所遇到的挑战。本文是对研究过程的解读与分享。
查看完整报道: https://go.hyper.ai/HrzK4
4. 斯坦福/苹果等 23 所机构发布 DCLM 基准测试,高质量数据集能否撼动 Scaling Laws?基础模型与 Llama3 8B 表现相当
针对语言模型训练所需数据量持续提升,以及数据质量等问题,斯坦福/苹果等 23 所机构发布了 DCLM 基准测试,清洗出 240 万亿数据。本文是对实验过程的解读与分享。
查看完整报道: https://go.hyper.ai/V3gPg
热门百科词条精选
1. 缩放定理 Scaling Law
2. 掩码语言建模 MLM
3. 数据增强 Data Augmentation
4. 长短期记忆 Long Short-Term Memory
5. 量子神经网络 Quantum Neural Network
这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:
一站式追踪人工智能学术顶会: https://go.hyper.ai/event
以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
下周再见!
福利活动
CommunityOverCode 2024 大会(简称 CoC)将于 7 月 26-28 日在杭州举办,该会议是 Apache 软件基金会 (ASF) 的官方全球系列大会,旨在促进开源技术的发展和社区参与。HyperAI超神经将以合作社区的身份参与本次活动,期待与大家线下相见!
欢迎关注「HyperAI超神经」公众号参与抽奖,有机会获得价值 999 元的活动门票!