当前位置:   article > 正文

大模型日报2024-06-17

大模型日报2024-06-17

大模型日报

 

2024-06-17

 

大模型资讯

 

大模型产品

 

大模型论文

 

  1. VideoGPT+: 图像与视频编码器结合的视频理解

 

  • 摘要: VideoGPT+结合图像和视频编码器的优势,提升视频理解性能。通过自适应池化策略处理视频,改进多项视频基准测试表现,并引入VCGBench-Diverse进行全面评估。

 

  1. MiCo:可扩展的多模态预训练范式

 

  • 摘要: MiCo是一种可扩展的多模态预训练范式,显著提升了多模态学习能力,在多项评测中创下37项新纪录。

 

  1. 视觉模型与人类美学对齐方法研究

 

  • 摘要: 本文提出一种基于偏好强化学习的方法,利用大语言模型和美学模型改进视觉模型的美学表现,并引入HPIR数据集进行评估。

 

  1. 高效长视频问答关键帧选择策略

 

  • 摘要: 本文提出层次关键帧选择器和序列视觉LLM两种方法,减少冗余,提升长视频问答性能,LVNet在三大数据集上达最先进水平。

 

  1. LLAVIDAL: 日常生活活动大模型基准

 

  • 摘要: 本文提出LLAVIDAL框架,通过ADL-X数据集微调,提升大语言视觉模型在日常生活活动中的表现,并引入ADLMCQ基准进行评估。

 

  1. 视觉-语言地理基础模型综述

 

  • 摘要: 本文综述了视觉-语言地理基础模型,介绍其背景、核心技术及应用,探讨未来研究方向。

 

  1. 视频大模型基准测试的可扩展合成框架

 

  • 摘要: VideoNIAH通过插入图像/文字'针'生成合成视频,创建多样化的测试集,用于评估视频大模型的时空理解能力。

 

  1. ElicitationGPT: 基于语言模型的文本评分机制

 

  • 摘要: 本文开发了利用ChatGPT对比真实文本的评分机制,并在同行评审数据集上进行实证评估,结果与人工评分一致。

 

  1. 通过提示梯度对齐增强领域自适应

 

  • 摘要: 本研究提出一种通过对齐每个目标梯度来增强领域自适应的新方法,并通过惩罚梯度范数防止过拟合。

 

  1. 基于离散语音单元的口语理解模型

 

  • 摘要: 提出使用离散语音单元代替连续值语音编码器输出,增强大语言模型在口语问答任务中的表现。

 

大模型开源项目

 

  1. StableSwarmUI:模块化稳定扩散界面

 

  • 摘要: StableSwarmUI 是一个模块化的稳定扩散 Web 用户界面,专注于易用的强大工具、高性能和可扩展性,使用C#编写。

 

  1. 强大模块化的Stable Diffusion界面

 

  • 摘要: comfyanonymous项目提供了一个功能强大且模块化的Stable Diffusion GUI、API和后端,具有图形/节点界面,使用Python编写。

 

  1. 深度学习人声去除GUI工具

 

  • 摘要: Anjok07开发的Python项目,提供基于深度神经网络的人声去除图形界面工具,适用于音频处理。

 

  1. NVIDIA高性能深度学习推理SDK

 

  • 摘要: NVIDIA TensorRT是用于NVIDIA GPU的高性能深度学习推理SDK。本项目包含TensorRT的开源组件,使用C++编写。

 

  1. 高性能浏览器内LLM推理引擎

 

  • 摘要: mlc-ai是一个用TypeScript编写的高性能浏览器内LLM推理引擎,旨在提升网页端的机器学习推理性能。

 

  1. Apple Silicon上的Whisper语音识别

 

  • 摘要: argmaxinc项目实现了在Apple Silicon设备上运行Whisper语音识别模型,使用Swift语言编写,支持设备端推理。

 

  1. Python中的贝叶斯建模与概率编程

 

  • 摘要: pymc-devs是一个用Python编写的项目,专注于贝叶斯建模和概率编程,为数据科学和统计分析提供强大工具。

 

  1. NVIDIA高性能GPU仿真与图形框架

 

  • 摘要: NVIDIA推出的Python框架,专注于高性能GPU仿真与图形处理,提升计算与渲染效率。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/758495
推荐阅读
相关标签
  

闽ICP备14008679号