码创造者

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

大模型日报2024-06-17

作者：码创造者 | 2024-06-26 06:30:38

赞

踩

大模型日报2024-06-17

大模型日报

2024-06-17

大模型资讯

大模型产品

大模型论文

VideoGPT+: 图像与视频编码器结合的视频理解

摘要: VideoGPT+结合图像和视频编码器的优势，提升视频理解性能。通过自适应池化策略处理视频，改进多项视频基准测试表现，并引入VCGBench-Diverse进行全面评估。

MiCo：可扩展的多模态预训练范式

摘要: MiCo是一种可扩展的多模态预训练范式，显著提升了多模态学习能力，在多项评测中创下37项新纪录。

视觉模型与人类美学对齐方法研究

摘要: 本文提出一种基于偏好强化学习的方法，利用大语言模型和美学模型改进视觉模型的美学表现，并引入HPIR数据集进行评估。

高效长视频问答关键帧选择策略

摘要: 本文提出层次关键帧选择器和序列视觉LLM两种方法，减少冗余，提升长视频问答性能，LVNet在三大数据集上达最先进水平。

LLAVIDAL: 日常生活活动大模型基准

摘要: 本文提出LLAVIDAL框架，通过ADL-X数据集微调，提升大语言视觉模型在日常生活活动中的表现，并引入ADLMCQ基准进行评估。

视觉-语言地理基础模型综述

摘要: 本文综述了视觉-语言地理基础模型，介绍其背景、核心技术及应用，探讨未来研究方向。

视频大模型基准测试的可扩展合成框架

摘要: VideoNIAH通过插入图像/文字'针'生成合成视频，创建多样化的测试集，用于评估视频大模型的时空理解能力。

ElicitationGPT: 基于语言模型的文本评分机制

摘要: 本文开发了利用ChatGPT对比真实文本的评分机制，并在同行评审数据集上进行实证评估，结果与人工评分一致。

通过提示梯度对齐增强领域自适应

摘要: 本研究提出一种通过对齐每个目标梯度来增强领域自适应的新方法，并通过惩罚梯度范数防止过拟合。

基于离散语音单元的口语理解模型

摘要: 提出使用离散语音单元代替连续值语音编码器输出，增强大语言模型在口语问答任务中的表现。

大模型开源项目

StableSwarmUI：模块化稳定扩散界面

摘要: StableSwarmUI 是一个模块化的稳定扩散 Web 用户界面，专注于易用的强大工具、高性能和可扩展性，使用C#编写。

强大模块化的Stable Diffusion界面

摘要: comfyanonymous项目提供了一个功能强大且模块化的Stable Diffusion GUI、API和后端，具有图形/节点界面，使用Python编写。

深度学习人声去除GUI工具

摘要: Anjok07开发的Python项目，提供基于深度神经网络的人声去除图形界面工具，适用于音频处理。

NVIDIA高性能深度学习推理SDK

摘要: NVIDIA TensorRT是用于NVIDIA GPU的高性能深度学习推理SDK。本项目包含TensorRT的开源组件，使用C++编写。

高性能浏览器内LLM推理引擎

摘要: mlc-ai是一个用TypeScript编写的高性能浏览器内LLM推理引擎，旨在提升网页端的机器学习推理性能。

Apple Silicon上的Whisper语音识别

摘要: argmaxinc项目实现了在Apple Silicon设备上运行Whisper语音识别模型，使用Swift语言编写，支持设备端推理。

Python中的贝叶斯建模与概率编程

摘要: pymc-devs是一个用Python编写的项目，专注于贝叶斯建模和概率编程，为数据科学和统计分析提供强大工具。

NVIDIA高性能GPU仿真与图形框架

摘要: NVIDIA推出的Python框架，专注于高性能GPU仿真与图形处理，提升计算与渲染效率。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/码创造者/article/detail/758495

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号