登上顶会 ICML 的字节跳动多模态成果，到底是怎样实现的？

作者：菜鸟追梦旅行 | 2024-04-06 12:52:41

踩

如果你打开今日头条，在无障碍模式下双击大图，就能发现图片能被“翻译”成流畅的文字语句。

这项“隐藏很深”的技术名叫 X-VLM，是一种多模态方法，它的另一个版本名叫 X^2-VLM，均来自 ByteDance Research 团队，可实现图片描述、图文检索、图文理解、视觉问答等功能。相关论文登上顶会 ICML ，另一版论文也在 TPAMI 上发表。

该研究的一作是 95 后校招生妍妍，X-VLM 发表前，不少多模态从业者认为，相关模型很难继续创新提升，不过她通过努力，最终找到了突破口。

在字节跳动的真实应用场景中，X-VLM 超过了多个常用模型。DeepMind 2023 年一篇综述也给出评价，X-VLM 模型在相同参数量级下，表现持续领先于其他同类模型。

这项成果已被用在今日头条中，为广大视障群体提供“图片信息转换成文字描述”服务。在抖音等产品中，该技术也有应用。

关于 X-VLM 相关技术实现原理及更多详情，点击下方视频，即可解锁：

字节跳动更多技术应用

“抖音”命名是靠它？解码字节跳动如何做A/B测试

点击「阅读原文」，加入字节跳动技术团队

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/372044?site