当前位置:   article > 正文

登上顶会 ICML 的字节跳动多模态成果,到底是怎样实现的?

登上顶会 ICML 的字节跳动多模态成果,到底是怎样实现的?

如果你打开今日头条,在无障碍模式下双击大图,就能发现图片能被“翻译”成流畅的文字语句

这项“隐藏很深”的技术名叫 X-VLM,是一种多模态方法,它的另一个版本名叫 X^2-VLM,均来自 ByteDance Research 团队,可实现图片描述、图文检索、图文理解、视觉问答等功能。相关论文登上顶会 ICML ,另一版论文也在 TPAMI 上发表。

该研究的一作是 95 后校招生妍妍,X-VLM 发表前,不少多模态从业者认为,相关模型很难继续创新提升,不过她通过努力,最终找到了突破口。

在字节跳动的真实应用场景中,X-VLM 超过了多个常用模型。DeepMind 2023 年一篇综述也给出评价,X-VLM 模型在相同参数量级下,表现持续领先于其他同类模型。

这项成果已被用在今日头条中,为广大视障群体提供“图片信息转换成文字描述”服务。在抖音等产品中,该技术也有应用。

关于 X-VLM 相关技术实现原理及更多详情,点击下方视频,即可解锁:

 字节跳动更多技术应用 

a0c3d02f1893f9827c4afbfa1002990a.jpeg“抖音”命名是靠它?解码字节跳动如何做A/B测试

bd6d87bd6e421aef61ccc572e767ddd0.jpeg

实不相瞒,字节跳动的大模型、推荐、特效算法……都是在这里跑出来的

3f05deb5404a7c4299d5cf6e87e7b8fe.gif

 点击「阅读原文」,加入字节跳动技术团队 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/372044?site
推荐阅读
相关标签
  

闽ICP备14008679号