赞
踩
如果你打开今日头条,在无障碍模式下双击大图,就能发现图片能被“翻译”成流畅的文字语句。
这项“隐藏很深”的技术名叫 X-VLM,是一种多模态方法,它的另一个版本名叫 X^2-VLM,均来自 ByteDance Research 团队,可实现图片描述、图文检索、图文理解、视觉问答等功能。相关论文登上顶会 ICML ,另一版论文也在 TPAMI 上发表。
该研究的一作是 95 后校招生妍妍,X-VLM 发表前,不少多模态从业者认为,相关模型很难继续创新提升,不过她通过努力,最终找到了突破口。
在字节跳动的真实应用场景中,X-VLM 超过了多个常用模型。DeepMind 2023 年一篇综述也给出评价,X-VLM 模型在相同参数量级下,表现持续领先于其他同类模型。
这项成果已被用在今日头条中,为广大视障群体提供“图片信息转换成文字描述”服务。在抖音等产品中,该技术也有应用。
关于 X-VLM 相关技术实现原理及更多详情,点击下方视频,即可解锁:
字节跳动更多技术应用
实不相瞒,字节跳动的大模型、推荐、特效算法……都是在这里跑出来的
点击「阅读原文」,加入字节跳动技术团队
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。