当前位置: article > 正文

这些AI产品，正在打破4.3亿人的障碍 | 最新快讯

作者：运维做开发 | 2024-07-09 10:23:59

踩

之前我们写过一篇文章——《别再问我聋人为什么要去音乐节了》，科普了海外音乐节的特别岗位：手语翻译员。

　　听障人士虽然听不见或者听不清音乐，但他们可以通过手语翻译员感染力极强的手部动作、面部表情、肢体语言，感受到音乐的律动、氛围的热烈。

　　这可能是健听人意想不到的手语场景。其实无论线上线下，需要手语翻译员的地方还有很多，然而僧多粥少。

　　英国人 Sally Chalk，2002 年开了一家英国手语翻译公司，经过 20 年的经营，公司规模可观，预约手语翻译员的时间也缩短到了 30 分钟，但她还是不满足。

　　听障人士能不能马上获取手语翻译，就像在视频网站打开字幕一样？

　　她的答案是，让 AI 加入进来。

　　从线上到线下，应该让听障人士多用「母语」

　　2022 年，Sally Chalk 开了一家新的初创公司——Signapse，专注开发生成式 AI 手语翻译软件，将书面文本实时翻译为美国手语和英国手语。

　　今年 5 月，Signapse 拿到了 200 万英镑的种子轮融资，其中 50 万来自英国政府。

　　他们瞄准的一个线下场景，是火车站、机场等交通枢纽。

　　美国的辛辛那提/北肯塔基国际机场，已经和 Signapse 合作，在屏幕上投放美国手语，提供欢迎、安全、出发、到达等信息。

　　AI 是如何发挥作用的？Signapse 基于大型手语数据集，并通过生成对抗网络（GAN）和深度学习技术，创造了逼真的、翻译尽可能准确的虚拟手语翻译员。

　　这些虚拟形象基于真人手语翻译员，每次被商用时，真人都会拿到分成。

　　考虑到机场的目的地、出发时间、站台号码经常变动，通过与交通数据集成，Signapse 的手语翻译可以做到实时更新。

　　同时，Signapse 没有忽视线上的需求，也为网站和视频流媒体提供手语翻译。

　　尽管 YouTube 等网站都有隐藏式字幕了，但相比字幕，听障人士往往更喜欢手语，因为手语具有独立于其他语言的语法结构和表达形式，会让他们的上网体验更好。

　　你应该有注意到，提到手语时，我们会用美国手语、英国手语的说法。就像全世界的口语和文字互不相通，手语也包罗万象。

　　联合国统计，全世界大约有 7000 万人将手语作为主要的交流形式，全世界使用的手语有 300 多种不同类型。仅在美国，就有 50 万人使用美国手语。

　　所以，Signapse 目前所做的其实也很有限，只覆盖到了使用美国和英国手语的少部分人，以及有限的垂直场景。过去两年，Signapse 每天创建约 5000 个英国手语交通公告。

　　Signapse 希望，未来他们的服务可以更加普适，拓展到教育等场景，也更加个性化，支持用户自定义虚拟手语翻译员的外观。

　　一方的水土养一方的 AI，国内大厂也有类似的手语产品。

　　AI 手语主播们，曾经出现在腾讯的王者荣耀直播间、华为的开发者大会。

　　2022 年冬奥会，央视新闻和百度智能云曦灵联合打造的 AI 手语主播上线，天津理工大学聋人工学院参与了手语语料标注。

　　而在 AI 手语主播背后，百度智能云曦灵的 AI 手语平台，还能满足医院、车站、银行等不同场景的快速手语翻译需求，和 Signapse 英雄所见略同。

　　更丝滑的出行、更沉浸的观看体验、更无障碍的服务……

　　如果说手语翻译的改进空间比海更深，至少听障人士获取公共信息的方式，正在被 AI 改变，持续地泛起可见的浪花。

　　手语界的多邻国们

　　听障人士也要「听」音乐？听障人士看文字是不是就够了？这是典型从健听人的逻辑出发考虑问题。

　　其实，我们应该反过来问：音乐节怎么让听障人士也能有参与感？互联网怎么让听障人士有更愉快的冲浪体验？

　　所以，不是某个人流如织的车站多出了一块屏幕，而是那块屏幕本就该出现在那里。

　　更多公司、更多个体正在借助技术的力量，让手语变得越来越有存在感。

　　让健听人学习手语，就是其中一种比较容易想到的思路。

　　PopSign 是一款边玩边学手语的 app，使用 AI 手语模型，由 Google、罗彻斯特理工学院、佐治亚理工学院合作开发，可在 Android 和 iOS 上使用，最主要的用户群体是听障孩子的健听父母。

　　吸取背单词从「abandon」（放弃）开始、也以放弃终结的教训，PopSign 不是无聊地播放手语视频，而是用小游戏增强学习手语的兴趣和信心，和疯狂催你打卡的多邻国异曲同工。

　　想做手语界「多邻国」的，还有一家叫作 SLAIT 的美国公司。他们提供的也是沉浸式的互动课程和测验，如果你做对了，AI 导师会给予你实时反馈，提供适量情绪价值。

　　不过，教手语只是 SLAIT 退而求其次的选择，一开始他们想做的，其实是实时视频聊天和翻译的 AI 手语工具。

　　但巧妇难为无米之炊，SLAIT 是个小团队，没有足够的数据，也没有足够的资金，比起直接翻译手语句子，教单个手语词汇更加简单，但同样有价值。

　　翻译手语的辛苦活，就交给财大气粗的巨头们解决了。

　　2023 年 8 月，联想巴西开发了一款基于 AI 的实时聊天翻译 app，用来翻译葡萄牙语手语，未来计划覆盖到全球更多手语。

　　当听障人士对着设备的摄像头打手语，算法会即时将其翻译成葡萄牙语文本，传送给另一端的接收者。

　　这样的工具应该多多益善，恰好和手语教学服务互补，让听障人士站在更主动的位置，更多地成为对话的发起方。

　　Google 则更加产品导向，发起了 2023 年 Kaggle AI 手语识别竞赛。

　　这场竞赛的主题很有意思——参赛者们基于听障人士自拍得到的 300 多万个手指拼写字符，构建使用智能相机快速跟踪手指、手掌和脸部的手指拼写模型。

　　手指拼写属于手语的一种，使用手指的不同形状和位置来表示字母。对于很多残障人士来说，使用手指拼写，比在智能手机的虚拟键盘上打字快得多。

　　所以，改进手语识别、构建手指拼写模型，是为了让听障人士可以直接用更擅长的手语，而不是打字和说话，在手机上使用搜索、地图、短信等功能。

　　更进一步，这也有助于开发手语转语音的应用，打破听障人士无法用语音召唤数字助理的僵局。

　　或者说，很多语音优先的产品，从一开始就没有考虑不善口语的用户，是时候补上漏洞了。

　　Google 首席无障碍研究产品经理 Sam Sepah，在接受福布斯采访时提到，他们的目标是，让手语成为使用 Google 产品时的通用语言选项。

　　其实，这也应该是整个互联网的目标——让手语成为数字世界的通用语言。

　　多邻国作为一款语言学习软件，为每个人提供了平等的受教育机会。而 AI 手语产品们让人感觉到的是，本不该有的限制正在解除，哪里都可以互通有无。

　　AI 越强大，越要珍视人性

　　5 月，GPT-4o 发布时，一个 Demo 视频很打动人，GPT-4o 充当了眼睛，让视障人士也能「看到」周围的环境。

　　视障人士从 AI 口中知道，白金汉宫上空飘扬着旗帜，河里的鸭子悠闲地嬉戏，出租车就要到达跟前，他的嘴角随着 AI 的欢快语调而上扬。

　　俗话说技术打开了新世界的大门，是否可以反过来理解，残障人士们原本生活在一个不为他们设计的世界？

　　世卫组织数据显示，全球 4.3 亿人需要通过康复治疗解决残疾性听力损失。手语翻译的数量远远不够，在美国，听障用户与美国手语翻译员的比例大约为 50 比 1。

　　所以目前来说，AI 手语只是起到补充和锦上添花的作用，还不到「抢饭碗」的地步。

　　以上提到的 AI 手语产品，基本都是小规模的、垂直的、扎根特定地区的，弥补真人翻译不可及的地方。

　　上个月，我还看到了一款很酷的 AI 手语产品。

　　罗格斯大学、卡内基梅隆大学等几所大学的研究人员，将公开手语视频处理成包含 8 种手语的数据集，训练了 SignLLM——第一个多语言手语生成模型。

　　覆盖多种手语，可以通过文本提示词生成手语，那不是太方便了吗？但研究人员说了，请外界不要夸大他们的研究成果，演示视频并非模型的直接输出，实际制作起来仍然很麻烦。

　　同时，也有听障专家站出来表示，这些视频的手语翻译质量参差不齐，有的让人半懂不懂，有的完全理解不了，而且缺乏面部表情，项目有潜力，但还要改善。

　　最重要的是，要让听障用户参与，发表他们的意见，共同完善产品，因为「没有我们的参与，就没有关于我们的决策」。

　　一个微妙的感受是，无障碍产品似乎很难做得「性感」。

　　它们往往没法像大模型和 AI 硬件的发布一样让人心神激荡，总是和你说，功能有哪些，服务于谁，希望以后可以做到更好，不会「贪多嚼不烂」。

　　并且在风投的眼里，它们也是小众的、潜力未知的、未必有投资回报的。

　　但「AI 教母」李飞飞曾说，AI 是为了帮助人，AI 越强大我们越要珍视人性。

　　所有人都应该不怕错过航班，所有人都应该可以和产品交互，所有人都应该享受音乐节。

　　那些曾经不被看到的、听到的也该被技术的光芒照耀。打个共鸣的响指吧，让更多人的需求被满足，更多人的能力被增强，让我们得到更多，失去更少。

来自: ifanr 爱范儿

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/802132