美式手语字母拼写识别
2023 年 5 月 11 日
作者:Thad Starner(佐治亚理工学院教授,谷歌研究员),Sam Sepah(机器学习研究项目经理),Manfred Georg(谷歌软件工程师),Mark Sherwood(谷歌高级产品经理),Glenn Cameron(谷歌产品营销经理)

全球超过 7000 万聋人 使用手语进行交流。他们总共使用超过 300 种不同的手语。全球有超过 15 亿人受到听力损失的影响。大多数聋哑人和听障人士由于言语障碍无法使用自己的声音发起搜索或执行操作。此外,智能家居设备和移动平台用于响应语音的界面通常是基于音频的。

手语是复杂的交流系统,每个系统都拥有完整的语言特征。从表面上看,手势以及其他四个“参数”构成了手语交流的基础。在执行相同动作时,一只张开的手或一只紧握的手可以完全改变手语的含义。同样,手掌方向、动作/接触、位置以及非手动标记(通常是口部动作和面部表情)定义了单个手语。许多语法结构,其中一些在口语中没有类似物,使手语者能够产生复杂的短语。

当我们为美式手语 (ASL) 和其他手语开发翻译系统时,自然会将语言的各个方面分解开来,并尝试使用这些部分执行任务。

为此,我们很高兴宣布发布迄今为止最大的 ASL 字母拼写数据集之一,以及一项 Kaggle 机器学习竞赛,该竞赛将为开发最准确的 ASL 字母拼写识别模型的机器学习工程师提供 20 万美元的奖金,这些模型将使用 MediaPipe 和 TensorFlow Lite。获奖模型将开源,以帮助开发人员在其应用程序中添加对字母拼写的支持。

观看这些手 (Kaggle 混音)
表演者:Sean Forbes,聋人专业艺术网络联合创始人

字母拼写使用代表单个字母的手形来传达单词。虽然字母拼写只是手语的一部分,但它经常用于传达姓名、地址、电话号码、姓名和其他通常在手机上输入的信息。许多聋人智能手机用户可以使用字母拼写单词的速度比他们在手机键盘上打字的速度快。事实上,在我们数据集,ASL 字母拼写的短语平均每分钟 57 个单词,远快于美国用户在屏幕键盘上平均每分钟 36 个单词的速度。但是,用于文本输入的手语识别人工智能远远落后于语音到文本甚至基于手势的打字,因为之前没有健壮的数据集。

尽管字母拼写只是手语中的一小部分,但即使在保持最终实现完整翻译的目标的同时,也有很多理由专门制作专注于它的系统。在全速进行字母拼写时(每分钟可以超过 80 个单词),字母拼写中的手形会相互同化,整个单词可以被词化成与减速版本不同的形状。由此产生的动作在视觉上是 ASL 中使用最快的动作之一,因此扩展了任何试图执行完整翻译的视觉识别系统的特定方面。

重大进步

谷歌研究院和聋人专业艺术网络合作创建了一个庞大的字母拼写数据集,我们将为这场比赛发布该数据集,以帮助推动手语识别向前发展。该数据集包含超过 100 名聋人手语者以连续短语、姓名、地址、电话号码和 URL 的形式产生的超过 300 万个字母拼写字符。这些手语是使用智能手机的自拍相机拍摄的,背景和光线条件各异,是迄今为止同类数据集中规模最大的数据集。

大型语言模型在各种语言和语音任务中显示出越来越大的希望。从聊天代理到辅助技术,一切都在以前所未有的速度发展。现在是确保手势和基于视觉的系统也生成可用界面的时间了。字母拼写识别模型是这种更大解决方案的一部分,将解决聋哑人和听障人士在可访问性方面的日益扩大的差距。

如何参与

立即加入 Kaggle 比赛,帮助我们使人工智能更容易被聋人和听障人士社区所使用。

下一篇文章
American Sign Language Fingerspelling Recognition

作者:Thad Starner(佐治亚理工学院教授,谷歌研究员),Sam Sepah(机器学习研究项目经理),Manfred Georg(谷歌软件工程师),Mark Sherwood(谷歌高级产品经理),Glenn Cameron(谷歌产品营销经理) 全球超过 7000 万聋人 使用手语进行交流。他们总共使用超过 300 种不同的手语...