(图片来源网络,侵删)
摘要:每一个听力障碍人士都能拥有自己的「沙利文老师」1882 年,一场突如其来的疾病夺走了刚 19 个月的海伦凯勒生活中所有的色彩、声音、动作和她的生活一样,这个塔斯坎比亚小镇的家庭从此也进入了一个黑暗而寂静的世界直到 6 年后,沙利文老师出现在海伦的生活,事情才出现了转机在沙利文的帮助下,海伦凯勒不仅学会了盲文阅读,还在成年后写下了那句「唯有失聪者才会珍视听觉」这个故事几乎每个人在小学都已熟悉,因为语文老师们总会布置一篇《读<假如给我三天光明>有感》的命题作文但并不是所有听力受损的人都能和海伦凯勒一样幸运,拥有沙利文的独特帮助目前,在全世界 4.66 亿遭遇耳聋和听力障碍的人士中,只有极少人能支付起与他人进行即时交流时需要采购的手动转录服务,如美国的 CART,英国的 Palantypist 或其他国家的 STTR更多的人,在无声对话为了改变这一情况,2019 年 2 月 4 日,Google 推出了一款全新的基于 App——Live Transcribe 的内测版,这是一款即时转录真实世界语音的应用程序,只需使用手机的麦克风即可将其转换为实时字幕3 月,其正式在 Play 商店正式上线Live Transcribe使用界面|YouTube截图设计背后:ARS 带来的实时转录一岁时失聪的俄罗斯人 Dimitri Kanevsky 现在是 Google 的一名科学家他说话有些吃力,在告诉店员「今天过得不错」时,词句之间的停顿明显不过,现在他并不需要任何的人工帮助手机上的 Live Transcribe,正在黑色背景上实时同步店员说的每一个单词:你想喝点什么?右上角的小圆圈也不停地变换大小来暗示周围环境的嘈杂程度「Live Transcribe 的转录延迟低于 200 毫秒,接近于实时」该 App 的产品经理 Sagar Salva 对极客公园说这样的延时就像 50HZ 的交流电方向的改变一样,难以察觉,保证了双方交流的互动性同时,据 Salva 介绍,它能支持 70 多种语言和方言,覆盖了世界上 80% 的人群针对双语家庭,App 里还设有在两种语言间进行快速切换的按键两年前,Kanevsky 带着 30 年的语音识别经验加入了谷歌的 AI 研究组时,这款产品还未诞生每次开会 Kanevsky 都需要提前预定 CART 服务,靠字幕员虚拟地加入会议,来将语音对话敲到屏幕上,进行转录Salva 和同事们便设想如何能通过使用现在 Google 的技术来减少 Kanevsky 的准备过程Kanevsky正在使用Live Transcribe与服务员进行交流|YouTube而今,从山景城到台北,这个模型被不断优化,最终演进成了 Live Transcribe在短时间里开发出全新 App 还是得益于谷歌本身的技术积累据 Salva 介绍,Live Transcribe 背后的核心技术是谷歌各种语音搜索应用一直在使用自动语音识别(Automatic Speech Recognition,ASR)技术ASR 主要包含特征提取、声学模型,语言模型以及字典与解码四大部分简而言之,其任务是准确、高效的将语音信号转化为文字信息目前,YouTube 上准确率极高的实时字幕转录便是得益于谷歌这项技术的支持Live transcribe:每个人的沙利文老师但开发过程并非一帆风顺Salva 说,第一个便是用户实际使用场景的选择他们可以选择在电脑、平板设备、或者手机等硬件设备上展现转录结果,也可以有更大胆的设计例如,Kanevsky 还尝试用小型投影设备将转录出来的字幕打在 Salva 的 T 恤上但对于听力受损的人来讲,劳动力回报以及收入都相对较低据中国残联发布的《2018 年残疾人事业发展统计公报》,全国城乡持证残疾人就业人数为 948.4 万人,其中灵活就业(含社区、居家就业)254.6 万人,从事农业种养加 480.1 万人,几乎占了绝大部分在残疾人家庭人均可支配收入上也与社会平均水平有较大差距考虑到这些原因,在所有智能设备中,Salva 和团队最终选择了智能手机:「目前全球已经有 20 亿人在使用安卓的手机,这样的硬件平台选择是成本最低廉的」Sagar Salva|受访者提供为了让较为低配的手机也能使用 Live Transcribe,Salva 和团队选择在这款 App 背后使用两种不同的神经网络第一个是在设备上运行神经网络,主要完成声音分类的工作,例如婴儿哭声、玻璃破碎声音等在对这些声音的实时转录中,能够快速地进行分类和辨析第二个是用于完成语音转录成文字工作的云端神经网络模型「事实上,在云端,在 Google 的服务器上,利用机器学习和这些神经网络模型进行语音的识别是非常重要的,这意味着这款产品在一些低配的手机上也能够运行」Salva 说「当它在运行的时候,只会消耗大概 4M 左右的内存空间我们做了电量使用优化,单次充电可以使用 10 个小时左右」谷歌想做的是让每个听力受损的都能真正使用得起这个免费的 App实际上,这个想法早已有迹可循有迹可循:20% 的创新项目在 2016 年 3 月,Google 就推出了 Accessibility Scanner,这是一款自动化工具,用于评估应用程序,并为视觉和听觉障碍用户提供改进方法,例如,通过扩大小型触摸目标或更改对比度2018 年 8 月,Google 又发布了一项新的开放式规范,旨在启动助听器的开发,这种助听器能够在蓝牙低功耗(LE)的 Android 手机上完美运行,充足的低延迟和对电池寿命的影响最小这些演进踪迹的源头却是一个偶然Salva 介绍说,最初 Live transcribe 只是一个 20% 创新项目20% 是在谷歌内部一个著名的鼓励文化:鼓励员工利用 20% 的时间用于创新比如在一周 5 天的工作中,员工能用 1 天的时间用于研究本职工作外的其他感兴趣的项目如这些创新获得了进一步的证明,便能获得推广、完善的机会,如耳熟能详的 Google News 和 Gmail 都属于创新诞生的产物当 Live transcribe 诞生后,不仅是 Kanevsky,在谷歌团队内部其他的听力受损同事之中也广受好评因此,才逐渐走向了 Play 商店Salva正在介绍Live Transcribe诞生过程|受访者提供在研发过程中,为了减少周围环境噪音得影响使转录效果更好,谷歌还推出了另一款相关的 App:Sound Amplifier这款应用能够使用声音放大器,使音频更清晰,更容易听到可以在 Android 智能手机上使用带有线耳机的声音放大器来过滤,增强和放大环境中的声音据世界卫生组织估计,到 2055 年,全世界听力受损的人数将达到 9 亿虽然不确定那时的医疗是否已经能够使人们不再受到听力受损的困扰,但能肯定的是,至少今天正如谷歌所希望的一样,Live Transcribe 和 Sound Amplifier,正在帮助数亿聋人沟通得更清楚责任编辑 卧虫
0 评论