Inspiration

全中国约1.67%都是聋哑人,他们生活在无声的世界,也想拥抱剩下99%的温暖。长久以来,试图让聋哑人和健全人正常交流的努力从未停歇。然而,目前已经出现的手语转换技术大多是利用传感器收集肢体数据进行解读,这在一定程度上给聋哑人用户造成了不便。基于此现状,我们有了Gesture Speaker的灵感。

What it does

我们将SenseTime精准迅速的动作识别技术与百度的语音合成技术有机结合,初步实现了对手语的自动翻译与语音转化工作,Gesture Speaker应运而生。使用者仅需在镜头前做出手语的手势动作,Gesture Speaker便可以助您不再沉默。

How I built it

我们采用每隔500ms自动取样的策略对影像进行手势抓取,抓取到的图像结果送往服务器调用Sensetime HandTrack API进行解析,当抓取到无效手势或重复手势时其输出将被智能忽略。有效手势通过与含义之间的映射被百度语音合成API转化成语音并输出,从而完成翻译任务。

Challenges I ran into

初始时项目框架不太成熟,几经考虑后才得到最后的方案; 部署服务器以及PHP调用系统命令等细节上出现一些迷之bug,最终采用部署在本地服务器上的方式折中而得以运行; 手语数据库过小,有很大进步空间; ……

Accomplishments that I'm proud of

使用者仅需在镜头前做出手语的手势动作,Gesture Speaker便可自动完成翻译动作并播放相应的语音。我们希望能够通过一些微小的工作,为聋哑人的世界带去一丝温暖。我们相信终有一天,可以实现真正的无缝交流,让1%+99%成为100%!

What I learned

我们掌握了SensetimeAPI的调用,php等语言的熟练应用,前端网页的优美构建,客户端/服务器端等各部分间的耦合应用等实用技能。

What's next for Gesture Speaker

我们相信,在今后的开发过程中,我们会继续优化,通过特征提取等机器学习方法训练扩展手语数据库,引入自然语言处理相关模型等以更好完成手语与口语的双向翻译任务,最终目标是使得聋哑人朋友获得最好的用户体验,让我们的交流不再有间隙,让无声的世界少留一些遗憾。

Share this project:

Updates