2017最具创新力的黑科技TOP20-唇语识别技术(8/20)

2017最具创新力的黑科技TOP20-唇语识别技术(8/20)


海云数据被评为中国大数据可视分析的领导者,提供企业级大数据整体运营与分析服务,依托于计算机数据视觉、数据算法等技术,探索大数据的潜在商业价值,为不同行业客户提供基于数据交互可视化的整体产品,真正实现将大数据应用于分析、决策和预判领域。

目前,海云数据的唇语识别技术的中文准确率已达到71%,英文准确率高达80%。据了解,唇语识别是一项集机器视觉与自然语言处理于一体的技术,目的在于直接从有人讲话的图像中识别出讲话内容。唇语识别系统使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征;随即将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音;随后根据识别出的发音,计算出可能性最大的自然语言语句。

目前,全世界涉及唇语识别技术研发的企业除了英特尔、谷歌、海云数据之外,还有微软。早在2011年,欧洲游戏媒体就声称微软第二代Kinect体感外设非常强悍,足以“读懂”唇语,还能够检测玩家的愤怒情绪。除了企业,研究唇语识别的还有一些机构,比如英国东英吉利大学等。

据了解,此前各企业和机构对于唇读有不同的称呼,比如lipreading(唇读)、speechreading(视话),visualhearing(视觉来听),hearingbyeye(用眼来听)等,但技术思维理念是一致的。

有分析人士认为,在人工智能即将大范围落地的前夜,唇语识别技术虽然相比其他技术冷僻一些,但也让业内看到了新的方向,相信今后会有更多的公司进入这个领域。

唇语识别当前应用场景相当广阔

基于唇语识别技术开发的产品绝不是一个小众产品。海云数据创始人、CEO冯一村介绍说:“除公共安全领域外,唇语识别还可应用到移动支付、军事情报、残疾人教育等领域。”

比如在公共安全领域,遍布街头的摄像头为安全部门提供了大量的无声视频资料,利用唇语识别技术可以对拍摄到的违法分子的口型进行识别,进而获取有价值的侦查信息。这将是一个巨大的2B市场。

再比如以2C为主的移动支付领域,唇语识别技术也可为支付安全提供更大的保障。尤其是在军事情报领域,随着技术的发展,远距离获取情报获将成为可能。

来自牛津大学唇语技术研究LipNet团队的Yannis Assael说:“我们相信,机器唇语解读器有非常大的应用前景,比如改进助听器,公共场所的无声指令(Siri再也不必听到你的声音了),嘈杂环境下的语音识别等。”

有报道认为,人工智能未来将会出现一个数万亿美元的巨大市场,在面对具体乃至细碎的应用场景时,人工智能的细分程度势必如百年前的电力那般触角庞杂。广袤的嫁接空间意味着,从真实应用场景出发,人工智能领域会出现不少蓝海市场,被国内巨头忽视的唇语识别也是其中之一。

国内唇语识别市场有待深入挖掘

相较于国外唇语识别技术“多企争流”的情况,在国内研发该项技术的企业少之又少——在BAT等纷纷布局眼下大热的图像识别、语音识别、人脸识别、无人驾驶技术的大背景下,仅仅有海云数据少数创新公司在该项技术上进行了布局并初步形成研究成果。

究其原因,其一是人工智能细分领域纷繁复杂,这些巨头不可能事无巨细面面俱到;其二是图像识别、语音识别等技术相对成熟,可以较快地投入市场,在逐利的驱使下,肯定要首先进军这些领域。不过,这也从侧面帮助像海云数据这样的创新公司在BAT巨头未涉足的领域获得站稳脚跟的机会,甚至是提前建立起技术壁垒。

业内人士认为,唇语识别虽还未迎来爆发的阶段,但网上随处可见、海量的视频资源已经为其做好大数据方面的准备,随着技术的不断进步,这项技术与将获得越来越快速的发展。

数据显示,DeepMind与牛津大学的研究者使用总长超过5000小时的节目对人工智能唇语识别系统进行训练,正确率已经达到46.8%,比专业读唇人士高出了大概3倍。而海云数据以长达1万多小时的新闻素材为“语料”模板,将中文的识别率提升到了71%。“未来随着‘语料’越来越多,识别率也将稳步提升。”冯一村介绍说。

技术的不断进步也将推动市场的深入挖掘。目前,唇语识别还没有到商用的地步(一般识别率高于95%即可达到商用标准),但随着技术的不断进步和识别率的提升,唇语识别市场或将迎来爆发,其对应的安防、军事、支付等行业也将发生巨大的变化。

来源:互联网