2017CES国际消费电子展–Amazon Alexa(智能家居)

2017CES国际消费电子展–Amazon Alexa(智能家居)


随着亚马逊的智能音箱Echo销量逼近千万,Alexa无疑成为了全球范围内截至目前最为成功的消费级AI产品,也可谓是亚马逊这家电商公司在人工智能领域一次的跨界奇迹,极大刺激国内各个科技公司也纷纷进入语音交互领域。根据内部人士提供的数据,包括阿里、百度、腾讯、华为、小米、联想、海尔、科大讯飞等国内已经有超过200多家公司正在研发类似Echo的智能音箱。

但是,我们真的认真琢磨过亚马逊的Alexa吗?或者我们真的了解评测过Echo吗?尽管Amazon在这个领域持续投入了多年,但是Amazon一向对于PR的宣传审核严格,实际上国内对于亚马逊关于技术细节方面的思考,知之甚少。

最近EmTech Digital人工智能峰会上,MIT Technology总编辑 Jason Pontin 对话亚马逊Alexa负责人 Toni Reid,透漏了一些Toni Reid关于消费级语音交互系统的思考。Toni Reid经历了从 Alexa 从无到有的全过程,在这次谈话中,Toni Reid也解释了Alexa为什么不用屏幕以及多轮对话的原因。

Toni Reid认为,语音是最简单、最自然的交互方式,也是人类沟通最基本的方式。所以,Amazon在为Alexa设计硬件载体Echo的时候,并没有为其加上屏幕。这种做法其实是增加了难度:用户只能通过纯语音来使用设备,而并没有屏幕反馈作为辅助。当然,Amazon也正在Fire TV和Kindle平板电脑等设备上尝试部署Alexa,但这涉及Alexa比较大的改变。

Toni Reid更是坚持认为,当用户下达语音指令后,Alexa实际上只有一次机会去部署相应的动作,而不能去和用户来来回回的多轮对话。一般而言只有两次对话机会,如果第三次对话还没弄清用户需求,就算彻底的失败了。这样的反复对话对用户来说是很糟糕的体验。

这是两个非常值得国内用户思考的点,从这两个点也可以展开来思考更多问题,我们期望国内能够做出超越Echo的产品,至少也要比肩Echo的销量和影响力。

为什么是Amazon脱颖而出?

这是一个很奇怪的问题,确实Amazon更像一个电商而不是高科技的公司。实际上,Amazon在没有谈及Echo的销量之前,Amazon也并没有被产业和媒体关注,同时也没有被归类到人工智能公司。因为相比Google、Microsoft、Apple、Facebook这类公司,甚至包括和国内的百度、阿里和腾讯这些公司比较,Amazon实在也拿不出像样的、同其他公司AI研究院一般提供的PPT,况且承担重任的Lab 126还是一个依靠收购组建的大杂烩式的产品公司,更难堪一点的是,Echo一开始的项目优先级也是最末的。为什么会是这样一个情况?

这个,有偶然,也有必然。若从科学实验的角度来看,偶然性确实很大,成功的实验往往都是那么偶尔的一个闪光,但是这个闪光却也是亚马逊长期投入的必然结果。

首先来看,Amazon的优势在于没有太大的技术包袱,Amazon显然对于成立研究院没有太大兴趣,正因为没有过多的历史限制,才会让产品和技术结合的更加紧密,而不至于让产品思维被工程师所束缚。特别重要的是Amazon Echo切中的市场痛点是远场语音交互,这让Google、Microsoft、Apple长期积累的近场语音交互优势几乎没有意义,显然Alexa更懂用户对于远场语音交互的需求。

其次来看,Amazon对于技术细节的耐心实际超越了Google、Microsoft这些AI巨头,这里要把Apple拿出来,因为Apple做产品的思路还是和Amazon比较一致的。Amazon和Apple显然对于技术PR和论文都没有多大兴趣,但是对于产品和专利却极其上心。从公司角度来看,PR和论文确实耗费公司极大的精力,这两者对于创业公司来说可能是提高知名度的重要方法,但是对于成熟公司,知识产权、产品和营销能力显然更加重要,而且这也决定了公司对于技术的耐心程度。

因为过多的PR和论文会让研究人员忽略对于技术细节的把控,当公司的技术人员动不动就谈技术趋势和架构的时候,这家公司反而危险了,那么请问谁来把控技术落地时候的无数个细节问题?没有细节的持久打磨,试问哪个用户会为此买单?当掏出钱袋的那一刻,用户的体验永远是第一位的。

最后来看,技术人员往往容易陷入科学幻想,总是喜欢做很多超前的事情。这在技术领域是必要的,但是不要让工程师甚至科学家过多干涉产品定义也是非常重要的一个方面。市场上永远都是满足当前需求的产品才能获得用户,而不是你的技术多么高深,显然Amazon更是轻装上阵,灵活的产品思考是Echo定义的关键因素,这样才能更容易懂得用户。

2 语音交互技术到底成熟没有?

这个问题之前,可以先回忆一下,我们平时能看到身边多少人在用语音交互?事实上这很少,除了汽车导航的时候,可能大部分时候只是偶尔秀一下,而且还是对着手机喊话。这就说明了问题,语音交互其实根本就不成熟。

这就不对了,因为几乎所有的AI公司都在号称语音识别已经接近甚至超越人类了,不要信以为真,别说远场语音识别,就连近场语音识别也做不到。那些所谓的指标都是论文指标,仅仅是在特定的测试集合下所测得结果,可以理解为想要怎样的指标几乎都可以优化出来。So What?这又有个啥子意义,因为我们人类从来不是实验室的小白鼠,我们需要的不是实验环境下的技术应用。

语音交互包括了语音识别和语义理解两大部分。我们就从语音识别这点来看,仅仅这点还有很多很多的问题需要解决。语音交互的落地首先要解决的是真实场景下的语音识别,这就要求要考虑说话者与机器的距离,要让说话者在屋子任何位置下的语音命令都能被机器识别。而这又牵扯到对噪声、混响、回声等干扰声音的处理,这是光靠所谓深度学习是解决不了的。

显然,所有AI相关技术的落地都会碰到场景的问题,而场景则是物理学的范畴,物理的进展并没有像AI频繁的会议宣称的那样有飞跃式的进步。但是不解决场景的物理问题,单靠计算机科学就大谈人工智能改变人类为时过早了。玩笑一下,拔掉电源计算机还能工作不?

3语音助手要不要屏幕的问题?

Toni Reid提到,Alexa为了让用户适应语音交互的方式,特意去掉了屏幕。但是这不代表屏幕就不重要,虽然语音是最简单、最自然的交互方式,但是我们80%的信息还是依靠视觉获取,即便语音交互的时候我们也依赖很多肢体表达来确认我们是否得到了有效反馈。

这一点在Echo还是做不到,至少这个阶段来说,这是一个无奈的折衷选择。其中有一个重要的点Toni Reid没有提到,因为Amazon并不想把Echo定义为一个音箱,而是一款全新的AI品类,但是创造一个新的品类也意味着巨大的风险。

所以Amazon选择了稳妥的从音箱品类进行升级,当然苹果也选择了从耳机进行升级。这就特别要注意,传统品类升级的时候一定要避免与其他品类的冲突,比如假设给Echo加上屏幕,用户会把这个品类看成音箱还是平板?我想Amazon更愿意用户把Echo看作为音箱,即便他们非常不情愿。

事实上,国内很多创业公司都在验证Amazon的眼光有多么独到,因为我们已经看到太多配置屏幕的机器人和智能音箱,甚至还有不少耳机产品。其销量为什么不好?为什么不换个角度想想,这种场景下,用户买个iPad Mini是不是会是更好的选择?

4当前阶段用户真的需要多轮对话?

Toni Reid的观点很明确,Alexa暂时不需要多轮对话,因为这会让早期用户的体验更糟糕。笔者也坚持这个观点,但是有几点是必须补充的。

首先来看,现在的语音交互实际上都是语音控制,确实这个阶段我们真的很难让计算机理解人类语言。在这个前提下,真正的多轮对话实际上很难做到,当前更多的是解决基于场景的搜索问题。当不能真正理解用户思想的时候,多出的对话若不能解决用户的需求,反而是用户极其反感的地方。简单想想,真正使用一个产品的时候,面对着冷冰冰的机器,难道让用户和机器沟通要比和女朋友沟通还要费劲吗?抱歉,即便作为用户,笔者也只是想要一个绝对听从于我指令的音箱而已,声智科技经常会测试各个厂商的Demo,但凡偶尔唤不醒或者一句没听懂我就挺恼火的。

其次来看,我们怎么理解多轮对话?Toni Reid提到不希望Alexa问到第三遍,这实际上还不是一个多轮对话的问题,而是问答反馈的问题。也就是说,真正的多轮对话可能不需要,但是问答反馈还是必须得,我们知道Echo由于没有了屏幕,先天丢失了用户交互过程中的反馈途径,这个时候语音的反馈就显得比较重要。但是这是一个很大的坑,到底该如何把握这种问答反馈,既让用户快速获取满意的答案,又能在模糊的时候通过一次问答来解决用户问题,我想这个方面真的需要仔细研究Echo,Echo的成功就是仔细思考和打磨了每个细节。

事实上,可以连续唤醒的单轮问答对话才是智能音箱的核心技术所在,简单可以理解为智能音箱的唤醒是第一优先级的,必须支持连续的无数次唤醒,做到有问必答,也就是说用户可以随时唤醒并且打断其他对话直接唤醒,而且必须保障唤醒率和虚警率,虚警率太高显然不行,这会让设备总是莫名其妙自动对话。当然,声智科技的这项技术当前还主要针对大客户定制,开发板暂时还不支持这项功能。

5深度学习真解决了语音交互问题?

这个问题实在不好解释了,引用微软首席研究员刘铁岩的一句话,顺便也推荐感兴趣的同学看看刘研究院所做的《人工智能的挑战与机遇》演讲,这给国内火热的人工智能泼了一盆冷水,但是我相信所有从事这个行业的技术人士都是有清晰认识的。

“所谓深度学习实验室,就是一批会调参的人,没有他们深度学习就没那么好用。虽然是句玩笑,但是深度学习要调的东西确实太多了,比如说训练数据怎么来,怎么选,如果是分布式运算怎么划分,神经网络结构怎么设计,10层、100层还是1000层,各层之间如何连接,模型更新的规则是什么,学习率怎么设,如果是分布式运算各个机器运算出来的结果怎么聚合,怎么得到统一的模型,等等,太多需要调的东西,一个地方调不好,结果可能就大相径庭。这就是为什么很多论文里的结果是不能重现的,不是说论文一定不对,但至少人家没有把怎么调参告诉你,他只告诉了你模型长什么样而已。”