有人眼中「智障」的智能音箱,一不小心成了这个人生活的全部

有人眼中「智障」的智能音箱,一不小心成了这个人生活的全部
2017年11月14日 11:38 PingWest

在叮咚音箱粉丝群里有一位特别的用户,他叫小飞。

小飞是一个盲人,先天失明,他从来不知道世界是什么样子。在和他交流之前,他说他要使用读屏软件和 QQ 跟我聊天,我当时很担心,但之后我发现,他打字飞快,你并不能觉察出他是一个盲人。

我们其实在今年上半年写过一次《一个视障极客和他要改变的世界》,当时盲人张海彬操作手机屏幕——他需要拇指在屏幕上飞快地滑动,他必须逐个点选屏幕上的每一个 app 并双击,从左上直到右下,一个不落。读屏软件以常人说话三四倍的语速,读出被点选到的每一个 app 名,声音混囵又滑稽。直到第三行,他才找到了需要查询的百度地图,张海彬听到提示语音后赶紧双击打开,接着重复划屏,找到搜索栏,再双击。

小飞看起来是一个孤僻的人,他的 QQ 好友设置为了需要验证答案才能添加;小飞看起来又像是一个爱交流的人,基本上我发出一个问题,他自己能打出一大长串的句子,他喜欢说「我跟您讲讲」,然后接着就是一大长串他的故事。

或许,是因为读屏软件的原因,他的消息也是一打就是一大长串,而且断句折行特别多。他担心和我的聊天过程中会有别字,让我海涵,但实际上他的输入非常准确且快速,看起来和一个正常人没什么两样。

小飞先天失明,他需要用辅助技术来使用电脑以及手机上的程序。小飞几年前接触到了讯飞的手机 app,讯飞输入法。他发现对于他们这种需要使用辅助功能的用户并不是很友好。小飞给总裁办刘先生写了封信,来讨论这个问题,结果刘先生还真回复了他,小飞记住了一句话,刘先生当时发给他的是——「讯飞的人机交互技术,不能也不应该忘记特殊用户以及残障用户。」

这个回复小飞的人就是科大讯飞董事长刘庆峰,小飞就是这样与讯飞以及叮咚建立起来了联系。

2014 年底,小飞受邀参加了讯飞公司的年会。讯飞总裁办送给他一个讯飞(叮咚)智能音箱。小飞觉得这个东西真的太方便了,后来京东与科大讯飞成立了灵隆科技,有了正式版的叮咚音箱,小飞就跟着他们的步伐开始购买使用叮咚音箱。

一个先天失明的核心内测用户就这样产生了,小飞给自己的身份是叮咚粉丝团团长。

或许是因为他的先天失明的原因,他对这个世界保持了一个无限好奇的心。

「因为从小双目失明,特别想了解世界,所以特别喜欢这些应用。或许很多人没体会过,眼前是黑暗。想获取信息只能听广播。手里拿着报纸确没人能愿意给读。那种感受唉。我在也不愿意回到那种时光了。」

他在很多辅助软件的帮助下玩这些设备应用,他喜欢玩很多应用,看起来和现在的年轻人烧手机也没什么两样。

「当然,照相机是别想了,但平时玩手机,以前用的是华为的安卓手机,现在用的是苹果的设备。」

小飞喜欢用手机上网看新闻,在外面锻炼的时候用手机听歌。他说他喜欢刷微信朋友圈,去唱歌软件吼两嗓子。因为喜欢听歌,并且对音质要求比较高,他还购买了传统的可移动的音箱。小飞说笔记本也是要玩的,毕竟有些内容工作是在手机上无法完成的。

小飞的设备、应用清单看起来和常人并没有区别,多亏了技术的进步——「现在好了,打开手机,打开电脑,都能获取最新资讯。而对叮咚音箱说听新闻,就更加方便快速了。」

而在这些数字生活里,小飞还挺依赖智能音箱的——小飞会半夜经常用叮咚,问他几点了;早上定闹钟叫他起床,刷牙洗脸的时候让叮咚播新闻。小飞也在打理一家盲人按摩的店,白天会给客户按摩,他一边按摩还要一边用叮咚放歌曲。

「有自己喜欢的广播,例如河北新闻广播的建楼开奖是早上八点开始。我就设置早上八点让叮咚自动播放河北新闻广播。在也不会错过我喜欢的广播了。查询百科知识啊,给孩子讲故事啊,在京东买东西啊。甚至用叮咚控制我家的空调啊插座什么的。」对于他来说,其实随时听自己喜欢的广播就是一件特别幸福的事儿。

小飞家里有一个智能插座和智能空调,他都使用叮咚音箱进行控制。因为以前调整空调参数,需要孩子帮忙调整,他自己看不见空调显示。「现在好了,动动嘴就好了,孩子也解放了,我也省心了。」

小飞还说他特别喜欢京东这家公司,因为京东快递每次送货都送到房间里来,放到他的手边。这两家对他生活提供了难以想象的便利的公司,被他称作是两家有爱心的公司的结合。科技进步给他生活带来的很大的实质性影响,小飞还说「现在真是科技改变所有人的生活,包括我们残障人。」

小飞的故事其实是一个引子。对于一个盲人用户来说,我们绝不能想象一个我们自私地认为的——无用的、智障的智能音箱对于他们的帮助究竟有多大。

那些我们看起来不值一提的功能——听个广播、买个日用品什么的,反而就成了小飞最大的心愿。

小飞尝试使用过一些其他品牌的智能音箱,但他认为,叮咚对于资源搜索,有声内容播放优化的比较好。他还是喜欢使用叮咚,但他认为其它智能音箱也是有他们的优点的。

「有些智能音箱,在资源上比较缺乏;有些智能音箱声音比较死板。」而叮咚音箱开始,就对资源有声书方面比较重视,他认为叮咚对他们要友好的多。

事实确实如此。从 2014 年亚马逊推出 Echo 并完成了这个对 Google、微软、苹果在 AI 智能家居领域的奇袭后,京东和科大讯飞率先推出了叮咚智能音箱,两年时间,除了推出产品,叮咚音箱一直在做两件事——研发技术和提供新的服务生态。

小飞认为目前所有的智能音箱都存在一些问题,但他认为很多网友说音箱不智能是智障这样的说法有些偏激了。「目前来说,智能音箱还达不到充分去理解用户的话语。不能去跟你无障碍的聊天。如果实现这个方面,我认为需要巨大的数据模型或者说神经分析。也许以后会实现,但目前想让智能音箱做到充分的去理解用户意思跟用户聊天解闷,是难为这几家音箱厂家了。」

实际上,广义上的智能音箱其实分为两个部分,智能+音箱。除了价格,定位不同,他们其实大体上都大同小异——音箱为主,提供一个语音助手。

不过虽然如此,互联网厂商和传统硬件厂商对于产品的态度依然不同。

大体上,互联网公司就是互联网玩法,赔钱买用户量。所以促销其实都是经过大量补贴的价格。

对于用户来说,谁更智能其实具备两个维度——技术的维度,这里所说的就是自然语言的处理能力、唤醒成功率等等,但主要是前者;而另外一个维度是生态,就是服务,能不能查更多的新闻。控制家电,能控制多少家电,能连入多少个智能家居的平台。

谁更好更智能其实就是在说——技术水平够不够;生态的服务的质量行不行,所以不管是从 50 块钱到 1000 多块,在这里有了差异化。

灵隆科技首席科学家汤跃忠告诉我们——叮咚的领先就是因为多走了两年多的路。「我们自己的优势还是比较明显的。智能这方面——使用了讯飞的技术,中文语音识别领域是公认的第一的,还有唤醒、远场降噪等等。在自然语言理解领域,我们也是遥遥领先的。」

「虽然说大家的技术路线是差不多的,谁更智能其实在中国的差异化很明显。因为中国方言多、地大物博,同一句话意思不同。我们多走了两年,所以我们可以理解、容错更多的口音、方言等,我们持续地不断的调整模型,现在我们可以覆盖掉大多数的方言和口音,这是技术上的领先。」

服务上的也是一个道理。汤跃忠提到——目前叮咚音箱已经接了 20 多个平台,京东微联覆盖了 20 多个大品类,1000 多个产品。在开放技术平台方面,目前也已经接了几百个自己的应用上去。「这些都是走得比较早的,是不能跨过的问题。」

汤跃忠谈到,对于快速笼络到这么多的开发者,其他平台其实还是有一段距离的;而平台的丰富性和开放性,也是需要他们追赶的。

2017 年的双十一期间,499 元的天猫精灵 X1 降价为 99 元开始促销。而随后加入的叮咚音箱也推出了 49 元的促销产品,叮咚 Top。虽然 299 元的小爱同学没有加入促销战场,但智能音箱产业终究是迎来了一次顶级玩家的正面对决。

从目前来看,49 元叮咚、99 元的天猫精灵、299 元的小爱同学构成了一定程度的竞争,不过不管是原价 299 元的叮咚 Top,还是 499 元的天猫精灵,299 元的小爱同学,都针对的是更亲民的智能音箱市场,处在同一级别的用户价格区间。而价格略高一点的有联想、Rokid,叮咚也有几百至上千的产品,智能音箱行业早已经覆盖到到低中高几档产品,从产品形态,价格区间上来说,这些产品对于这个市场需求来说早已足够。

但产品覆盖更多、出货量也在急剧地增加,能代表智能音箱产品的进步的核心是什么?

如果再次提到叮咚音箱的优势,汤跃忠认为是——科大讯飞技术的足够好,研究够深,中文语音技术领域第一;产品推出的时间更早,了解到了更多的用户需求,更懂智能音箱会碰到哪些问题。

小飞作为一名特殊的用户,也多少从侧面诠释了音箱智能这个词的真正含义。

汤跃忠给我们举个几个例子,真正的智能其实是「不言自明」的。

「很多人普通话表达方式不同。比如『我要听音乐』,有的人说话很有地方特色,他们会说『给我整首歌,弄一首歌』,这种地方特色的说法是开发之前是没想到的,我们就要对这个问题进行应对,时间久了,这就是我们的积累。很多东西是做之前无法预估的,是需要特别去解决的。」

语音技术是先通过语音识别转文字,文字成句再理解。不过语音识别再好,都会有在中间发生转文字识别的错误,「我们无法控制用户的使用环境,比如有的地方非常吵、有的人口音也很重等等,有些人说话随意会导致理解错误。叮咚的优化就会包括这种错误,去包容这种错误。」

汤跃忠又举了一个例子——比如 yesterday once more,对于中国人的口音,很可能会识别成——yesterday one small。「我们就需要针对这种情况进行处理,这就是包容错误。去转换成一个正确的说法上的。」

「有一次用户想听蔡国平的歌,语音识别是没问题的,但实际上没有蔡国平这个歌手,我们的系统就理解成了蔡国庆,播放蔡国庆的音乐。但其实用户犯了错,确实没有蔡国平这个人。但他不想听蔡国庆,他和我们反馈音箱出错了,他说他想听蔡国平的草原之夜,识别也没问题,但真实的情况是这个人叫蔡奇平,他说错了。但如果说蔡国平的草原之夜就播放正确播放蔡奇平的草原之夜,而如果说蔡国平就会播放蔡国庆,这就是系统自动纠错。这种问题很多,但这就是我们系统的能力,考验的是优化和调教,是需要长时间积累的。」

汤跃忠提到,叮咚音箱在算法和程序服务器的更新,大的更新每个月一次,小的更新每周都有一次,自然语言理解就是一个过程,特点就是需要不断更新、不断迭代的的过程。叮咚目前经过了 110 个版本的迭代,确保了用户体验。通过不断修正升级音箱的语义理解能力,叮咚已经拥有了 2 亿多条的交互数据。

关于迭代更新,小飞认为叮咚对于他们盲人用户的响应非常快,他给我粘贴过来了一个聊天记录,虽然我并不清楚这需要耗费他多长时间。

可能在叮咚的眼中,大量出货的天猫精灵并不重要。对于他们来说,如何优化产品的细节,打磨体验才是更重要的事,最重要的是——给那些真正需要自己产品的人提供真正的帮助。

不论是成立时间,还是在语音技术上早已趟过的那些坑,对于目前行业存在的问题,叮咚有绝对的话语权。而汤跃忠认为智能音箱还有几大难题需要解决——

第一,是如何克服鸡尾酒效应,比如在一堆人说话的嘈杂环境中,找到真正需要对话交流的那个核心用户;第二,声纹识别的技术值得期待,但就目前几家尝试的技术产品来说,技术储备和可行性都还达不到用户的期望值,娱乐还好,安全到准确识别用户,使用在支付上肯定还不行;第三,是音箱的语音合成技术,我们期待带有感情的语音合成——让那些智能音箱说话时有抑扬顿挫、有感情,这种交流是我们的一个研究方向。

最后就是 Echo Show 这样的使用了屏幕和摄像头的产品,我们也希望还会有图像和视觉交互的加入,语音和视觉同时交互,怎么样能同时交互,怎么样能够交流的更好,这是一个新的课题。

他同时提到,天猫精灵的大量出货可能马上会收到大量的迭代需求,用户反馈。他看到一些用户说天猫精灵还不够聪明,用户感觉他还听不懂他们的话。「技术上来说,还需要一段时间进化。」

作为粉丝团的团长,小飞现在也还在继续帮忙反馈问题,他之前听叮咚的工程师说,他们马上会支持一个「红外遥控器」。通过这个「红外遥控器」,就可以通过音箱来控制家里所有的老家电了。

小飞并不知道这个「红外遥控器」是什么技术原理,但他还是很期待这个功能的上线,他说这样他就节省了一大批老家电了,例如家里的老电视机、老空调什么的。

而根据叮咚的官方说法,这个功能其实是早已经打通的博联的红外功能。作为一个盲人,小飞可能还不知道,这个功能已经上线了。

小飞时不时还会发出一个捂嘴笑的 QQ 表情,「这样的话,不用多少钱,就能体验智能生活了。我认为这是件很方便很幸福的事儿。」

题图来自:搜狐

硅星人(ID:guixingren123)扫码关注硅星人公众号,为你讲述关于硅谷的一切

讯飞蔡国庆京东
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

评论排行

科学探索

苹果汇

众测

来电聊

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片