分析：语音识别离第二次浪潮还有多远？_业界-政策与产业_科技时代

分析：语音识别离第二次浪潮还有多远？

http://www.sina.com.cn 2003年09月16日 10:27 互联网周刊

　　语音识别

　　酝酿第二次浪潮

　　前景广阔的语音技术并未像期待的那样“无处不在”，但新近崛起的市场需求似乎正在酝酿语音识别技术应用的第二次浪潮。

　　本刊记者彭祯艺

　　得意音通是一家提供语音技术的公司。打进该公司的电话总机，在通常的“请拨分机号”以及“人工服务拨0”的语音提示外，加上了一条“请说您找哪位”。其实，像这样的用户直接跟机器对话的系统在美国已非常普遍。在遍布美国大街小巷的公用电话亭里，只要有AT＆T语音识别系统标识的，用户只需对着电话说“Connect Operator Please”，系统所具有的关键词检测技术就可以从句子中查找到Operator，直接把电话接通到接线员，系统的识别率超过99%。

　　相比用按键方式进入一级级菜单的传统的呼叫中心，这样的服务显然更方便。尤其是在不适用于键盘和鼠标输入的移动计算环境，语音输入具有更大的发展潜力。就算是在办公室，语音识别技术也可以帮助一部分不愿意或不能使用键盘、鼠标的用户减少大量的手腕和手指的重复劳动。然而，这样的技术对大部分人来说仍然很新鲜，想想有几个人使用了手机里内置多年的语音拨号功能？

　　技术的落差

　　语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。实验室语音识别研究的巨大突破产生于20世纪80年代末：一些小词汇量的识别系统具备了较高的识别率。同时，人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中。语音识别技术获得突破的主要原因在于半导体技术、软件技术和存储技术突飞猛进的发展。

　　语音技术掀起的第一次浪潮始于20世纪90年代前期，许多著名的大公司如IBM、苹果、AT＆T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。在1997年有人提出，“语音时代”已经来临，商家也都对此充满了信心：希望语音识别能力能跟人一样。语音识别技术变得如此受欢迎，让人不得不相信，语音技术将无处不在。

　　然而，事实并非如此。在实际应用中，在实验室中“成功”的语音识别系统在鲁棒性(Robustness)、灵活性和自适应能力上还远远不能满足实际的需要，技术上也显得力不从心。得意音通公司副总裁邓永强说：“过高的市场期望面对实际的技术水平和应用现状，难免产生泡沫。”

　　技术的不成熟，加之市场的接受情况，语音识别市场确实无法用上“火爆”这个形容词，甚至无法在市场上找到几个语音识别方面的成熟应用，因此，众人纷纷打起了“半成品技术”的主意，“以现有的技术水平来创造出应用”。以中国市场为例，厂商并没有去追求最完美的应用—“听写机”一类的非特定人、连续语音、大词汇量的语音识别，而是把当前已经成熟的那部分技术应用到实际的产品中。例如以中小词表为主的命令式语音识别，包括呼叫中心、语音拨号，移动设备中的嵌入式命令控制等，并且对于普通话能达到相当高的识别率。

　　语音识别的“新三难”

　　语音识别系统的分类有三种依据：词汇量大小，对说话人说话方式的要求(分为孤立词语音识别和连续语音识别)和对说话人的依赖程度(分为特定人和非特定人语音识别系统)。语音识别技术的发展历史就是从简单到复杂，逐一攻克“老三样”指标的过程。

　　最简单的小词汇量、孤立词、特定人语音识别技术在20世纪70年代就已经非常成熟。尽管有一定的难度，目前在实验室环境下“老三难”均能达到最高标准，也就是听写机。微软称嵌入到Office软件中的听写系统能在标准北京口音输入的情况下，首次识别率达到93%，调试之后达到96%，并且新的技术正在使识别率不断上升。

　　技术的价值在于它服务于应用。虽然在实验室拥有如此高的识别率，在语音识别技术从各个不同的突破口进行应用和产业化的过程中，“新三难”凸现出来，成为研究重点。

　　首先，方言或口音会降低语音识别率，而对于拥有八大方言区的中文来说，应用的难度会更大。清华大学计算机系语音技术中心副教授，同时也是北京得意音通技术有限公司董事长兼总裁的郑方博士就正在跟踪解决这一问题。今年，在美国约翰霍普金斯大学召开的每年一度的语音技术研讨会上，郑方博士提了一个关于方言和口音问题的提案，题目定为“Dialectal Chinese(带方言的普通话)”。题目本身的重要性使它在全球十几家提案中胜出，并成为最终被选定的三四家之一。郑方博士说，“Mandarin Influenced by Native Dialect(受母语口音影响的普通话)”将有可能成为一个需要四五年时间完成的大项目。

　　“新三难”问题之二是背景噪音。人多的公共场所巨大的噪音对语音识别影响自不用说，就算在实验室环境下，敲击键盘、挪动麦克风都会成为背景噪音。它将破坏原始语音的频谱，或者把原始语音部分或全部掩盖掉，造成识别率下降。实际应用中，噪音是无法避免的。研究将要解决的问题就是如何把原始语音从背景噪音中分离出来，这将会使识别系统具有很强的适应性。

　　第三个就是“口语”的问题。它既涉及到自然语言理解，又与声学有关。语音识别技术的最终目的是要让用户在“人机对话”的时候，能够像进行“人人对话”一样自然。而一旦用户以跟人交谈的方式来进行语音输入时，口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难。另外，当人们在口语交流时，即便是人的大脑分析认为是非常标准的发音，在语音识别的时候上却变到了声学的角度，随意发音带来的问题是很大的。

　　“新三难”是在语音识别技术的应用中对识别率影响最大的三个因素。除此以外，由于语音在识别前需要传输，识别系统还需要适应不同类型的传输信道。语音识别技术本身还有很大的发展空间。

　　第二次浪潮还有多远?

　　多年的研究使国内中文语音识别的核心技术与国际的差别不大，并且从去年开始，中文语音识别技术的应用开始大量涌现，产业化进程从此拉开序幕。邓永强把语音识别产业的现状比作1995年时期的互联网，“树在长大，有绿叶了，还在等开花结果”。他认为，中文语音识别产业经过了1998、1999年的转折点—从0变成了1，将会在明年出现新的转折点，形成新的发展高峰。那么，中文能否给语音识别带来第二次浪潮？

　　又一次浪潮的出现，必须建立在成型的市场之上。今年3月，HarrisInteractive公司受美国的专业语音技术公司Nuance委托对美国普通公民进行了语音技术满意度的调查。调查结果是：语音技术已被广泛的接受和使用；用户对他们曾经使用的语音技术有着高度评价；语音比起其它的交互方式有更多的优势。可见，语音技术在美国的普通公民中有着相当高的接受程度。在这样的基础之上，美国语音识别市场逐渐做大，已经形成了竞争的格局。

　　而国内在技术的应用上起步较晚，导致了现在国内用户感到新鲜的语音产品在国外已有了好几年的应用。早在1997年就进入中国语音识别市场的IBM，已经花费大量资金培育市场，让大家知道了什么是语音技术。或许正是因为如此，在市场推广方面较为薄弱的国内厂商并不排斥具有强大实力的国际大公司。北京中科模识科技有限公司总裁徐波博士认为，“目前与IBM和微软这样的巨头之间并不是竞争的局面。如果他们在技术上取得突破并形成产品，或者把语音识别嵌入到他们自己的强势产品中去，也不一定是坏事。这样，将会有更多的人接受语音识别技术，市场规模会更大。”郑方博士表示，“关键的问题是如何把现有的技术应用到实际中去；如何从市场上获得更多的反馈以提升技术，再把新的技术切入到产品中，不断的寻找新的结合点。”研究怎样跟产业结合是一个永恒的话题。语音识别形成产业并向前发展不可否认，而能否在明年迎来新的高峰就要看国内厂商如何的应用技术了。业内人士都认为，国内的厂商要互相取长补短，一起“拱”出中国的语音识别市场，单单靠一家公司是办不到的。

　　高峰之后

　　如果这一次语音识别的发展高峰形成了，它的主要特点将是语音识别技术在不同应用领域的突破，并逐渐大面积普及。高峰之后的持续发展是各个厂商都必须考虑的问题。20世纪90年代末语音技术在到达一定的发展程度后出现回落的根本原因，就是当时的技术水平没有与人们对语音识别的期望匹配。如今，一方面能够应用在某些领域的技术已经成熟，例如以中国科学院自动化研究所模式识别国家重点实验室为依托的中科模识，其汉语连续语音、非特定人听写机系统的普通话系统的错误率可以控制在10%以内，代表了世界领先水平。拥有核心技术，成为国内企业稳步发展的底气来源。

　　另一方面，国内的厂商更加重视把现有水平的技术应用到实际产品中，而不是等待技术的各个方面都完美了才投放市场。例如得意音通利用姓名拨号的自动总机，就是基于小词汇量的语音识别。虽然处理的对象是连续语音，但并不追求对整句的识别和理解，而是采用“关键词检出”技术，在输入的连续语音中捕捉感兴趣的部分对其进行匹配，从而达到识别的目的。不论这一方式是否师从于国外公司，技术研发与应用阶段性的交替进行，避免了市场对技术的过高期待，也就压制了泡沫的产生。

　　一向具有前瞻性的重量级IT公司在迎合中国这次语音识别市场发展机会之时，又一次流露出了对市场发展高峰之后充分准备，也让人们看到了在可能出现的“第二次浪潮”后的远景。20世纪50年代就开始语音识别技术研究的IBM不断推出新的ViaVoice版本，把语音技术应用到PDA、智能汽车上。它也提供语音开发工具SDK，希望缔造一个全方位的语音平台。然而，不论中国语音识别第二次浪潮会怎样来临，语音识别产品本身会给IBM带来利益是毫无疑问的。在最近的“IBM亚太区电子商务解决方案亚洲巡展中国站”北京研讨会上，IBM还现场演示了如何利用语音识别来控制家电设备。微软也已经把语音识别技术集成到了多个领军产品中，包括Office和Windows XP，其最新的语音识别服务器软件Speech Server准备在2004年上半年发布。该软件允许用户使用语音命令对电脑进行操作，企业也可以利用它建立一种类似于自动电话系统的服务。对于语音识别技术，微软把希望寄托于1998年成立的微软亚洲研究院，大力投入到语音开发工具的研究和全力支持SALT规范(语音应用语言标记标准，可能与之前的语音可扩展标记语言VoiceXML形成对立状态)上。

　　微软当然看到了中国语音识别市场快速发展，但它的眼光更远的放在了这一次技术应用的高峰之后。微软亚洲研究院语音组主任研究员张益肇博士说，“语音技术将会无处不在，随处都会有语音平台的用武之地，此项技术是微软亚洲研究院的重心之一。微软在酝酿语音技术更长远的应用，五年、十五年，或许更长时间—技术成熟度是决定因素。”微软眼中，真正的高峰在于语音识别技术使用户以最自然方式操作电脑—这就是比尔·盖茨提出的Natural Computing。