跳转到路径导航栏
跳转到正文内容

走进语音搜索时代

http://www.sina.com.cn  2006年05月24日 16:31  赛迪网--中国计算机用户

  作者:王占波 

  【赛迪网讯】服务是戴尔业务发展战略的重要组成部分,也是戴尔发展最快的一项业务。目前,戴尔服务发展速度是行业发展速度的10倍。

  哼一段旋律就能查到对应的歌曲,输一个关键词就能从一堆音频资料里查到想要的一段话。一边摆弄着语音软件,赵庆卫博士一边说,“这些语音识别技术是最近一两年才开始应用的。”

  2006年5月8日,在中国科学院声学研究所中科信利语音实验室里,赵庆卫博士向记者演示了实验室在语音识别技术的一些应用软件产品。

  一个单位,两块牌子。颜永红的名片上印着两家单位名称:中科信利技术有限公司和中国科学院声学所语音实验室,其实这两个指的是同一个单位。

  颜永红既是中科信利公司的董事长,同时兼任语音实验室的主任。中科院声学研究所所长田静博士将这种模式称为中科院高科技产业化的“试点”。

  “在国内公司里面,真正将语音识别产品拿出来在国家电信网上使用的,应该只有我们。”颜永红表示。

  音频搜索:从关键词到内容

  “在将来数年内,互联网将成为一个浩大的视/音频档案库。”颜永红顺手指了一下他桌子上的聊天摄像头。

  伴随多媒体内容制作成本下降,诸如《馒头》之类网民自制的音视频内容在互联网上日益增多,一段用录音笔随手录下的讲话、自我娱乐的博客音频,或是用DV亲手拍下的短剧,将大大激发网民的创造热情。而3C(Computer、Communication和Consumer Electrics)融合带来的应用,将渐渐抹平个人电脑、电视和移动设备之间的界限。然而,如何在这样浩繁的数据库里查找所需的片断,亦将成为困扰互联网搜索的难题。

  “目前的搜索技术主要是搜索音视频的关键词,如名字或作者,并没有办法搜索音频内容。”颜永红指出。

  如今,大多数的视/音频搜索引擎依赖于人工创建的文字信息,比如包含视/音频网页的环绕文字;或者注册源的描述性文字(作品名称或作者名字)。步入下一个网络(NGN)时代时,多媒体信息将必然增多。

  但由于音视频内容都包含在文件里面,并没有一个直白的文字材料可以去搜索,这个时候,需要一种技术对音视频文件去理解,只有知道了内容以后,才能应用搜索引擎。

  通过语音识别技术,可以把多媒体文件变成文字。然而,一旦实现了这种转变,又将产生一个老问题:如何有效地进行文字搜索。

  事实上,实现了音频向文字的转变,只要使用现有的搜索引擎技术,就可以解决这个老问题。“对于下一代搜索引擎来说,语音识别技术是关键。”颜永红说道,头略微昂高了些,眼睛直视着前方。

  前语音搜索时代的商机

  有一台遥控器,用户就可以直接在电视上使用搜索引擎,搜索视频语音内容中的文字。

  2006年4月27 日,在“2006微软亚洲研究院创新日”开幕式上,一台具有点播视/音频搜索功能的电视机吸引了观众的目光。这是微软亚洲研究院利用语音识别和信息检索相关技术研发的新产品。

  “目前,它主要应用在消费电子类产品上。”微软亚洲研究院语音组副研究员赵勇表示,语音识别技术肯定会对未来的互联网搜索引擎产生重大影响,“但现在还没有在互联网搜索领域使用。”

  “我们现在已经可以为客户提供整体解决方案。”颜永红在中科信利与富迪科技结盟仪式上表示。2006年4月20日,两家公司宣布形成结盟,以适应真实语言环境和个性化的信息家电应用需要,并力图在交互语音市场中推广语音识别技术的广泛使用。

  富迪科技是应用SAM(小型阵列麦克风Small Array Microphone)硬件技术的公司,通过解决语音处理过程中遇到的回声及噪声,提高语音传达的准确性。颜永红把这种合作模式描述为:“软件+硬件”。

  语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等。

  提高系统精确性,就是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下保持性能稳定;自适应的目的是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。

  语音系统中的噪声包括环境噪声和录音过程加入的电子噪声。增强系统精确性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征。

  富迪科技的SAM和芯片技术就是确保通信免除回声和噪音的干扰。SAM的波束形成技术能精确地形成一个对准说话人的椎状窄波束,只接收该说话人的声音,同时抑制环境中的噪音与干扰。这些技术已经成功使用在汽车免提通信/远程通信以及VoIP电话等。

  2005年,中信科利通过三家增值服务商将语音技术应用于中国电信、中国网通、中国移动等20个省的语音呼叫服务上。

  在传统的模式下,打单位电话,总是需要先转到企业总机,再经接线生转向目的地。现在应用了语音识别技术,只要说出那个人的名字,机器就直接转到相应人的分机上。

  走在大街上,经过音像店,手机用户突然听到一首歌曲,旋律很美。这时候,人们如果想找到这首歌曲,怎么办?可以用手机拨号到服务器上,对着话筒哼出这段旋律,服务台就会告诉大家歌曲的名字和歌手的名称。这是中科信利推出的基于分布式集群架构的语音处理平台TSE。

  TSE可以集成多个不同的语音处理模块,对多个服务器进行动态资源管理和负载均衡,具有容错处理功能,可以同时处理大规模并发应用。

  据介绍,一台普通的服务器可以同时支持90线并发应用,识别准确率达到95%以上。TSE现有的主要功能模块包括:语音识别、歌词检索、旋律识别、语音搜索以及特定网站语音搜索。

  在演示中,赵卫东特意演唱了一段歌曲,很快,识别模块就列出了一长串儿备选音乐。

  2005年,国内语音合成技术企业安徽中科大讯飞信息科技有限公司通过和美国Nuance公司的合作,在语音识别技术市场开始了与中信科利的角逐。

  美国Nuance公司是由原来国际上四大语音公司以及其他在语音技术方面有特点的语音公司整合而成。合并以后,Nuance成为了全球首屈一指的语音解决方案供应商,在全球语音市场稳居第一。它能够提供了从网络到IVR(Interactive Voice Response,互动式语音应答)的应用方案。

  凭借Nuance多达28个语种的语音识别技术和在美国宇航局太空总署最新研发的宇宙飞船中的语音控制技术,安徽中科大讯飞将有力地推动国内语音市场的竞争态势。

  全面商用尚待时日

  尽管坚信语音识别技术在下一代搜索引擎中是关键,而且已经有了初步的商业尝试。颜永红依然认为,“大规模普及商用仍需要5~10年的时间”。这主要是尚有一些技术难题有待解决。

  语音识别的精确度还需要大力提高,当前的语音识别技术难免会引发一些错误。此外,对计算机而言,计算复杂性还太高。作为一个使用者,如果建一个网站进行语音搜索,可能需要大量的服务器。同时,硬件条件并不成熟。

  “我们希望,‘十一五’规划结束的时候,至少要让相当多的人接受语音搜索,而不仅是谈理念。”颜永红表示,五年的时间,由于技术上的摩尔定律效应,计算复杂度的问题将可以解决。对于复杂性太高的问题,也许五年以后就不存在了。

  对于语音识别的精确度问题,颜永红坦言:“这需要专业人员研究算法,努力把错误率降下来。”

  针对目前的简单应用,语音识别技术已经不存在什么问题。比如中科信利的中文电视广播新闻节目识别系统已经被英国Autonomy公司采用,并作为其提供给全国各电视台的数字媒体管理系统中一个核心技术模块。

  若要在人机交互中让计算机真正理解那些并不标准的发言人的语音,则尚有一定的难度。它要实现完全的商用,还有较长的路途要走。

  在演示中,有人如果发言时带南腔北调,或说走调的话,计算机往往不能准确辨识。颜永红解释,这就和人一样,比如一个记者,讲新闻、摄影方面的内容,可能很精通,也比较好理解。但是,如果让他坐到隔壁去听一个化学教授的讲座,可能就听不懂。把全球互联网的搜索内容,完全放开,计算机辨别、确认则具有很大的难度。解决的途径之一是,为搜索限定范围,比如局限于摄影方面的内容,语音识别准确性会提高。

  再有就是多媒体的内容理解,这要比文字的理解难度高很多。就文字而言,不管是哪种,对计算机来说,都是一大堆的0、1编码。但对于语言来说,全世界有多少种语言,就需要有多少个开发语音识别技术的公司。

  公司往上发展一步,难度不是只增加一个数量级,而是几个数量级。这就决定了在语音搜索市场实现一家公司垄断几乎不可能。

  颜永红认为:“将来,企业也许会通过收购来完成多语种语音搜索来覆盖市场。”语音识别很大的障碍是语言障碍。

  目前,中科信利主要是做中文语音识别,英文的也有。而一旦做英文方面的识别,就需要很多英文数据。“收集这些数据很困难。”颜永宏表示。

  将来是否会和中外互联网搜索引擎公司合作?颜永红表示,有接触的愿望,但尚无实际进展。他认为,“如果我们东西做得好,他们肯定会用。当然,这还是一个不成熟的技术。”(n101)

Powered By Google ‘我的2008’,中国有我一份力!

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2008 SINA Corporation, All Rights Reserved

新浪公司 版权所有