不支持Flash

奥运语音翻译:在第一时间读懂你

http://www.sina.com.cn 2007年08月29日 09:43  科技日报

  本报记者 贾婧

  在2008年的北京奥运会期间,或在2010年的上海世博会期间,也许会出现这样的一幕:当一位外国友人因为不认识去往某个地点的道路而向你求助时,你再也不用因为听不懂他的语言而烦恼了,此时你只需求助于小巧的掌上电脑或者普通手机,便可实现不同语言的同声传译,让你们在第一时间听懂对方的语言。

  这就是宗成庆研究员和他的863课题组正在进行的研究———面向网络应用环境的口语翻译关键技术与系统研究。

  谈到这个刚刚启动的课题时,作为课题负责人之一的中科院自动化所模式识别国家重点实验室副主任宗成庆说:“语音翻译研究起始于上个世纪80年代末期,中科院自动化所在这条艰辛的道路上已经坚持了10多年,现在所进行的研究是在前人工作的基础上再向前迈进一步。”

  人机对话和翻译十年磨一剑

  当记者问到,去年刚刚被批准的863课题“面向网络应用环境的口语翻译关键技术与系统研究”是否还停留在刚刚启动的初期阶段时,宗成庆笑笑说:“其实我们这次做的是一个自动化所多年来立志研究的‘老’课题了。”

  说它“老”,是因为中科院自动化研究所多年来一直致力于语音翻译和人机对话技术的研究,十多年的研究摸索,使他们在语音识别、口语理解和翻译、人机交互和语音合成等技术领域均取得了显著成绩,为进一步从事语音翻译研究奠定了坚实的基础。

  早在1996年,该研究所实现的“北京旅游信息语音咨询系统”就通过了中科院组织的成果鉴定,被专家认为已达到当时的国内领先、国际先进水平,并作为国内唯一的语音识别系统被选中作为有代表性的成果参加了“863”十周年成果展览。负责完成这一系统的黄泰翼研究员正是宗成庆从事博士后研究阶段的指导老师。

  2000年,宗成庆和他的老师黄泰翼共同负责,成功地完成了国家863课题“口语自动翻译方法研究”,并建立了面向旅游信息咨询领域和旅馆预订领域的汉英口语自动翻译实验系统。同年,由徐波研究员负责,他们与日本松下公司高技术研究所合作研制开发了国际上第一个餐饮领域袖珍型汉—日—英多语言口语自动翻译机原型系统。

  2000年10月,国际上口语翻译领域最具权威的学术组织国际语音翻译先进研究联盟(C-STAR)正式接纳自动化所为核心成员,这也是到目前为止中国唯一的C-STAR核心成员。

  2003年,以自动化所为牵头单位完成的国家自然科学基金重点项目“汉语话语翻译关键技术研究”在项目结题评定中获得A级的优秀成绩。

  2004年,自动化所作为技术骨干参与完成了国家863重大课题“奥运多语言智能信息服务系统关键技术及示范系统研究”,与美国卡内基-梅隆大学和德国卡尔斯鲁厄大学等联合研制了汉英双向语音翻译实验系统。

  2005年,自动化所开发的汉英口语翻译系统在国际口语翻译系统评测(IWSLT)中在主要技术指标(BLEU)上获得了第一名的好成绩。

  近几年来,自动化所与其他C-STAR核心成员联合开发的多语言口语语料库(BTEC)已经成为国际口语翻译系统评测的权威语料库。

  改善人机交互效率提高系统性能

  国内外相关领域取得的辉煌成绩和市场的迫切需要,催促着宗成庆和他的课题组要把用“机器翻译”这块老布,裁剪出一件适应时代潮流的“新衣”。

  这其中的困难,也就日益凸现出来了。

  宗成庆说:“在语音学中,韵律,是在一个语法单位内语音的超音质表现特征,韵律中包含了语音和语法双重信息。”

  韵律,一个我们日常生活中常常提到的词语,成了闯入宗成庆和他的研究组视线内的一座“碉堡”。

  与朗读语音相比,口语语流中蕴涵了更丰富的韵律特征和变化规律。他们的课题将针对口语语音的韵律表现,从语音和语法不同层面,研究口语韵律特征的抽取与建模技术,韵律单元边界的自动分割技术,以及基于韵律单元的语言建模技术。

  宗成庆认为,对话管理是人机交互中的中心枢纽,如何建立可控、有效的对话管理机制始终是人机对话系统中的一个关键问题。在他们的课题研究中,对话管理机制将被引入会话翻译,并作为整个系统的管理中心。

  他说:“我们将针对口语翻译系统与一般对话系统的区别,建立有助于用户意图理解和翻译,通过人机交互过程有效控制的对话管理机制,使其有效地协调语音识别、口语解析和翻译以及语音合成等各主要模块的工作程序。”

  宗成庆说,他们正在研究如何减少人机交互的次数,实现系统处理结果与用户意图之间的有效沟通,以提高系统译文的可懂度。

  引入用户体验实现以人为本

  据宗成庆介绍,口语与书面语相比有很大的不同。除了口语中存在着大量的不规范语言现象以外,口语语句的远距离上下文相关、对话主题的随意转移和变迁、指称隐含和回指,以及隐含的情感信息等都有很多的特殊性,这些特殊性构成了会话口语独特的语法结构。而且,转换成文字的口语语句中没有标点符号,语音识别结果中难以避免的错误或冗余所造成的噪声等,都大大地增加了口语理解的复杂性。因此,如何建立形式化的口语语法,并充分结合口语语法信息和统计模型建立有效的话语分析新方法将是本课题研究的重点内容之一。

  宗成庆说:“多年以来,人机交互技术的研究仅仅限于交互技术本身,而忽略了其中重要的参与者‘人’。以‘技术’为核心的研究开发,得出的成果固然客观,但离应用推广还有很大的距离,即便形成了产品,用户的反响往往并不热烈。”

  “科学研究最好不要脱离应用需求和使用对象,尤其是应用基础技术的研究。”宗成庆说,看到了问题,他和他的课题组开始寻觅解决之道。

  除了理论问题以外,很多技术不实用的一个重要原因是,系统的操作方法不够直观,人机界面不够人性化。系统的开发人员自然知道如何使用,而普通用户不知道如何下手。因此,从实用系统的角度来评估一个口语翻译系统的性能时,除了译文的准确率和可懂度以外,另一个重要的方面则是系统的可用性。

  宗成庆说,在本课题中引入用户体验模式的目的在于让最终用户参与到技术研发和用户界面设计的过程中,开发出原型系统之后,让用户真实地使用并感受一下,然后根据用户的反馈意见重新修改功能模块或用户界面的设计,力争使口语翻译系统真正可用,并且让用户喜欢使用。

  强强合作抢占先机

  “这个课题的研究内容涉及语音识别、口语理解和翻译、语音合成、通讯和人机交互等多种技术,因此,开展这项研究可以大大地推动相关技术的深入研究。”宗成庆说,“课题的每一项技术及其最终集成的语音翻译系统在实际应用中具有极大的使用价值,语音翻译系统几乎可以应用于所有需要翻译服务的场景,包括手机等多种类型移动终端的跨语言通讯翻译服务和用于国际性大型论坛、运动会和博览会等事件的现场翻译服务,具有极大的潜在的用户群体,其社会效益和经济价值是无法估量的。”

  该课题的成功启动和实施,得益于合作单位的强强联合。中科院自动化所除了拥有丰厚的技术积累以外,在口语语音、语言资源积累方面还有较大的优势,他们与C-STAR核心成员联合收集的目前国际上规模最大、对照语言种类最多(汉、英、日、韩等)的旅游领域口语语料约45万句,另外还有一大批体育、餐饮服务、天气预报等领域的口语语料,规模庞大的语音数据库和一系列国家发明专利。这些资源为口语分析和理解方法研究以及语音识别和合成技术研究奠定了坚实的基础。

  当然,更重要的是自动化所拥有一支优秀的语音语言技术研究团队,在语音识别、机器翻译、自然语言理解、语音合成等技术领域均有雄厚的实力。

  作为本课题的协作单位诺基亚(中国)投资有限公司,长期从事网络通讯技术、用户体验研究与移动设备上多语言语音识别、语音合成与自然语言处理技术的应用开发研究,多年来积累了大量的资源和技术。

  “诺基亚还是通讯市场上重要的厂商之一,有助于提供通讯相关的背景知识与接口信息。”宗成庆说,选择这样的行业巨头合作,也有助于研究成果的转化与市场推广。

  “总之,无论在人才队伍和技术积累方面,还是在硬件设备和市场需求等客观条件方面,语音翻译技术研究的时机已经成熟,目前正处于关键时刻,加大其研究和投入的力度,使其尽快走向实际应用,非常有必要。”

  宗成庆和他的课题组似乎看到了希望的曙光。

  -数字863

  课题的参加人员有19人,其中,具有高级职称的有5人,中级职称4人,博士生、硕士生共计10人,拥有职称的研究人员中有8人具有博士学位。课题预计投入约500人/月。项目完成后,预期达到如下目标:

  1.形成具有创新思想的口语翻译理论框架,开发一批实用的关键技术,发表高水平学术论著20篇(部)以上,申请发明专利5项以上。

  2.建立汉英实时语音翻译实验系统平台,进行多类型终端的国际语音通讯翻译联合实验,系统应用领域包括日常会话、旅游信息和商务洽谈三个子领域,翻译词汇量在20000左右。

  3.汉语口语语音识别的准确率达到90%,在特定环境下汉英翻译的译文主观评测的可理解率达80%以上,客观评测的BLEU指标不少于0.35。

  4.进一步扩大汉英对照的口语语料规模,新增语句不少于20万句对,标注汉语口语对话不少于3000段,平均每段不少于10句。

  5.通过本课题的研究,培养一批语音、语言技术领域的专门人才,预计培养博士生、硕士生不少于15名。

发表评论 _COUNT_条
爱问(iAsk.com)
不支持Flash
·城市营销百家谈>> ·城市发现之旅有奖活动 ·企业邮箱换新颜 ·携手新浪共创辉煌
不支持Flash
不支持Flash