科技时代新浪首页 > 科技时代 > 滚动新闻 > 正文

捷通备战奥运之声 力促语音技术国际联盟


http://www.sina.com.cn 2005年01月11日 10:47 赛迪网

  【赛迪网讯】理想,无障碍交流的故事

  捷通人一直有一个理想,那就是如何在人与机器之间,各种不同语言条件下的人与人之间、正常人和伤残人之间实现无障碍的信息交流。奥运机遇使我们更要面对在多语言环境下人们如何进行沟通。

  这几个“之间”就决定了无障碍交流的重要意义。

  首先,从设备和环境来看,人所在的环境不同,处理信息的方式也不同。当你坐在电脑前,键盘和显示器无疑是最方便的。手机和PDA的出现,小键盘和小屏幕使在办公室里已经熟悉的I/O(输入/输出方式)在移 动状态中得以延续。而在手持设备、街头信息亭以及各种公共终端上面,手写笔及其触摸式手写技术又会大显身手。再继续看,人在驾车的时候双眼目视前方,双手握方向盘,眼睛和手都占上了,就只剩下耳朵和嘴可以利用了,这时,语音技术就显露了优势。语音技术的应用还不止于此,语音指纹在安检中的应用,语音识别在速记和替代输入方面的应用,都在使信息处理技术向摆脱笔和键盘方面继续前进。捷通公司在键盘汉字输入、手写板和触摸屏手写、电脑听说、移 动终端的嵌入式I/O技术及其DSP(信号处理)等诸多产品上拼杀有多年的研究经验,今天,实现信息I/O无障碍的战略轮廓已清晰可见。

  其次,全方位的信息处理方式在实现伤残人享受信息社会的权利方面具有特殊意义。聋哑人要看和写;视力伤残和手臂伤残的人要听和说;再进一步发展到自动服务设备以及机器人的声音指令的处理能力(DSP),这方面的开发也曙光初见。

  最后,让使用各种语言的人可以无障碍的交流,沟通将变得多么方便?众所周知,在当前市场中多语言无障碍沟通方面依旧处于探索阶段,世界上的同声翻译们每小时可以领酬几百到几千美金,这个情况足以让CPU发展的摩尔速度显得乏味而无聊。在现阶段实现人们之间的多语言无障碍沟通还是个梦想,但是让各国人在异地继续方便使用本国语言作为实现多语言无障碍沟通的第一步已经渐渐明朗。捷通的“奥运之声”方案正是立足于此,让各国运动员、记者和旅游者在中国都能无障碍地使用本国语言。

  一条清晰的脉路:让普通人不受场合和时间的限制、让伤残人克服处理信息时的障碍、让外国人在异国他乡无碍地交流信息,这就是捷通的“无障碍交流”的完整思路,也是捷通的语言技术的长期战略,而对于这个完整方案的划时代的催生就是2008年北京奥运会。

  语音合成、语音识别、手写板和触摸屏手写、扫描仪和OCR工程、语音邮件和语音短信、呼叫中心集成和WAP流媒体应用、手机的音频、视频增值开发,捷通公司具有广泛的工程实践。曾经有人对于捷通公司的涉及技术专题过多而表示不解,如此多的领域会使企业的战线过长,而在捷通的创业者们眼里却有一条专注并且清晰的线路,那就是统一信息处理。这个过程既是艰苦的,又是快乐的,来自国家的一个个专项技术的奖项不断鼓舞捷通人的信心。为了无障碍交流的理想,经过艰苦努力一粒粒珍珠已经成串,距离编成王冠的日子不远了。

  水到渠成,科技奥运送东风。在国家863计划、信息产业部、北京市科委的支持下,首信集团领军国内各领域的优秀企业与研究院所,勾画出了一个完整的服务奥运的多语言智能服务网络系统的蓝图。经过数年的磨练,捷通公司终于抓住奥运机遇,成为参与科技奥运的重要力量。

  信心,话说奥运之声的四个“Any”

  四个“Any”即Any-Terminal(任何终端设备)、Any-I/O(任何输入输出方式)、Any-Media(任何媒体)和Any-Language(任何语言)。

  不知读者是否注意到了,四个“Any”(以后简称“4A”)试图从横和纵两方面实现信息无障碍交流的目标。

  横的方面是本国语与外国语;纵的方面是终端、输入/输出方式、通信方式和媒体流。横的意义是实现异种语言交流的无障碍化;纵的意义是使终端设备边缘化、输入/输出方式随意化、固网、公网和无线网之间的通信无缝化,以及文字、话音、视频信息的统一流媒体化。

  Any-Terminal(任何终端设备)

  这些终端设备包括个人电脑、笔记本电脑、PDA、手机、车载移 动电话及街头信息亭。 在“Any-Terminal”之中,可以保证人们在各种状态(固定地点和运动状态)利用适当的终端获得信息。

  从通信干线上看,个人电脑、笔记本电脑和街头信息亭的信息来自公网;PDA、手机、车载移 动电话的信息来自无线通信网。随着通信线路的宽带化,线路是不成问题的,关键是各种终端上面的页面程序要相对地一致,设备不同,但是在操作上不能让用户感到相差太远。这项任务的工作量相当的不小,尽管捷通公司在PDA嵌入式和手机增值的研发上颇有建树,但是在通信技术快速发展的条件下,如何实现低成本、高质量开发仍然面临挑战。

  从“奥运之声”角度看,终端及其应用程序将面临更大的考验。外国运动员、记者和旅游者所持的GSM或CDMA手机或PDA,通过漫游方式享用北京本地的无线服务需要支付较昂贵的切换入网费用,即使用户来自发达国家,估计他也会考虑费用问题。或许可以由北京电信运营商提供奥运专用或者短期旅游专用的、号码储值一体的手机SIM卡,旅游者把自己的设备换上这种卡就可以享用本地的奥运信息特服。相信到那时,北京的无线运营商一定会推出这种服务。针对电信在预期的几年内的可能的发展,捷通公司确定了关于通信条件与手持设备发展的专门课题,当然包括与国内电信行业的接触和讨论,以求把握奥运时候个人信息终端的技术及其应用水平。

  Any-I/O(任何输入输出方式)

  多种输入/输出方式包括语音输入、手写输入和一般的键盘输入;输出除文本外还有语音播送。

  目前手写输入和语音合成都是没有问题的,现在关键问题是面向公众的语音识别技术是否过关。

  以首信为首的攻坚团队不断寻找技术与应用的突破,捷通公司也希望与国内外同仁一起乘科技奥运的东风,全力攻克这个棘手问题。捷通还成立一个专门的小组加强与国内外语音研究单位与企业的合作,认真遴选质量最好的产品作为蓝本来打造奥运的语音平台。

  更大的挑战,这实际是一个面向公众的、跨语种的人机对话的大系统。它将面临服务器的CTI优化设计、数据库的智能检索、应对访问量峰谷值的数学计算等一系列问题,恐怕不是一两家公司可以胜任的,需要采取合纵连横的策略,联合通信技术部门联合攻关。

  Any-Media(任何媒体)

  随着通信线路的宽带化,“奥运之声”已经不满足于文本和声音的传递,而且影像传递很可能成为其中的重要角色。

  捷通公司利用自己在手机游戏和WAP增值服务领域的技术积累,目前已经成立了手机视频处理的技术专题组,和数家有实力的视频处理技术公司合作,计划在2005年开发出以手机为终端的视频转码程序。首先在目前的GPRS条件下开发30KB~40KB带宽的视频解码技术,待CDMA以致3G技术普及之后,其手机视频处理技术所获得的优势将可想而知。2008北京奥运会的时候到现场看当然最好,如果无法亲临,您的手机将像魔镜一样,让您不错过每一幕精彩瞬间。

  Any-Language(任何语言)

  Any-Language有两重意义。一是指如何让外国人在非母语地区照常用本国文字处理信息,二是如何实现当地语言与本国语言之间的准确互译。

  “奥运之声”Any-Language的第一个关键任务是实现多国语言页面的自由切换。

  其第二个任务是如何把汉语或英语的内容数据库,经过机器翻译而镜像成为十几种乃至二十几种其他语言的数据库。

  实现海量信息的多语种的同步翻译是继语音识别之后难度最大的技术之一,这是对当今国内外机器翻译技术都是一次考验。“奥运之声”将联合国内外机器翻译的实力企业,共同探索机器翻译的首次超大规模应用。

  策略,合纵连横共织王冠

  “奥运之声”是现代信息技术的一次集中演练,它包括了语音技术、流媒体技术、CTI技术、智能数据库、机器翻译、人机对话等多项关键技术的复合应用。

  出路在于联合,合纵连横,协同作战。

  在面向奥运的多语言智能信息服务系统的总体设计与集成方面,首信集团当仁不让地成其领军。首信集团自1998年成立以来,已经为打造数字北京完成了多项大的信息工程,在北京2008奥运会信息工程的竞标中,首信集团又成为佼佼者。

  以科学院声学所吕士楠教授、陈明博士领军的北京捷通华声语音技术有限公司、中国科学院自动化所徐波博士率领的语音识别研究团队与中科模识、科学院声学所颜永红博士带队的中科信利,刘庆峰博士引领的科大讯飞、清华大学邓方博士带领的得意音通都在中国乃至国际中文语音合成、语音识别领域中占有重要的地位。

  IBM中国研究院在语音研究等方面具有很长的历史与大量研究成果,近来加强与清华大学、首信集团、捷通华声等国内大学与企业的合作,以期共同为推进语音技术产业与科技奥运服务。

  在多语言语音识别、语音合成技术方面有美国 ScanSoft 公司,是一家全球知名的语音和图像解决方案供应商,特别是其语音识别引擎,在识别率、识别速度、系统稳定性等方面都处于行业领先地位。伴随语音产业在全球的快速发展,ScanSoft 公司高瞻远瞩,以雄厚的实力、果断的行动在两年之内兼并了 L&H ( Dragon ), SpeechWorks 两家欧洲与美国的实力雄厚的国际知名语音技术公司,并成功收购飞利浦语音实验室,建立了其在国际多语言语音识别、语音合成技术最大的市场份额。马来西亚NuSuara在马来语等东南亚语种的研究开发具有很强的实力,2004年,捷通华声分别与ScanSoft与NuSuara公司签署战略合作协议,率先构建国际合作联盟。

  在机器翻译工程,国内有实力强劲的华建机器翻译有限公司,作为日本移 动通信行业的领导者NTT,去年12月专程拜访首信集团与捷通华声公司,非常希望在多语言机器翻译方面加强与中国企业的合作。

  捷通公司旗下捷通华声、捷通华文公司,以多年在语音技术、模式识别、移 动增值等市场发展中积累的丰富技术与经验,携手国内外强势企业共同为“奥运之声”的发展贡献力量!

  这是在科技奥运旗帜下的一次国内、国际间的重要合作,是人机交互技术与移 动通信技术最全面融合的一次大胆创新,相信“奥运之声”一定会在现代信息处理领域的强强合作中奏鸣,为2008年北京奥运会送上丰厚的贺礼。



评论】【推荐】【 】【打印】【下载点点通】【关闭
 

 
新 闻 查 询
关键词



彩 信 专 题
新酷铃选
最新最HOT铃声推荐
棋魂
千年棋魂藤原佐为
请输入歌曲/歌手名:
更多专题   更多彩信
 
 



科技时代意见反馈留言板 电话:010-82628888-5828   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2005 SINA Inc. All Rights Reserved

版权所有 新浪网