微软英库拼音输入法背后的技术和故事

2013年01月25日 08:41  创事记微博 作者:马特·斯科特  
微软英库拼音输入法开发团队自述,“我们为什么要开发一个新的中文输入法”微软英库拼音输入法开发团队自述,“我们为什么要开发一个新的中文输入法”

  作者:Matt Scott(马特·斯科特),英库拼音输法开发负责人及项目经理,微软亚洲研究院高级开发主管。

  翻译:刘未鹏,英库拼音输法客户端负责人,微软亚洲研究院研究软件开发工程师。

  微软英库拼音输入法开发团队自述,“我们为什么要开发一个新的中文输入法”。

  英库输入法下载地址

本文作者Matt Scott(马特·斯科特),英库拼音输法开发负责人及项目经理,微软亚洲研究院高级开发主管。  本文作者Matt Scott(马特·斯科特),英库拼音输法开发负责人及项目经理,微软亚洲研究院高级开发主管。

  输入法的历史和今日

  中文输入法有一段漫长的历史,在个人计算机远远还未问世之前(至少从上世纪四十年代开始),发明家们就开始搞电子和机械中文输入法。而伴随着PC的问世和普及,我们也迎来了中文输入法技术革新的浪潮。中文输入法技术的最终目标是输入效率,各家竞争的焦点集中在性能、准确率和易用性方面。“输入法”(Input Method Editor,或IME)这个术语是Windows 95首次使用的,Windows 95还附带了微软拼音输入法第一版(基于拼音的输入也是如今中文输入法最主流的形式)。自Windows 95以来,这18年里,输入法界可谓风起云涌,无论是在技术、还是竞争方面。

  如今的输入法市场竞争非常激烈,本土和国际软件公司都参与了角逐,这其中尤数提供在线服务的公司。他们参与的理由很简单:对于绝大多数中国用户来说,输入法是一个“入口”。在过去的十年中,随着网络和云计算的兴起,基于云的输入法更是给众多公司打开了在线服务业务方面的机会。人人都希望在这个6亿中国互联网用户的入口之争上能够分一杯羹,这其中的巨大商机是不言而喻的。

  问题、趋势和机会

  人们可能会疑惑:既然微软已经有了一款输入法产品(微软拼音输入法),为什么微软亚洲研究院还要做这款叫做“英库拼音输入法”的新输入法呢?更何况是在输入法市场貌似”天下已分、大局已定”的情况下。

  答案其实也很简单,那就是我们认为中文输入法的症结实际远未解决。随着互联网时代的崛起,我们已经越来越多地发现,中文用户在网络时代使用语言交流的习惯和趋势在悄然发生重大的变化,而这也催生了一些传统的中文输入法无法满足的使用需求。此外,再加上自然语言处理领域的研究突破,我们相信迎来下一代中文输入法核心技术的时候终于到了。

  先说网络时代产生的新的用户需求。例如我们注意到,中文用户使用英语的频率逐年增高,中英混杂的使用也在迅速增多。如今,大约有3.25亿中国人在学习英语。到2025年,会说英语的中国人预计将超过全世界其他地方的英语母语使用者人数的总和。

  然而,虽然有如此多的人在学习和使用英语,我们却发现中文输入法软件里面能够提供有效和友好的英文输入辅助功能的少之又少。我们认为,对于中国用户来说,利用输入法来辅助英文输入是最佳方案,因为我们已然对输入法这个东西很熟悉,而且经由输入法,我们可以在背后利用上很多相关的技术。

  另一方面,英文世界的语言也在急速发生变化,有语言跟踪系统估计大约每98分钟就有一个英文新词被创造出来。这些词大多根本就没有常见的中文对应翻译。而在一些专业领域这一现象显得尤其明显,举个例子,软件技术书籍。你随便拿起一本软件技术书籍都可以看到一摞英文术语。如今英语已经是中国人日常用语的一部分,在很多领域,甚至是必不可少的。既然如此,难道我们的中文输入法不应该跟上中英混合的趋势,提供更好、更流畅、新鲜和准确的中英混合输入体验吗?

  除此之外,促使我们做英库拼音输入法的还有一个很重要的原因。如今我们在线沟通的时候,我们会发现,沟通的内容早已经超越了简单的文本,进而包含图片、视频、音乐、地图等等“富媒体”内容。上百万的网络用户每天在交流、发微博、写博客,甚至在文档中使用这些非文本类内容。而值得注意的是,这些内容往往是经由搜索而来。

  那么,既然如此,为什么当我们需要粘贴发送它们的时候,总得离开当前输入的上下文,跑过去打开一个浏览器,输入网址,输入搜索关键字,完了之后再把搜索的结果(图片、地图等等)拷贝粘贴回来呢?这一通来去完全影响了输入的流畅体验,打断了我们宝贵的注意力。为什么我们不能直接在输入法里面完成这整个的流程呢?

  这种无需离开上下文的流畅体验正是高效输入的灵魂。现在我们已经知道,主流的输入法都有所谓的“云候选词”,也就是说每个输入框都相当于是搜索框,既然如此,为什么不把搜索的内容从纯文本拓展到其他形式的富媒体内容呢?想象一下,一旦这个成为现实,整个互联网上可搜索的内容都将在你的指尖上。

  除了上面提到的这些因素之外,我们还相信,输入法的核心技术本身也将迎来一个新的纪元:更精准、数据更相关、而且更快。就我们而言,我们对两个核心技术领域很感兴趣:一是通过新的算法来驱动输入法的核心引擎,另一个就是通过新的网络挖掘技术来提升数据的新鲜度和质量。借助微软亚洲研究院顶尖的自然语言处理研究成果,我们相信我们的输入法有着得天独厚的竞争优势。

  输入法和创新

  那么,为什么微软亚洲研究院要做一款新的输入法?首先我们对于任何技术挑战都有兴趣,而从零开始打造一款先进的输入法并在一年内发布,对我们而言正是这样一项挑战。此外,好奇心是我们的源动力,我们对于是否能解决我们观察到的当今输入法面临的种种问题充满了好奇,并愿意尝试利用新颖的技术、过硬的工程能力和创新的点子来解决这些问题。我们所设想的输入法触及计算机科学中的众多研究领域:自然语言处理、网络搜索和数据挖掘、人机交互、语音处理、机器学习、云计算,图像和媒体,等等。

  当我们把目光投向输入法的历史和现状,我们注意到输入法的创新亦难免面临“创新者的窘境”(由哈佛商学院的Clayton M. Christensen提出)。其背后的原因是,在一款成功的输入法软件背后是极为复杂的技术,而且软件越创新也越有可能成功。然而,“创新者的窘境”指出:随着时间推移,成功的、成熟的和复杂的产品最终将获得巨大的用户量,软件的版本经过多年的迭代,其中必然积累各个层面的技术复杂性,在此之上重新创新将不可避免地带来大的风险和代价。因而实际发生的往往是所谓的“持续创新”。我们认为当今市场上的输入法创新大多属于此类。

  已成功者必须轻装上阵从零开始,着眼产品而非市场,才能最终成为解决“创新者的窘境”的良方,而这种努力如果成功,所带来的成果便被称为“破坏性创新”(disruptive innovation)。后者正是我们做英库拼音输入法项目的本意:基于研究、跳脱出产品周期约束、着眼新颖解决方案和新的用户痛点。

  成果

  到目前为止,英库拼音输入法项目的成果很令人振奋。我们的自然语言处理研究人员从本质上重新建模了中文输入,我们将输入理解为从拼音到汉字的一个翻译过程,跟英文到中文的翻译类似。这一切入角度使得我们可以运用微软亚洲研究院耕耘十多年的统计机器翻译领域的方法来解决中文输入问题。

  另外英库拼音输入法包含中英混输和英文辅助模式。它内置有对机器翻译、单词对齐,以及必应词典(前身为英库词典)所独有的“phonetic search”功能(例如敲“fiziks”能够搜到“physics”,就如同英文的“拼音”一样)。这些功能的渊源可以追溯到我们研究院十多年来在中英自然语言处理方面的技术研究储备。

中英混输中英混输

  最后,我们对于非文本类内容的输入也有创新性的支持。我们将其称为“富候选(Rich Candidates)”(对应“文本候选”),它让我们的日常输入超出枯燥的文本。我们的灵感来源于搜索引擎技术,我们知道搜索引擎有“即时问答”,此为隐式搜索,还有“垂直搜索”,则对应于显式搜索。举两个例子,如果我们在聊天的时候输入“嘿嘿”,那么很可能你希望表达一个良好的心情,于是我们的输入法能够自动给出一些例如图片、表情之类的候选可供直接插入对话。而显式搜索则是用户手动地选择搜索哪种类型的内容:中英翻译、颜文字、地图等等。

富候选(Rich Candidates)富候选(Rich Candidates)
中英翻译中英翻译
颜文字颜文字
地图地图

  团队背景及软件开发哲学

  我们的团队从一开始就是多部门合作:研究人员和产品开发人员协同工作。中文输入法产品部门和微软亚洲研究院走到一起,最终开发了英库拼音输入法。来自产品部门的帮助使得我们的软件开发流程相当顺畅,少有的直接从实验室中走出的产品。

  我本人作为这个项目的开发主管,大家一定会感到比较奇怪——为什么竟然由一个老外来带领开发一款中文输入法?答案是,虽然我并非中国人,但我对于中国的语言文化有着真诚的热爱。虽然我不是中国人,但我却有颗中国心。为什么这么说呢?我的童年是在纽约的法拉盛度过的,法拉盛吸引了很多亚裔移民,有着浓厚的亚洲味道。我从小耳濡目染就受到中文和中国文化的影响。

  对于能够带领开发英库拼音输入法,我感到极大的喜悦。另一方面,我相信,作为中文输入法的“局外人”我也能够给我们的团队带来一些全新的视角。另外,由于我之前也带领了英库(翻译和语言学习)项目,而从词典到输入法,在自然语言处理方面一脉相承,所以我也就自然而然地成为了这个项目的开发主管。

  英库拼音输入法项目对我来说是一个思维转变,必须从现有输入法的窠臼中跳出来。我们必须跟业界的其他参与者不同,必须大胆、不落俗套地去解决面临的挑战。除此之外另一个要素就是团队必须由顶尖的软件工程师、研究人员、设计师构成。而事实上,我们也的确集结了一群最牛的人——具有改造世界的愿望和能力的人——来打造最好的输入法技术。

  我们的开发哲学很简单:多发布,从发布中学习和改进。我们的改进主要基于服务端智能和数据自动采集分析,而非传统的讨论组(focus group)形式。我们的方法叫做“以实践为驱动的研究”(Deployment-Driven Research),这就像是研究领域的敏捷方法。

  计算机科学实验室通常面临的一个问题就是跟最终实际用户联系得不是那么紧密。这除了会导致技术进入市场的时间延迟之外,缺少实际用户反馈也会导致研究滞慢或偏向。我们的“以实践为驱动的研究”哲学正是为了针对这个问题,所以我们的产品很快就走向市场,从中得到的反馈给我们的团队带来了极大的鼓舞,并且决定了我们把时间和能量投入到哪些方面,后者非常重要,因为基础研究的难点之一就是如何选择,而“以实践为驱动的研究”给了我们引路明灯。

  对未来的沉思

  未来从历史开始。历史上,输入法的“破坏性创新”是基于用户体验和输入效率的突破。从研究的角度来讲,例如人机交互,我们能够看到,“自然用户界面”是未来的主题。从这个意义上来说,输入法的未来也可以想见将会是在用户体验上越来越“自然而然”地、符合直觉地为用户在各种输入场景下的需求提供丰富的体验。完美的输入法应该是让人无论是在什么输入场景,希望输入什么类型的内容的情况下,都感到流畅无痕、没有任何的思维阻滞和负担。

  工业界和研究界的另一个交汇点就是“大数据”,以及利用机器学习技术来建造能够处理大数据的输入系统。最终,对于用户来说,这就意味着更少的敲击带来更多的输入。随着移动设备以一往无前的迅猛势态发展,如何在移动设备上实现更有效率的输入体验不仅是一个用户体验问题,也是一个核心技术问题。从这个角度来说,我们非常期待在Haptics(触觉)、自然用户界面、多模型融合研究方面的进展能够带来更成熟的模型,从而能够充分利用大量的输入上下文信息。

  最后,就开发趋势而言,我们认为Apps(扩展应用)也会在输入法的未来扮演重要角色。也就是说,输入法会被视为一个平台,而不是一个各种复杂技术错综复杂纠结在一起的一团整体,打造输入法应用开发平台必能使得无数开发者为输入法的未来加速发展提供强大的合力。

分享到:
保存  |  打印  |  关闭