|
不支持Flash
|
|
|
搜狐披露词库生产流程 要求谷歌法务部说话http://www.sina.com.cn 2007年04月10日 14:00 eNet硅谷动力
【eNet硅谷动力消息】“输入法的基石是词库,搜狗的词库是花了很大力气来做的,我们的制作流程申请了专利,再加上劳动产出,这一词库具有著作权。” 搜狐副总裁王小川的这句话无疑可以作为搜狐对谷歌输入法持强硬态度的最好诠释。 一纸谴责声明以及谷歌在其官方博客中的“表示歉意”,显然还不足以平息搜狐的怒火,2007年4月9日下午,针对谷歌拼音输入法涉嫌盗用搜狐搜狗输入法词库一事,搜狐召集媒体对相关细节进行了深入说明。 词库生产流程 说明会上,搜狐副总裁王小川详细介绍了搜狗词库的“制作工艺”。 “词库要求全和新,搜狗的词库有四个基础的来源,亦即源自搜索引擎基础词库、源自门户矩阵的专业类词库、网络中的新生词汇以及未登录词汇。”王小川介绍称,通过这四大来源,搜狗获得360万的原始词库。 有了这些原始数据还不能用于输入法,王小川称,接下来还得经过词频统计、词库优化、垃圾词过滤以及词条注音,最终得到一个35万正确的读音词库。 “词库是以拼音为基础的数据库,并且从最优中进行了挑选和排列--因此,我们的词库是智力劳动的成果,是有著作权的。” 王小川表示,搜狐已经对这一“制造流程”申请了专利:“我咨询了律师,我们这种输入法词库是经过大量智力劳动最后得到的一个表达,具有著作权。” 谷歌“抄袭”? 说明会上,除了展示之前所披露出来的搜狗员工姓名及错词等“防伪标志”外,搜狐还特别以词库的重合率来谴责谷歌“抄袭”。 “将谷歌的词库与搜狗的进行对比,我们找到完全相同的错误一共一万个,而词库的重合率更是高达96%。而在谷歌最新发布的升级版本中,虽然重合率从96%已经降低了79%,但这一数据仍然是过高的。”王小川告诉记者,搜狗与拼音加加、紫光等输入法词库的重合率均不超过40%,“这才是正常的。” 搜狐还毫不留情地指出,虽然谷歌迅速发布了拼音输入法的升级版本,以抹掉搜狗词库的痕迹,但这样一来,反而使得谷歌的词库质量有所下降:“升级前,谷歌长句的准确率为66%,高出搜狗1%,而升级后反而跌到了63%;首词命中率也有所降低,而翻页次数则比以前增加了60%……” “我们以前也预计谷歌会做输入法,觉得这将是个很大的竞争对手,却没想到他们会把我们的词库直接拿去用。” 王小川毫不客气地评价道。他猜测称,这么做可能源于谷歌在这方面投入精力不够,直接制作词库成本过高,或者是“工程师为了保证输入法的效果”。 “没收到谷歌官方反馈” 实际上,就在搜狐这个说明会召开前的2小时,谷歌已经在其官方博客上以包涵着“该词库在试验阶段确实包含了一些非 Google的数据源”,“我们愿意直面自己的问题,更因此对用户及搜狐公司等表示歉意”等文字的声明来委婉表达歉意。 然而,搜狐看起来却并不吃这一套。“对此次所谓的道歉,我们并不知情。而且至今为止,谷歌方面并没有和我们的法律部门做任何的接触和沟通。” 搜狐再次重申了此前对谷歌发出的律师函中所提出的三项要求--对侵权行为公开赔礼道歉;立即停止涉及侵权的谷歌输入法的下载和运营,停止相关产品的宣传等行为;立即派出授权代表就此事与搜狐协商,以便妥善处理对搜狐进行经济赔偿等相关事宜。 “我们将保留采取进一步行动的权利,至于具体事宜包括赔偿金的数目,要看谷歌法律部门和我们的法律部门之间的接触沟通情况来定了。不过到现在为止,我们还没有收到任何来自谷歌官方的信息和接触的意愿,”显然,对于谷歌的态度,搜狐有着明显的不满。而这场“盗库门”事件,为谷歌所带来的负面影响,目前仍然难以定论。
【发表评论】
|