跳转到路径导航栏
跳转到正文内容

Digg升级检测系统避免重复文章

http://www.sina.com.cn  2009年07月01日 09:54  新浪科技
科技时代_Digg升级检测系统避免重复文章

图为Digg重复文章检测系统

  新浪科技讯 北京时间7月1日上午消息,据国外媒体报道,科技新闻聚合网站Digg周二对“重复文章检测系统”进行了升级,旨在避免同一篇文章被多次上传的尴尬。

  自服务上线以来,Digg就面临着一大难题:同一篇文章被多次上传,这样会影响到这篇文章的受欢迎指数,因为用户往往订阅不同的文章链接。

  为此,Digg周二对其“重复文章检测系统”进行了升级,Digg产品主管克里斯·霍华德(Chris Howard)称:“为更好了解问题本质,我们对重复文章类型进行了分析,发现大部分相同文章来自同一网站,但URL链接不同。现在我们找到了解决方案,利用类似于文档的算法来识别这些重复内容。”

  但是,对于同一篇文章来自不同网站,且标题不同时,该解决方案似乎无能为力。对此,Digg称将通过扫描文章标题等描述信息来辨别相似内容。但到目前为止,这仍是一个“灰色区域”。(李明)

网友评论

登录名: 密码: 匿名发表
Powered By Google

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2009 SINA Corporation, All Rights Reserved

新浪公司 版权所有