跳转到路径导航栏
跳转到正文内容

使用ReCAPTCHA技术造福人类

http://www.sina.com.cn  2008年09月25日 17:56  cnbeta

  CAPTCHAs 是一种恼人的技术,据资料统计,全球用户每天要完成1亿次 CAPTCHA 测试。ReCAPTCHA 是 Carnegie Mellon 大学启动的一个项目,目的是借助 CATPTCHA 技术将那些残旧图书数字化,据估计,该技术每天可以完成160本书。

  该项目目前已经在40000家网站上部署了 ReCAPTCHA 技术,ReCAPTCHA 的基本原理是,对光学字符识别(OCR)软件来说,它们的辨识能力是有限的,尤其是那些印刷不清晰的旧书或残书,而人类可以凭借自己的阅读经验,轻松识别 那些 OCR 无法识别的文字。对这样的文字,人类的识别成功率可以达到99%,而OCR软件只能达到80%。


使用ReCAPTCHA技术造福人类

  ReCAPTCHA 结合了传统 OCR 与一个类似 Amazon's Mechanical Turk 的系统。每个单词都先经过两个不同的 OCR 软件辨识,如果两个 OCR 识别结果不一致,该单词会被标志为“未识别”,这些未被识别的文字会被送入 ReCAPTCHA 系统,被制作成 CAPTCHA 文字让用户识别。

使用ReCAPTCHA技术造福人类

  总体来说,ReCAPTCHA 实现了 99.1% 的成功率,这几乎是让一个人打字,另一个人在旁边辨认的成功率。ReCAPTCHA 技术目前基本上仍处于概念期,但开发者认为,该技术每天将能够辨认大约160本书。

  该项目的精彩之处在于,它利用了那些本来是被浪费掉的人类的脑力。其它类似的项目也基于相同的思想,比如,fold.it,将蛋白质折叠计算转换成一个游戏,而 Google 的 Image Labeler 项目也是借助庞大的用户群的脑力完成对互联网中的图片的辨认。

Powered By Google ‘我的2008’,中国有我一份力!

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2008 SINA Corporation, All Rights Reserved

新浪公司 版权所有