首页 天气预报 新闻 邮箱 搜索 短信 聊天
上移动梦网
赢手机大奖

新浪首页 > 科技时代 > 网上学园 > 办公专区 > 正文
通过OCR识别功能可大批量的录入文字

http://www.sina.com.cn 2002/11/28 16:18 赛迪网--中国电脑教育报

  文/鸣涧

  王主任走进了办公室,一眼看到宇飞正在看报纸,二话不说拿过了宇飞的报纸,把一本书放到了宇飞面前。“把第二章和第三章的内容打出来,准备作为公司职工培训教材”。向来不紧不慢的宇飞,这次可真急了,虽然只有两章的内容,但是文字量足有70多页,怎么办?

  眼珠一转,宇飞想起来了前几天刚刚买回来的扫描仪。扫描仪作为一种输入设备,在
文字输入、图片处理方面有着非常广泛的应用,何不用扫描仪进行文字识别呢?

  文字识别又称OCR识别技术,通过OCR识别功能可以大批量的录入文字。目前比较流行的文字识别工具是清华紫光OCR文字识别工具,下面就来看一下识别方法。

  启动清华紫光OCR,在其主界面窗口中,执行“文件/选择扫描设备”命令,在打开的对话框中选择当前系统按照的扫描仪。如果需要扫描的图片文字为简体中文,那么还需要在主界面窗口中,设定当前的文字系统为“简体多体”,然后执行菜单“文件/扫描”命令,打开扫描仪扫描界面(如图1)。


图1扫描界面

  宇飞提示:在进行文字扫描的同时,需要注意几个问题:首先扫描的文字材料一定要摆放在扫描起始线正中,以最大限度地减小由于光学透镜导致的失真,另外要注意扫描仪玻璃的干净和不受损害。

  下面就要进行文字扫描参数设置了,将扫描模式设置为“黑白”,分辨率设置为“300dpi”就可以了,输出比例可以选择“100%”。首先单击[Preview]按钮,进行预扫。然后用鼠标选择文字扫描区域,单击[Scan]按钮即可将当前图片扫描并在OCR中打开。

  返回到扫描清华紫光OCR主界面窗口,查看扫描后的文字图片(如图2)。


图2识别文字

  然后用鼠标在图片中绘制出打算识别的文字区域,并按下工具栏[识别]按钮,这样即可开始文字识别,识别介绍以后,会自动在一个文本编辑器中打开识别后的文字(如图3)。


图3打开识别好的文字

  识别完当前页以后,单击工具栏[编辑]按钮,返回到主界面窗口,开始下一页的识别。

  这样很快就可以将那本书的几十页内容识别完成,然后使用Microsoft Word进行排版。由于识别出来的文本复制到Word是每行成一个段落的,如果一个一个地把回车符号删除就会非常费事。可以把所有的回车符(^P)替换成空格,也就是在“查找与替换”对话框中设置“查找内容”为“^P”,并在替换中设置空格,单击[确定]按钮即可将回车替换为空格了。

  完成以后再根据段间的空格替换成回车符(^P),这样经过两次操作就可以将空白段落删除了。另外,还可以充分使用Word的文字校对功能,对于确定有错误的中文词语下面,Word会在其下面给出一个显示为红色的波形下划线,对于不能确定是否有误,但是在建议检查的中文词语下面,会给出显示绿色的波形下划线,这样又可以省去了校对的麻烦,看来宇飞还真够偷懒的。

  “搞定啦!”宇飞大喊。王主任本来是坐在办公桌旁喝着茶水,被宇飞这么一喊吓了一跳,舌头被结结实实地烫了一下。冰雪儿在一旁乐得差点笑弯了腰,宇飞倒是很体贴王主任,一个劲地学着主任呲牙咧嘴的样子……


发表评论】【初学者园地】【科技聊天】【关闭窗口

新 闻 查 询

【学园专题】扫描仪的选购使用和维护
 相关链接
请问扫描仪出现“连机错误”的故障如何处理?(2002/11/20 21:41)
选择扫描仪时为什么常出现"连机错误"的提示?(2002/10/16 21:44)


科技时代意见反馈留言板 电话:010-82628888-5488   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 招聘信息 | 网站律师 | SINA English | 产品答疑

Copyright © 1996 - 2002 SINA Inc. All Rights Reserved

版权所有 新浪网