首页 新闻 体育 邮箱 搜索 短信 聊天 天气 答疑 导航
上移动梦网
赢手机大奖

新浪首页 > 科技时代 > 硬件 > 使用和维护 > 正文
扫描仪不再是惟一 其它设备文字扫描全攻略

http://www.sina.com.cn 2003/02/25 11:07 赛迪网--中国电脑教育报

  在这个讲究效率的时代,我们都讲究用最快的速度来完成工作。在公司办公时,常常会遇到输入文字或者保存纸介文档的情况,如果是以前保存的文件,用快速的指法打一遍,也无疑会浪费许多时间!那么我们就可以选择扫描的方法来保存文字及文档。在这个数码设备日益流行的时代,扫描仪不再是我们惟一的选择。下面就让我们来看看使用其他数码设备扫描文件的方法吧。

  扫描文档的流程

  要将纸介文件转换为电子文档,需要有硬件扫描设备、OCR文本识别软件、文字排版软件。其要经过扫描、版面处理、文字识别、文字编辑几个阶段,下面我们就这几个阶段详述之。

  1、扫描的注意要点

  注意扫描时将图像保存设定为非压缩TIFF格式、PackBit、G4压缩的TIFF格式、BMP格式或PCX格式。另外还要根据扫描文件字体的大小合理设置扫描亮度及分辨率。

  2、对扫描后的图像进行版面处理

  对扫描所得图像文件根据需要进行处理(旋转、反转、剪裁、倾斜校正、版面分析等等),为识别做好充分准备。要选择进行文字识别的区域,如果不选择,则认为是对整篇图像进行识别。在对整篇图像进行识别时,当然识别区域中不能包含有插图(如有插图另外处理)。

  3、进行文字识别

  一般OCR文字识别软件都有“识别”按钮,你按下这个按钮系统便会自动进行识别的。

  4、文字编辑处理

  识别结果经修改编辑后,可根据需要通过复制输出到其他应用程序中(如Word XP、WPS2000等),也可直接存盘。在文字编辑过程中我们会使用到文字编辑软件强大的替换和中文校对功能。例如,比如删除回车符是一件比较头痛的事情。我们可以巧妙利用替换来轻松删除所有回车符。Word 2000后台简体中文校对也很实用,在确信有错误的中文词语下面,将显示红色的波形下划线;在不能确定是否有误但强烈建议你仔细检查的中文词语下面,将显示绿色的波形下划线。这样也可以帮助你省去不少校对的苦差使。

  利用扫描仪进行识别

  使用扫描仪是常用的选择,要保证其正常使用。首先选择合适的扫描分辨率:不求最“高”,只求最“佳”。根据经验,普通五号印刷体采用250~300dpi比较合适;若字号比较大(四号以上),用150~200dpi就足够了;如果是六号或七号字,就要考虑使用400~600dpi了。当然,这也不是绝对的,如果印刷字迹比较模糊,或者笔画较多的识别文本,应适当提高扫描的分辨率。提供一个公式供参考:文件长度(字节)=(水平尺寸×垂直尺寸×扫描分辨率)/8。在购买扫描仪,最好选择具有批量扫描功能的扫描仪,如此一来你只要将待扫描的文件准备好,然后去干别的事,过了一阵子你就可以得到批量保存的图像了。在购买扫描仪时,其都会配给你原装的OCR识别软件。只要你能合理使用,扫描是轻而易举的。


平板式扫描仪

  由于OCR软件在扫描并转换文件时起着很重要的作用,所以在后面有单独介绍。

  利用数码相机进行识别

  数码相机给人的感觉往往就是拍照片,从某种意义上说,扫描也就是拍照片。说得通俗一点,将报纸或者杂志拍成电子图像,然后由中文识别进行识别也不失为一种好方法!市场上多数数码相机都提供了Text(文字)拍摄功能,我们就利用此功能来实现文字的录入。选择好合适的相片分辨率(即尺寸大小),同时,为提高所拍摄文本图像的清晰度,另外还要开启相机的微距拍摄功能,并调整好光源和曝光补偿等。为保证拍摄效果,避免图像整体明暗不均,最好禁用内置闪光灯。在进行OCR识别之前,我们最好先将拍好的文字照片用Paint shop pro等图像编辑软件对它的对比度进行一定的调节。使照片中的文字与背景尽可能的突出。这样便可以将报纸的纸张背景变为纯白,而文字变得更黑更加突出,有利于后面OCR软件的识别。对于没有OCR识别软件的朋友来说,可以去互联网上下载一款丹青中文文字辨识软件,其大小仅为2MB左右,由于其只支持TIF、PCX、BMP格式。故假如您的数码相机没有这三种图像格式的,可以使用ACDSee软件将图片格式转换一下。

  常见OCR界面


利用传真机+Modem识别

  不少公司都有传真机和调制解调器,只要巧妙搭配就可以实现扫描文字的功能。首先将传真机的Phone口接上公司内部电话,这样可以节省电话费,如果使用固定电话长时间扫描电话费可不菲。然后将公司的电脑接上Modem并连上一根内部电话线,并且安装上一款名为Bitware的软件。然后开启Modem,打开Bitware软件,使之处于传真接收状态。然后启动传真机,拨Modem所接的电话号码。然后Modem便会自动应答,您就可以将Bitware所接收下来的传真文件存为图像格式。如此一来我们就可以使用OCR识别软件来进行文本转换。


Bitware软件界面

  除了上述几种方法外,笔者还尝试过使用USB摄像头进行文本识别。因为笔者使用的摄像头是352×288的分辨率,故文字基本上一片模糊。假如您的USB摄像头分辨率高一些的话,不妨也尝试一下了。不过用USB摄像头进行文字扫描只不过是“玩玩”,要获得高效的扫描还是使用专业扫描仪或者数码相机好一些。打个形象的比方,数码相机就好比是一只移动扫描仪。假如您带着一只数码相机去图书馆,您看中了哪些资料就可以不用花钱复印了。只要拍下来,然后带回家轻松OCR一下。那些资料就存在你的电脑中了。


发表评论】【初学者园地】【科技聊天】【关闭窗口

新 闻 查 询




科技时代意见反馈留言板 电话:010-82628888-5488   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2003 SINA Inc. All Rights Reserved

版权所有 新浪网