文/鸣涧 王主任走进了办公室,一眼看到宇飞正在看报纸,二话不说拿过了宇飞的报纸,把一本书放到了宇飞面前。“把第二章和第三章的内容打出来,准备作为公司职工培训教材”。向来不紧不慢的宇飞,这次可真急了,虽然只有两章的内容,但是文字量足有70多页,怎么办?
眼珠一转,宇飞想起来了前几天刚刚买回来的扫描仪。扫描仪作为一种输入设备,在
文字输入、图片处理方面有着非常广泛的应用,何不用扫描仪进行文字识别呢?
文字识别又称OCR识别技术,通过OCR识别功能可以大批量的录入文字。目前比较流行的文字识别工具是清华紫光OCR文字识别工具,下面就来看一下识别方法。
启动清华紫光OCR,在其主界面窗口中,执行“文件/选择扫描设备”命令,在打开的对话框中选择当前系统按照的扫描仪。如果需要扫描的图片文字为简体中文,那么还需要在主界面窗口中,设定当前的文字系统为“简体多体”,然后执行菜单“文件/扫描”命令,打开扫描仪扫描界面(如图1)。
图1扫描界面
宇飞提示:在进行文字扫描的同时,需要注意几个问题:首先扫描的文字材料一定要摆放在扫描起始线正中,以最大限度地减小由于光学透镜导致的失真,另外要注意扫描仪玻璃的干净和不受损害。
下面就要进行文字扫描参数设置了,将扫描模式设置为“黑白”,分辨率设置为“300dpi”就可以了,输出比例可以选择“100%”。首先单击[Preview]按钮,进行预扫。然后用鼠标选择文字扫描区域,单击[Scan]按钮即可将当前图片扫描并在OCR中打开。
返回到扫描清华紫光OCR主界面窗口,查看扫描后的文字图片(如图2)。
图2识别文字
然后用鼠标在图片中绘制出打算识别的文字区域,并按下工具栏[识别]按钮,这样即可开始文字识别,识别介绍以后,会自动在一个文本编辑器中打开识别后的文字(如图3)。
图3打开识别好的文字
识别完当前页以后,单击工具栏[编辑]按钮,返回到主界面窗口,开始下一页的识别。
这样很快就可以将那本书的几十页内容识别完成,然后使用Microsoft Word进行排版。由于识别出来的文本复制到Word是每行成一个段落的,如果一个一个地把回车符号删除就会非常费事。可以把所有的回车符(^P)替换成空格,也就是在“查找与替换”对话框中设置“查找内容”为“^P”,并在替换中设置空格,单击[确定]按钮即可将回车替换为空格了。
完成以后再根据段间的空格替换成回车符(^P),这样经过两次操作就可以将空白段落删除了。另外,还可以充分使用Word的文字校对功能,对于确定有错误的中文词语下面,Word会在其下面给出一个显示为红色的波形下划线,对于不能确定是否有误,但是在建议检查的中文词语下面,会给出显示绿色的波形下划线,这样又可以省去了校对的麻烦,看来宇飞还真够偷懒的。
“搞定啦!”宇飞大喊。王主任本来是坐在办公桌旁喝着茶水,被宇飞这么一喊吓了一跳,舌头被结结实实地烫了一下。冰雪儿在一旁乐得差点笑弯了腰,宇飞倒是很体贴王主任,一个劲地学着主任呲牙咧嘴的样子……
|