新浪网

  新浪首页 > 科技时代 > 业界动态 > 新浪科技 > 新闻报道
 


OCR助力数字文明

http://www.sina.com.cn 1999/11/26 13:55 新浪科技

  21世纪是信息经济昌盛的新世纪,是以比特为单位的数字信息传播、交互、增值的新世纪。中华文明如何迎接新世 纪带来的挑战?这是每一个中国人关心的话题。

  三千年有文字记载的文明史留给我们太多的历史文献需要整理。不必讲《四库全书》,也不必列《诸子百家》,单是 新中国建立以来的纸质文献与信息情报就已使很多单位的负责人手无足措。海量的纸质文献如何实现数字化?

  要建立网站吗?要让外界了解贵单位的发展与成就吗?键盘的敲击当然追不上你急切的愿望。海量的信息需要上网, 纸质的文明必须演进到数字文明,于是有了OCR。

  OCR即光学字符识别,是采用扫描仪、数码相机等输入设备,把中文印刷体的文稿送入计算机并以计算机文档表示 出来的高新技术。中文印刷体识别技术(OCR)主要用于文字和表格输入,可以用扫描仪将整页的印刷文稿或者表格输入计 算机,由计算机上的识别系统自动生成汉字文件,替代人工键入汉字和表格的工作。

  中文OCR有普及版和专业版之分,市场上所有扫描仪都配有文字识别软件,即普及版OCR,但在真正想实现批量 信息处理的专业人士眼里,那只是“玩艺”,不是得心应手的工具。

  专业版的OCR有批处理功能,性能更加优化,识别率也大不同于普版OCR。汉王科技最新推出的专业版“新世纪 OCR”是该公司购并曙光公司OCR部后的最新研究创作,将当今的OCR技术推进到了新的巅峰。

  据汉王科技专业人士介绍,“新世纪OCR”专业特点显著,识别率大幅度提高,尤其是对中英文混排的文件,识别 率达到了99%以上,实现了空前飞跃。该软件对七八十年代繁、简、特简混排的文件识别效果特别突出,可识别宋、仿宋、 楷、隶、行等八种印刷字体,对数字、标点符号的识别也可点可圈,对扫描质量差的文件更是达到了很好的识别效果,这就解 决了很多历史文献的大批量识别问题。

  在表格识别方面,由于原曙光公司OCR部的加入,“新世纪OCR”取得了重大的技术突破,对横版、竖版、中文 表格、图文混排文件应付自如,自动版面分析和识别功能也大为加强。

  批量信息处理是区分专业与普及OCR的界石,在这方面,“新世纪OCR”增加了特别的处理功能,可以使信息管 理员连续扫描和识别一系列文档,实现了识别的批处理功能。新增加的保存文件功能,可以让使用者保存操作进程和状态,随 时打开工作任务继续操作。

  当然,专业OCR的应用远不止次,在汉王科技的“新世纪OCR”发布会上,他们提出了“五化”来概括专业OC R的行业应用:名片管理自动化、海量信息比特化、纸质文献数字化、防伪识别智能化、行业管理网络化。

  中国人要进入网络时代,就必须跃过纸质文献数字化的屏障,用最短的时间将纸质文献数字化。OCR正是这方面的 专才,汉王科技“新世纪OCR”是中国文化进入数字文明的最新支点。






 
  新浪首页 > 科技时代 > 业界动态 > 新浪科技 > 新闻报道




网站简介 | 网站导航 | 广告服务 | 中文阅读 | 联系方式 | 招聘信息 | 帮助信息

Copyright(C) 1999 SINA.com, Stone Rich Sight. All Rights Reserved

版权所有  四通利方 新浪网