不支持Flash

文本王以电子技术实现古籍保护

http://www.sina.com.cn 2006年08月28日 15:07  新浪科技

  近日,为期一月的“中华古籍特藏珍品暨保护成果展”正式落下帷幕。展会就当前古籍保护现状、古籍保护工作中的重点、难点和方向向公众作了详细的介绍,但对于古籍保护的具体方式,特别是关于古籍电子化技术实现方式的讨论并没有得到深入展开。

  一位与会的专家称:“实际上,古籍电子化的方向早就提出了,但迟迟不能推动是技术原因,导致古籍电子化只能停留在口头上。”工欲善其事,必先利其器,在古籍电子化成为当前社会共识的情况下,古籍电子化的技术问题也应纳入议事日程,得到社会的应有重视。

  古籍电子化≠古籍的电子扫描

  在大多数人的理解里,古籍电子化就是对古籍进行简单的扫描,只要将文本信息转换为电脑可识别的数字信息就万事大吉。但实际上,扫描只是古籍电子化的预处理,“根据我们的实践,扫描仅占数字

化工程的2%。”一位长期从事古籍电子化的工作人员说

  据这位工作人员介绍,一个完整的数字化处理流程包括大小十几个步骤。在扫描完成后,数据还要经过版面分析、文字识别、纵校、横校、版面还原等多个步骤,到这个阶段时,古籍内容才能在电脑上以理想的形式呈现。“这几步的处理至关重要,对技术的要求很高,特别是字符的识别技术。如果处理不好,文字的差错率无法控制,最终难以达到出版界的规定和要求。”他强调道。

  完成上述处理后,还需要对录入信息进行进一步的处理,如进行XML半自动置标、人工辅助置标、配置检索引擎等,目的主要是为了便利于互连网环境下的使用,提高电子古籍的使用效率。“只有将数字化内容与多种有效的检索、处理工具完美结合,古籍电子化才算真正完成。”从这个意义上讲,古籍电子化在实现内容保护的同时,还要解决古籍在互联网环境中的应用问题,因此,在技术上增了不少难度。

  古籍电子化的特有技术难题

  在走访汉王科技OCR(光字符识别)技术研发部时,一位长期从事古籍图文识别技术研发的工程师说:“古籍电子化较之简单的文档扫描,在技术上增加的难度主要体现在三个方面:一、对字符识别率要求更高;二、字库要求大;三、版面处理更复杂。”

  在字符的识别上,和普通古籍图文资料相比,古籍页面残破、字迹模糊,加之历时久远,在页面上存在大量墨点,污渍和霉斑。如果在电子化处理过程中,不能有效识别这些非信息符号,在电子文本上就会留下大量乱码和不规则暗痕,“要解决这些问题,唯一的途径就是提高仪器的识别率。”这位技术人员说。

  在字库的规模上,因为大量繁体、异体、通假和避讳字的存在,古籍所包含的汉字数量往往是一般文本的数倍,如果电子仪器自带的字库太小,很多文字就无法在电子版本中正确显示。而在应用阶段,大量简、繁、异、日字符的关联转换、交叉引用和关键检索,也对古籍录入技术提出了更高的要求。

  在版面处理上,因为古籍中的文字、批注纵横交错,规格、样式、排版又大相迥异,因此给文件的排版造成很大麻烦:如果按照原件排版,费事费力;如果不排,大量原始信息就会丢失。因此在技术上,急需一种能对各种表格自动识别、精确还原,而且输出的表格能随意编辑的先进仪器。

  文本王一键输入,高效实现古籍电子化

  技术是古籍电子化的核心问题,在走访众多国家级馆藏机构时,据悉,目前在古籍电子化方面应用最广泛的,是由汉王科技生产的文本王系列产品。在回答为什么要首选文本王的问题时,众多馆藏机构的负责人将答案一致指向其产品内置的OCR技术。

  “内置OCR技术的文本王最突出的特点是,在扫描录入的同时,通过版面分析、文字识别、纵校、横校和版面还原5大模块,真正实现一键输入,只需轻按一键,就可将资料扫描进入word,瞬间自动形成电子文档,大大简化了古籍扫描、校正和版面处理的工作。” 刘迎建说道。

  对文本王在古籍电子化中的运用前景,刘迎建充满了信心,“通过技术应用加快推动古籍电子化是社会各界的普遍共识,汉王在这个领域一直处于领先位置。这不仅是由我们的技术优势所决定,也是与我们多年来对古籍保护的密切关注所分不开的。”

发表评论
爱问(iAsk.com)
不支持Flash
不支持Flash