您所在的位置是: 新闻资讯 > 行业动态
一史馆满文档案图像识别软件研发项目圆满成功
一史馆满文档案图像识别软件研发项目圆满成功
作者:中国第一历史档案馆 来源: 中国第一历史档案馆 2016年11月23日

一史馆满文档案图像识别软件研发项目圆满成功

不断强化创新意识  借现代科技助推传统文化

——访项目负责人、国家档案局副局长兼一史馆馆长胡旺林

 

本报记者  崔珍珍

说明: C:\Users\lizhan\Desktop\胡馆长办公室工作照.jpg

胡旺林近照

日前,中央办公厅副主任陈世炬同志就中国第一历史档案馆满文档案图像识别软件研发项目圆满成功作出批示:祝贺一史馆满文档案图像识别软件研发项目圆满成功,谨向项目组的同志们表示感谢。希望你们紧紧围绕厅工作部署和三服务任务,总结经验,发扬成绩,把管理、责任、创新有机结合起来,不断推进档案开发利用,更好地服务党和国家发展大局。中办领导对满文档案图像识别软件研发工作高度重视,充分显示满文档案图像识别软件具有非常独特的价值和作用。那么,这项工作究竟有什么意义和作用,有多大价值,下一步又如何规划……带着这一系列疑问和兴趣,本报记者近日采访了项目负责人、中央档案馆副馆长国家档案局副局长兼一史馆馆长胡旺林。

  者:胡副局长,首先祝贺一史馆满文档案图像识别软件研发项目取得成功。作为一家综合档案馆,一史馆主要职责是负责历史档案的保管和利用,为何会主持开发满文档案图像识别软件呢?请胡副局长介绍一下软件研发工作的缘起。

胡旺林:一史馆是我国专门保存明清两代中央政府和皇室档案的综合档案馆。大家知道,清代的统治者是满族,满文被尊为国文,曾经作为中国的官方文字之一使用了260多年,从而形成了大量的满文古籍文献。中国有55个少数民族,现存的少数民族文字历史文献,数量最大的就是满文档案。一史馆馆藏明清档案约1000万件,绝大部分为清代档案,其中满文档案200多万件,占全部馆藏档案的五分之一,这是中华民族历史文化遗产的重要组成部分。清代入关之前的很多档案是用满文写成的,并没有汉文版本,入关后的很多重要档案文献也是满汉合璧或满文与其他民族文字合璧。这些满文档案是研究清代历史尤其是清代前期历史宝贵的第一手资料,史料文献价值弥足珍贵。

但是,我们虽然拥有丰富的满文档案,利用状况却并不乐观。主要有这么几个原因:一是懂满文的人少,能看懂满文档案的人更少。现在,满族已不用满文了,只有新疆锡伯族的文字和满文极为相近,但真正使用的人较少。二是清史专家中懂满文的不是很多,有些专家急需了解和利用满文档案,但只能望洋兴叹,或者等满文档案翻译成汉文出版后才能利用。三是满文档案工作人员不足,一史馆虽然有满文处,但编制有限,整理、编目、翻译、编辑等各项业务工作只能依靠有限的人员纯手工开展,满文档案的开发利用进程难以满足社会公众的需求。

我们档案工作者的职责是为党管档、为国守史、为民服务。经过前几年的大规模档案整理及数字化工作,一史馆的1000万件历史档案已基本实现安全保存、有序管理,为管档、守史打下了坚实基础,如何更好地为民服务,使历史档案得到充分利用,成为我们长期的课题。突破语言限制,让丰富的满文档案信息更好地为历史研究和社会发展服务,我们认为这是明清档案工作者的神圣使命,一史馆义不容辞、责无旁贷。

近年来,我们一直积极探索途径,力求使用现代计算机技术解决满文档案在开发利用上的难题。我们进行了深入调研,了解到目前光学字符识别(OCR)技术已经成熟,在汉文档案识别上已取得丰硕成果,可以推广应用于识别满文档案图像。经过反复论证,我们确立了开发满文档案图像识别软件的工作思路,并最终取得了成功。

  者:满文档案图像识别软件项目研发的大致过程是怎样的?

胡旺林:满文档案图像识别软件研发项目,不是只凭热情的拍脑袋工程,也经历了充分酝酿、前期调研、科学论证、认真实施、严格验收等过程,因此项目取得成功也不是偶然的。20135月,一史馆开始进行项目前期调研,先后派专家赴山东、辽宁、内蒙古、西藏、新疆等地考察满文及其他少数民族语言的数字化及图像识别技术使用情况,发现满文档案图像识别软件在国内外尚属空白。20147月,项目研发方案通过,因为技术难度较大,经研究,我们决定同OCR技术领先的汉王科技股份有限公司合作研发。20151月项目通过财政部单一来源采购方式审批。20153月双方签订合同,研发周期为20151月初至20166月底。

在实际研发过程中,发现项目中所包含的满文输入法和满文字库这两项研发内容具有很强的专业性。为了保证研发质量和进度,我们吸纳潍坊北大青鸟华光照排有限公司的技术团队参与到本项目中,专门开发满文输入法和满文字库。到今年6月初,项目研发工作按期完成。722日,满文档案图像识别软件研发项目顺利通过专家会议验收,专家组一致认为项目成果符合国家相关标准,达到了该领域国内外领先水平,具有很强的应用和推广价值。项目开创了满文手写体文字识别的先河,填补了满文档案信息化和数字化领域的技术和软件空白,未来将极大地提高满文档案的工作效率和服务水平。

  者:满文档案图像识别软件的工作原理和过程是怎样的?

胡旺林:大家知道,一史馆满文档案全部为手写体档案。我们先通过数字化扫描,形成档案数字化图像,然后让软件去识别数字化图像中的手写体满文,并将图像文字自动转换成相应的拉丁字母。这样就把满文转换成了计算机可识读的拉丁字母,建立了连接满文与计算机的桥梁,从而实现满文档案高效的大批量的识别处理,为满文档案数字化和信息化工作,甚至为将来研发满文档案辅助翻译软件工作,打下了坚实基础。因此,从满文档案的开发利用角度看,说满文档案图像识别软件具有革命性和划时代的价值,应该不为过。

 者:截至目前,满文档案图像识别软件研发项目已取得了哪些具体成果?请您为读者介绍一下。

胡旺林:这个项目的成果是多方面的,主要包括:满文档案图像识别软件、满文输入法、满文字库、拉丁字母与满文标准字体相互转换软件和满文档案拉丁字母数据管理软件。下面分别介绍一下:

满文档案图像识别软件实现了对手写满文档案扫描图像的识别,对满文行书体和楷书体档案的单词识别准确率分别达到了80%85%。在准确率上已经与技术成熟的汉文手写体识别软件相近。

满文输入法软件虽然不是首创,但对以往满文输入法软件存在的一些不足进行了重大改进,首创了一字多键的键盘布局,无需使用切换键,使输入更加简单快捷。软件符合国家标准,兼容Word等主流办公软件,并且首创了预览框功能和复合字母自动匹配功能,各方面都达到了行业领先水平。

满文字库是计算机显示满文的前提条件,也是将满文应用于办公软件的基础。鉴于以往的满文字库存在编码不符合国家标准、兼容性差、字形不准确等问题,项目组总结多年的工作实践,制定了《满文字库设计规则与测试细则》,遵循优中选优,风格独特的原则,在大量满文档案、图书、石碑和匾额中反复推敲选型,研发出了雕版体、奏疏体、行书体、榜书体、匾额体和书名体,共6种满文字体,不仅符合国际标准和国家标准,还兼容Word等主流办公软件。

满文档案拉丁字母数据管理软件可以在无需著录的情况下,实现识别转化后的满文档案拉丁字母全文检索、展示和利用,检索准确率为100%

拉丁字母与满文标准字体相互转换软件可以实现拉丁字母国际编码和满文国际编码的转换功能,准确率为100% ,首创了满文与拉丁字母双向转换功能,所有编码都符合国际标准和国家标准。

  者:满文档案图像识别软件研发过程中有什么困难?又是怎样克服的?

胡旺林:任何创新都不是一帆风顺的,满文档案图像识别软件研发过程中同样是困难重重。

一是字符样本采集工作任务繁重。字符样本采集是项目研发工作的基础,包括对字符的切图、聚类、命名、校对等。满文是拼音文字,共有38个字母,同一个字母在词中不同位置或前后字母不同时,往往有多种不同的字形;而且满文档案都是清代人手写而成的,不同的人书写风格不同,同一个人不同时间写出的字形也有差异的,再加上满文竖写,笔画都粘连在一起,有的笔画会干扰到相邻的笔画,这些就使得字形采集量和采集难度都非常大,仅采集样本就需要10万个以上。这些工作都只能由一史馆满文处专业人员手工逐个完成。针对这种情况,项目组调整了人力分配,在兼顾满文处原有业务工作的同时,尽量加派人手及时满足项目的研发需求。项目组克服了枯燥和乏味,最终采集字符样本15万个,超额完成5万个;提供软件测试标准答案1500张;满文词汇2万余条;满文档案的人名、地名、机构职衔等词汇6718条。这些都为项目研发和软件识别率的提高创造了前提条件。

二是项目研发中存在语言障碍。公司软件开发技术人员完全不懂满文,而一史馆满文专业人员对计算机软件语言的理解也存在障碍,无论满文知识还是计算机知识的学习都不可能一蹴而就,所以双方在专业软件研发的沟通交流上存在较大难度。为此,项目组做了大量的工作。不仅多次派满文专家前往合作公司对技术人员进行满文知识培训,还专门总结制订了《满文档案人工转写拉丁字母工作规范》《满文字母构词规则》等资料提供给公司学习使用。

  者:满文档案图像识别软件项目有哪些应用价值和意义?

胡旺林:这里我引用在该项目验收时有关专家的评价意见:满文档案图像识别软件属于国内外首创,开创了满文手写体文字识别的先河,填补了满文档案信息化和数字化领域科技技术和应用软件的空白,具有十分重要的应用价值,有助于推动满文历史文献的数字化工作,改进满文档案数字化和信息化的路径和方式,极大地提高工作效率和服务水平。满文输入法软件不仅可应用于满文档案业务工作,更可广泛应用于满文相关的其他领域,为所有满文工作者和学者带来了便捷的工具。满文字库可应用于满文档案编辑出版、学术研究、数据库建设、古建筑匾额修复、各类终端满文字体显示和软件开发等领域,更可以广泛应用于满语文教材编撰,对满语满文的传承意义重大。满文档案拉丁字母数据管理软件,使识别技术的成果得以展示,使满文档案的利用方式得到革新。拉丁字母与满文标准字体相互转换软件使数据转换变得简单快捷,使海量数据的处理成为可能。以上软件技术含量高,符合设计要求和国家标准,具有一定的创新性和先进性,在行业内处于领先地位。

满文档案图像识别软件研发项目对满文档案研究与开发利用具有极其重要的意义,不仅使满文档案数字化、信息化及利用方式产生了飞跃式变革,还为历史档案在互联网+”时代如何弘扬中国历史文化提供了新思路,为满文档案这一中华民族文化遗产的传承提供了新途径。满文档案图像识别软件研发项目的圆满成功充分证明:档案部门既要有忠于职责、爱岗敬业的意识,也要有开拓创新、敢为人先的勇气,还要有认真负责、科学严谨的态度。

  者:满文档案图像识别软件研发项目已取得了丰硕成果,您认为有哪些成功经验?

胡旺林:项目顺利通过验收后,一史馆按惯例进行了认真的总结,梳理经验,查找不足,目的是把下一步工作做得更好。我们认为,满文档案图像识别软件研发项目之所以能取得成功,首先离不开中央办公厅领导和国家档案局领导的重视和支持,也离不开国家财政的保障。从一史馆自身来说,我认为主要有以下经验和收获:

一是要敢为人先。项目组将OCR技术应用于满文档案图像,填补了满文档案信息化和数字化领域的技术和软件空白,同时也实现了国内少数民族手写体文字图像计算机识别的首次成功。首创一字多键的满文输入法,大胆摒弃了其他满文输入法的设计理念,另辟蹊径使满文键位与满文转写完全对应,让输入过程更加简单快捷。在严格遵循现有国家标准的基础上,针对新研发的技术,起草了相关标准和规则9项、设计方案5项、测试文本3个,为今后国家标准的申请及确立打下了基础。

二是要精益求精。项目组将十余万个普通人看来形制雷同的满文字符逐个拆解,克服了枯燥乏味和沟通不便等困难,在较短时间内超额完成了字符样本采集工作。在完成原计划设计3种满文字体的基础上,又根据需求追加研发了3种满文字体;在原计划只开发拉丁字母单向转换满文标准字体的基础上,最终超额实现了拉丁字母与满文标准字体的双向转换,这些都离不开项目组夜以继日、精雕细琢的工匠精神。

三是要优势互补。一史馆拥有国内外独一无二的满文档案资源和满文专业人员,汉王公司拥有先进的OCR技术,双方既在自己的领域优势明显,又在对方的领域缺乏了解,而该项目需要将满文档案专业知识与各种计算机技术进行结合。在研发过程中,双方精诚团结,共同研讨,各尽所能,尽管在合作过程存在知识理解上的困难和差异,但通过深入沟通,及时调整,最终出色完成了项目研发。

  者:这个项目成果还有什么后续规划和展望?

胡旺林:首先,要认真汲取验收专家的意见和建议,继续完善和拓展软件的功能,为建立满文档案全文检索数据库做准备。在积极申请专利保护和相关奖项的同时,充分将项目成果应用于科研等工作,争取尽早推广使用。第二,要尽快启动满文翻译软件的开发,早日实现满汉文计算机翻译。利用现有项目成果虽然可以实现满文档案信息的全文检索,但是利用满文档案的语言文字障碍仍然存在,大部分利用者还是只能查阅人工翻译后的汉文译文。要想实现满文档案广泛服务于社会大众,必须要解决满文翻译问题。目前,已经完成人工翻译的满文档案数量较少,翻译质量也存在差异。考虑到未来巨大的翻译工作量,利用已有成果开发计算机辅助翻译软件是解决问题的最佳途径。

一史馆的满文档案已经经历了从纸质档案到扫描图像的转变,解决了满文档案保护和利用的矛盾;满文档案图像识别软件实现了从扫描图像到拉丁字母的转变,极大地提高满文档案的利用效率;未来以现有成果为基础开发的满文辅助翻译软件,可以完成满文档案从满文到汉字的转变,真正跨越语言障碍,实现广泛利用的目标。相信在不久的将来,一史馆满文档案的利用和开发方式将实现革命性的飞跃,为世界各国利用者提供优质便捷的服务。

(本文原载于《中国档案报》2016929日总第2971期)

 

 

责任编辑: saac