您所在的位置是: 新闻资讯 > 国际动态 > 国际档案工作
保持电子文件的可利用性——关于德国联邦档案馆如何保存东德数字遗产的个案研究
保持电子文件的可利用性——关于德国联邦档案馆如何保存东德数字遗产的个案研究
作者: 来源: 2012年01月05日

    Andrea Hanger

    德国联邦档案馆中保存着大约200个数据集(大概是200000个案卷),是由东德于1970至1990年间生成的。这些经计算机处理过的数据库都被保存了下来,内容涵盖了统计资料、经济、农业、教育、刑罚登记、劳动领域。这些文件的利用频率非常高,用户通常是科学研究人员、用作法律证据的机构和个人。本文旨在介绍这些文件的征集、保护和利用。文中讨论了真实性,以及利用现代交换标准,如元数据加密和交换标准(METS)描述和保护数据的各种问题。

    征集

    1990年10月,东西德正式统一。没有编入联邦机构或新成立的Lander的东德政府机关都实行了私有制或解散。因此,大量的国家数据处理中心都被关闭或处于被分解的过程中,数据馆藏通常被有系统地销毁或在转移到新的私有公司中。联邦档案馆立即制定了积极的征集策略,成功地抢救了大量的具有历史和证据价值的文件。数据的征集很重要,但同样重要的还有保护读取和解释数据所需的文献信息。征集过去是,现在还是一个正在进行的过程。过去这些年中,人们在阁楼或废弃的办公室中发现了数以百计的磁带。甚至时至今日,人们在进行文件著录的过程中在纸质文件中发现软盘。最近的发现是找到了包含前东德议会一个调查委员会(Volkskammer)调查结果的数据集。这个委员会的任务是对政府腐败诉讼提供依据。数据以Redabas的格式分别存放在几个5.25″软盘上。最重要的数据集之一是“中央行政领导(干部)档案室”,这里保存着上二十世纪八十年代从民主德国(GDR)部长会议处收集的数据。这些文件涉及大约700,000名个人,包括全体“职能”掌权人物以及民主德国高级公务员(但不包括全职公务人员、军官和安全部门),这份独特的资料来源为我们提供了二十世纪八十年代这些人的全部社会和政治背景以及家庭情况,他们的职务、教育背景、所属党派和所隶属的机构、以及作为干部的进一步的信息(比如外语程度、出访非社会主义国家的情况)。其他重要信息集的例子还有“1971年和1981年统计数字数据集”或“请愿书数据集”,其中包括了1979年至1989年间向东德政府提交的100多万份请愿书。

    保护

    第一步征集完成之后,就要制定长期保护策略。根据玛格利特·海德斯道姆的定义,保护是指“面对不断变化的技术,保持显示、检索、控制和使用数字信息的能力。”如果出于档案目的,那么就不仅仅是保护数月和数年的问题,而且还有长期保护。长期保存意味着足以应对技术变化带来的影响,包括对新介质和数据格式的支持或变化的用户人群。长期可以是无限制的延长。总的来说,原生数字文件的长期保护有两种不同的策略:迁移和仿真。原生数字文件是指文件的意义或可作用性来自并依赖于以数据形式编码。如果将它们存在除数字介质之外的其他介质上就不能保证功能的完整性。迁移可以广交地定义为数据信息从一个硬件/软件平台向另一个平台的转移。迁移几乎是无时不在的。通过一个迁移就获得数据的永久性的可能性微乎其微。相反,为了保证信息的“常青”,每隔一定的时间就要进行一次迁移。

    仿真是保护原生软件或硬件环境的另一种可选择的方法。仿真品可以通过模仿生成文件的软件或硬件重现原始电子文件的“外貌和感觉”。这样,用户就可以利用保留了所有功能的原始格式的文件。档案科学中,毫无疑问这是最佳方式,因为它最大限度地保留了原始内容。但这也是最复杂最昂贵的方式。策略的选择取决于需要保护的功能的大小,以及档案馆在数字保护方面所投入的资源量。

    可以说没有一种策略能够明确地解决所有问题,数字保护仍是一个技术复杂、资源需求大的过程。第一个目标应是保持数据面向所有随时间的推移可能出现的问题。从长远来说,新的用户群体的出现会带来与生成数字文件的群体不相同的需求和期望。迁移和仿真都代表着现有的保护承诺——为了保持文件的可利用性,档案馆应以定期在资源上加以投入。即使忽略以有意义的方式保护文件内容,保存介质本身也会过时和退化,必须经常更新。

    联邦档案馆决定采取介质和格式迁移的策略。对前东德数据集采用ASCII的保护格式。ASCII是人们公认的保存数据的最安全的方式,但只能保存比特流,不能保留任何有关先前的功能和格式的信息。这种信息要保存了补充文件中。很多情况下,要重新构建数据结构。识别结构和编码需要进行大量的研究工作。为了保护存储空间(生成这些文件的时候是非常昂贵的)的安全,信息是尽可量压缩。大部分情况下数据被加密和压缩,以保证档案格式的转换不会受商业转换程序的控制。每个数据集都要求特殊的编程。有些情况下,要找到提供算法的软件工程师,因为只有他们才能进行加密。2003年,联邦档案馆设计了一个特殊转换工具,将原始文件从EBCDIC格式转换成ASCII和XML格式。针对压缩数据有一个解压程序,将十六进制转换成二进制值。有了这种工具就能对每个域的值进行简单的分析,以证明文件的结构和编码。最重要的功能是数据的不可分开的联系,结构和编码的描述。这种功能能够补充ASCII中保护比特流的不足之处。数据集的处理过程中,经常发现数据不规则的现象。检索工具中记录了内容合法性以及数数据可靠性方面一些可能的限制条件。为了比较迁移后的数据和原始数据,采取抽样检查的方法。其中包括对数据的表面看似合理性进行检测,比较特定域的值,检查文件和域的所有数字仍是相同的。

    可利用性

    前东德的数据集不仅仅经常用于科学研究,也用来作为证据。所以,转换工具也可以代替编码。这就是说用明文代替数值编码,例如用“民主德国”代替“111”。这对于因为出于官方和个人目的经常使用的数据集,以及包含高度敏感的个人数据的数据集。例如向Social Court提供全部“东德公司登记数据集”,由他们自行检索。当然不可能提供包含个人数据的数据集的拷贝。对于与这些数据集相关的调查,只能由联邦档案馆进行查询。数量最大的调查与“拘留和囚犯数据集”有关。调查目录包括关于家庭状况、囚禁期限、该受惩罚的行为、以及被囚禁期间发生的所有事件(包括疾病)。大部分时间都用来对这些数据集进行转换和记录。许多编码都由明文代替。比较加密数据,明文空白表格程序的优势在于进行研究的时候不需要专家。为了支持速度更快的查询,又开发了另一种工具,改写内容相同但结构不同的文件的结构。例如,“被拘留者和被监禁者数据库”中包括1980年至1990年间的年度数据集。这些年来,工具的结构也发生了变化。出于研究的目的,工具对结构实施标准化,在mySQL-database中阅读文件。该工具还能够比较不同的文件,并识别出那些相同的文件。针对科学研究用户制作的是匿名拷贝。转换工具能够抽取出需要抢救的域,并对包含敏感信息的域采取匿名的方法。大部分的用户使用的都是刻在CD-R上的拷贝。这些用户是更大规模研究项目的参与人,这种项中,数据是在现代化的数据库中处理的。他们来联邦档案馆的唯一目的是查阅补充性资料。只有极少数的用户使用现场公共数据。

    联邦档案馆的网站上有数据集著录目录。目前还没有计划制定基于网络的公共展示系统,因为许多数据集合的利用情况对自由利用有专门的限制。

    真实性和可靠性

    如何保持并证实电子文件的真实性不仅仅对档案工作者,而且对于整个信息社会都是一个问题。所以人们可以注意到对电子文件管理部门面临的安全要求要远远高于纸质文件。从GDR-data集合那里得到的经验是完全不同的。文件经常被用作证据。前民主德国的公民利用这些文件作为赔款、赔偿和任职的证据。举例说明:其中最重要的数据集合之一是“公司工作能力”,其中包括很多前民主德国劳动力的个人信息,包括大约725万人的受教育、培训和就业情况。这种资料经常用来作为雇用时间的证据。正如上面所提到的,最大的查询量与“被拘留者和犯人数据库”有关。有关被收监期间疾病的专门记录可以帮助犯人获得赔偿。这些记录只有电子形式,也是相关人员在申请赔偿时可以依赖的唯一依据。在第一种情况下,地方当局或地区政府部门有权决定赔偿的问题。如果赔偿要求失败,申请人还有机会提出异议,并申请司法复议。如上所示,这些数据集的征集不符合安全数据传输的标准和规则。但直到今日,还没有行政机关或法官怀疑过这些记录的真实性和可靠性。很明显,如果用来作为证据,那么对背景情况所作的详细记录,数据的有效性、传输和处理已经足够了。上述情况证实了避免这种中短期措施的策略,比如在长期事件上使用数字签名的作法,同时为了保持真实性优先采用体制方面的规则而不是技术规则。联邦档案馆正积极参与一个多学科项目,模仿RLG的“数字馆藏证书”。这个项目的目的是为数字馆藏设立要求,保证这些馆藏能够得到可靠的保存、迁移和提供数字文件集合的利用。2

    METS

    保持用于记录真实可靠数据的文件的完整性是一个前提条件。正如上面所说,联邦档案馆开发了一种工具,与数据、结构的描述和编码密切结合在一起,避免这些不同来源之间的联系丢失。如果三个部分之中的一个丢失,数据将不能被解释。但从档案的角度来说,背景和技术信息与数据一起保存也是一个主要要求,以保证任何时候文件的所有历史都能被重建。历史的内容包括数据生成机构的行政背景、数据获取和验证的最初方式、档案馆处理数据的记录,比如内容证实、抽样检测、迁移、更新等等。现在这种信息是与数据分开保存的。联邦档案馆目前正在调查元数据加密和传送标准(METS)是否能作为将数据、背景和技术记录集合在一起的一种方式。METS是联邦数字图书馆的一项新举措,它为库房数字馆藏管理以及库房和用户之间的馆藏交换提供了元数据加密所必需的一种XML文件格式。

    METS的最初目的是用于馆藏的展示3,后来被越来越多地用在保护方面。一份METS文件可以起到开放档案信息系统(OAIS)参考模式中的提交信息包(SIP)、档案信息包(AIP)或传播信息包(DIP)的作用。它使用XML作为一种具备广泛支持的灵活开放的标准,同时还有将内容从展示中分离的能力,使档案工作者来在这方面很多优势。

    一份METS文件是由7个主要部分组成的:1、the METS-Header,用于描述METS文件本身。2、the Descriptive Metadata。3、the Administrative Metadata。4、the File Section,列出METS文件(在XML中或作为Base64 Binary)中可以参考或包含的文档。5、the Structural Map,用来描述数字对象的等级结构,并将这些元素和从属于每个元素的内容文档和元数据联系起来。6、Structural Links。7、Behaviour。METS的优势在于technical/administrative metadata不是在内部定义的,但它们指向外部标准模式。这些元数据可以是国际标准,比如Dublin Core或EAD,但同时也是源自电子文件管理系统的文件管理国家标准。Technical metadata可以以国际标准,如PREMIS4的形式出现。例如,PREMIS可以记录数据的传输、处理或描述过程中的每一个“事件”。METS可以将Descriptive和 technical Metadata联系起来,不仅为保护过程的内容也为其背景准备一份连贯的记录。

    经验

    可以把从GDR-data得到的经验看作一个研究个案,表明当数据生产者和档案馆之间的合作停止之后会发生什么情况。在交出文件又没有移交标准的情况下开始工作是非常困难并且费用昂贵的。未来几年中,我们预计征集内容的大部分都会来自电子文件管理系统,移交的时候也会具备标准化的元数据和完整的检查跟踪系统,但是我们还要牢记从前民主德国得到的经验教训:档案工作者负有保护具有长期价值文件和提供文件利用的责任。但这并不表明档案工作者要等到一个机构认为不需要文件的时候。相关的档案馆中的主体文件应该是生成机构所生成和保管良好的文件。这个道理在电子时代尤为重要,因为如果缺乏计划,电子文件就会过早地消亡。档案工作者必需及早参与到将会将产影响力的文件生命周期中去。如果不采取行动,那么随着档案馆馆藏量的减少,社会就很可能因临丢失一批批具有历史和证据价值的文件的危险。在档案馆主要依靠数据生成人在寄存数据时提供的完整和准确的记录,并遵照其他要求,比如文件结构和格式、移交介质、隐私和秘密的保护需求。数字归档工作要求数字信息的生成者和档案馆之间要进行某种程度上的合作。当数据生成人不遵守移交规定的时候,档案馆就要花费额外的资金准备用于数据的保护和传播。GDR-data的例子说明,希望在电子文件策略规划的档案馆必需考虑两个问题,一方面,档案馆的责任中存在文化层面,工作重点是利用、学习和文化的全方位,另一方面,档案馆还要意识到自己的证据作用,即他们为民主权利提供证据的潜在能力。对于两方面来说,真实性都是主要问题。除了其他优势之外,METS为长时间保护真实的文件提供了一种可能性。

    (李红/译)

责任编辑: