将文件搬运到现代前言上仅仅第一步。接下来要搞清楚其间的内容,而这需求另一套东西。
2012年,William Parker和搭档企图寻觅一个追寻5万余棵精心培养的白云杉在10年间和1500公里规模内成长状况的数据集。他们发现了一盒计算机磁带—— 一个相对现代的3.5英寸磁盘和一箱子较老的5.25英寸磁盘。这些磁盘包含了来自上世纪70年代田间试验、被用于进步商用木材产值的数据。在加拿大安大略森林研讨所任职的Parker需求一些办法,以评价比方“帮忙搬迁”等战略或许怎么在这个日益变暖的星球上保护森林。而这种长时间的体系研讨正是他要找的东西。“当咱们发现它时,那种感觉就像‘天主呀!咱们总算找到它啦!’”
不过,作业并没有开展得那么快。Parker发动一台旧电脑,但它无法读取最新的磁盘。一起,也没有人具有测验读取其他磁盘的设备。
Parker的IT服务商将其介绍给一家数据康复公司。事实证明,较老的磁盘是一种小型软盘,即以极少数驱动器能读取的格局写入的双面磁盘。专家们运用一个打孔机(有点相似于数字取证)以及一些将过期的软件转化成现代电子表格的程序,终究读取了这些磁盘。
Parker的阅历是许多研讨人员所遇到的问题的缩影。坐落美国威斯康辛州麦迪逊市的AVPreserve公司档案保管员Bertram Lyons标明,从过期的数据存储前言中获取信息就像解锁一系列笼子。“科学家具有许多困在旧格局中的信息。有些是硬件妨碍,有些是编码结构的问题。”
期望从过期的前言中获取数据的科学家首要需求找到能读取它的设备,并将其连接到一台现代电脑上。不过,将文件搬运到现代前言上仅仅第一步。接下来要搞清楚其间的内容,而这需求另一套东西。
去当地图书馆寻求协助
当说到旧硬件时,一个不错的开端办法是去当地图书馆。坐落美国华盛顿特区的公共图书馆回忆试验室供给了一个自己着手(DIY)的作业站,比方人们可将3.5英寸磁盘搬运成现代格局。斯坦福大学图书馆则为5.25英寸磁盘供给相似资源。澳大利亚墨尔本大学电子学术研讨中心主任Gavan McCarthy具有一个能处理许多格局的“冗余技能图书馆”。“假如你有磁带、磁盘以及它能放进去的任何东西,咱们就有对应的转化插头。”McCarthy标明。
只需求为每张磁盘付出几美元,比方坐落加州的软盘公司等转化服务企业便能供给协助。专门处理受损前言的数据康复服务也是这种状况。总部坐落加州诺瓦托市的数据康复公司DriveSavers具有约2万个存储设备,其间最老的一个是1980年舒加特联合公司的ST-506硬盘驱动器。Parker运用坐落多伦多且同穆勒前言服务公司签订了分包合同的CBL数据康复公司康复他的数据,并为此付出了约3000美元。
成功取决于前言的脆弱性及其被贮存的办法。5.25英寸磁盘很简单遭到油和压力的损坏,艾美加公司的紧缩盘则很不安稳。不过,McCarthy介绍说,这不仅仅是“电子信息的衰减”问题,或许说对前言自身形成的损坏,从而使旧的前言无法被读取。“机器和零部件的数量也在以令人难以置信的速度不断削减。”具有挖苦意味的是,纸张反而愈加安稳。
与时俱进
具有旧驱动器和电源线的人们或许会受引诱树立自己的DIY作业站,但终究发现,新的电脑不再含有将其同驱动器连接起来的插件板和接口。比方,一些旧的紧缩盘要插进并行端口—— 一个现在简直现已消失的接口。不过,现在有许多能够帮上忙的适配器。它们首要被档案保管员和视频游戏的疯狂爱好者运用,其间最顶级的是由软件保护协会开发的KryoFlux设备。它能经过USB接口搬运软盘数据。坐落英国梅德斯通的KryoFlux保护技能集团就该设备向私家用户收取约100美元的费用。
与此一起,现代电脑上的操作体系或许无法读取旧格局的文件。科罗拉多大学前言考古学试验室主任Lori Emerson标明,他们曾协助当地一家科学博物馆康复紧缩盘上的秘密文件,而这取决于找到了适宜的电脑(来自1994年的运转OS 7体系的威力麦金塔8100计算机)读取这份文件。终究证明,这是一个来自旧版本的引文管理软件EndNote的程序库。
伊利诺依大学药物化学研讨员Guido Pauli主张,抵挡数据衰减的最好办法是与时俱进。Pauli保护着让研讨人员寻觅天然产品(比方植物提取物)以及报导过的生物活性的NAPRALERT数据库。它起始于由Pauli博士生导师组织起来的索引卡,而且自此以后阅历了磁带和各种磁盘格局,现在则以云存储和硬盘驱动器的方式散布在两个大洲。“我的确有一些旧的前言,但不会因为无法读取它们而影响作业。”Pauli标明。
了解和评价数据文件
康复旧数据的下一个应战是搞清楚数据文件自身。关于数字档案保管员来说,保护数据的第一步是获取磁盘镜像,行将一切电子数据逐位对应地拷贝到一个设备上,包含掩盖的和躲藏的文件。尽管这是数字取证技能的规模,但针对此类东西的商业许可会花费上千美元。此外,因为它们重视的是法令使用,因而疏忽了一些对档案保管员来说非常重要的特定功用,比方编写灵敏信息。
这促进档案保管人员创立了开源“虚拟机器”——BitCurator。它对磁盘进行镜像,而且辅导人们自行操作内容解读的开始几步,比方检测比特和字节怎么被格局化成供比方Windows NT操作体系、Linux或许DOS等读取的文件。格局越含糊,解读起来便会越困难。
创立穆勒前言服务公司的Chris Muller编写了软件来解锁旧文件。不过,在他看来,人类头绪有时会更有价值。在一个潜在项目的初期,Muller会让客户把初始前言的相片用电子邮件发送给他。有时,对客户毫无意义的某个专家的信手涂鸦正是让Muller推导出备份数据时或许运用了哪种格局和软件的字母或数字。
BitCurator的首要推动者之一、来自北卡罗莱纳大学教堂山分校信息和图书馆科学学院的Christopher Lee解说说,下一步是评价文件。文件或许以无法辨认的方式存在,因而很难知道哪种程序能够翻开它。“软件常常会成为妨碍。”Lee标明。研讨人员能够运用名为“文书修改”的计算机程序,显现此类文件初始的二进制内容。命运好的话,这或许能提醒某个文件是用什么软件生成的,或许使可用数据被直接提取出来。BitCurator还同美国国家标准与技能研讨所软件参阅图书馆树立互动,以企图将文件同创立它们的软件匹配起来。
不过,在数字档案保管员看来,有时最大的妨碍不是技能上的而是人。将文件提取出来然后仅知道它有6列和10万行是不行的。研讨人员需求知道这些数字意味着什么。例如,由来自密歇根州高校校际政治与社会研讨联盟的Amy Pienta领导的档案保管员购买了创新的穿孔卡片读出器,以便从上世纪50年代一项关于退休的大规模行列研讨中获取数据。不过,在这些卡片被转化成数字代码后,他们需求密码本以便知道这些数字指的是什么——代码“1”意味着“是”仍是“否”?
Parker的故事则有了一个风趣的结束:电子数据仅包含了每组树木的平均值,但一个走运的电话标明,关于每棵树丈量数据的纸质记载被保存下来。为此,他驱车好几个小时,去会晤发明这些原始数据的科学家而且收集了数据表。