当前位置:首 页 > 深度解读
智能软硬件让从旧磁盘中获取数据成为可能
来源:中国科学报      作者:宗华      时间:2017-06-19 20:37      关键词:
摘要:希望从过时的媒介中获取数据的科学家首先需要找到能读取它的设备,并将其连接到一台现代电脑上。不过,将文件转移到现代媒介上只是第一步。接下来要搞清楚其中的内容,而这需要另一套工具。

 

2012年,William Parker和同事试图寻找一个追踪5万余棵精心栽培的白云杉在10年间和1500公里范围内生长情况的数据集。他们发现了一盒计算机磁带—— 一个相对现代的3.5英寸磁盘和一箱子较老的5.25英寸磁盘。这些磁盘包含了来自上世纪70年代田间试验、被用于提高商用木材产量的数据。在加拿大安大略森林研究所任职的Parker需要一些方法,以评估诸如“协助迁移”等策略可能如何在这个日益变暖的星球上保护森林。而这种长期的系统研究正是他要找的东西。“当我们发现它时,那种感觉就像‘上帝呀!我们终于找到它啦!’”

不过,事情并没有发展得那么快。Parker启动一台旧电脑,但它无法读取最新的磁盘。同时,也没有人拥有尝试读取其他磁盘的设备。

Parker的IT服务商将其介绍给一家数据恢复公司。事实证明,较老的磁盘是一种小型软盘,即以极少数驱动器能读取的格式写入的双面磁盘。专家们利用一个被小心放置进去的打孔机(有点类似于数字取证)以及一些将过时的软件转化成现代电子表格的程序,最终读取了这些磁盘。

Parker的经历是很多研究人员所遇问题的缩影。位于美国威斯康辛州麦迪逊市的AVPreserve公司档案保管员Bertram Lyons表示,从过时的数据存储媒介中获取信息就像解锁一系列笼子。“科学家拥有很多困在旧格式中的信息。有些是硬件障碍,有些是编码结构的问题。”

希望从过时的媒介中获取数据的科学家首先需要找到能读取它的设备,并将其连接到一台现代电脑上。不过,将文件转移到现代媒介上只是第一步。接下来要搞清楚其中的内容,而这需要另一套工具。

去当地图书馆寻求帮助

当提到旧硬件时,一个不错的开始方式是去当地图书馆。位于华盛顿特区的公共图书馆记忆实验室提供了一个自己动手(DIY)的工作站,比如人们可将3.5英寸磁盘转移到现代格式上。斯坦福大学图书馆则为5.25英寸磁盘提供类似资源。澳大利亚墨尔本大学电子学术研究中心主任Gavan McCarthy拥有一个能处理很多格式的“冗余技术图书馆”。“如果你有磁带、磁盘以及它能放进去的任何东西,我们就有对应的转换插头。”McCarthy表示。

只需要为每张磁盘支付几美元,诸如位于加州的软盘公司等转换服务企业便能提供帮助。专门处理受损媒介的数据恢复服务也是这种情况。总部位于加州诺瓦托市的数据恢复公司DriveSavers拥有约2万个存储设备,其中最老的一个是来自1980年舒加特联合公司的ST-506硬盘驱动器。Parker利用了位于多伦多且同穆勒媒介服务公司签订了分包合同的CBL数据恢复公司来恢复他的数据,并为此支付了约3000美元。

成功取决于媒介的脆弱性及其被储存的方式。5.25英寸磁盘很容易遭到油和压力的破坏,艾美加公司的压缩盘则很不稳定。不过,McCarthy介绍说,这不仅仅是“电子信息的衰减”问题,或者说对媒介本身造成的破坏,从而使旧的媒介无法被读取。“机器和零部件的数量也在以令人难以置信的速度不断减少。”具有讽刺意味的是,纸张反而更加稳定。

与时俱进

拥有旧驱动器和电源线的人们或许会受诱惑建立自己的DIY工作站,但最终发现,新的电脑不再含有将其同驱动器连接起来的插件板和接口。比如,一些旧的压缩盘要插进并行端口—— 一个如今几乎已经消失的接口。不过,现在有很多可以帮上忙的适配器。它们主要被档案保管员和视频游戏的狂热爱好者使用,其中最尖端的是由软件保护协会开发的KryoFlux设备。它能通过USB接口转移软盘数据。位于英国梅德斯通的KryoFlux保护技术集团对该设备向私人用户收取约100美元的费用。

与此同时,现代电脑上的操作系统可能无法读取旧格式的文件。科罗拉多大学媒介考古学实验室主任Lori Emerson表示,他们曾帮助当地一家科学博物馆恢复压缩盘上的秘密文件,而这取决于找到了合适的电脑(来自1994年的运行OS 7系统的威力麦金塔8100计算机)读取这份文件。最终证明,这是一个来自旧版本的引文管理软件EndNote的程序库。

伊利诺依大学药物化学研究员Guido Pauli建议,对付数据衰减的最好方法是与时俱进。Pauli维护着让研究人员寻找天然产物(比如植物提取物)以及报道过的生物活性的NAPRALERT数据库。它起始于由Pauli博士生导师组织起来的索引卡,并且自此以后经历了磁带和各种磁盘格式,如今则以云存储和硬盘驱动器的形式分布在两个大洲。“我确实有一些旧的媒介,但不会因为无法读取它们而影响工作。”Pauli表示。

理解和评估数据文件

恢复旧数据的下一个挑战是搞清楚数据文件本身。对于数字档案保管员来说,维护数据的第一步是获取磁盘镜像,即将所有电子数据逐位对应地拷贝到一个设备上,包括覆盖的和隐藏的文件。虽然这是数字取证技术的范围,但针对此类工具的商业许可会花费上千美元。此外,由于它们关注的是法律应用,因此忽略了一些对档案保管员来说非常重要的特定功能,比如编写敏感信息。

这促使档案保管员创建了开源“虚拟机器”——BitCurator。它对磁盘进行镜像, 并且指导人们自行操作内容解读的最初几步,比如检测比特和字节如何被格式化成供诸如Windows NT操作系统、Linux或者DOS等读取的文件。格式越模糊,解读起来便会越困难。

创建穆勒媒介服务公司的Chris Muller编写了软件来解锁旧文件。不过,在他看来,人类线索有时会更有价值。在一个潜在项目的初期,Muller会让客户把初始媒介的照片用电子邮件发送给他。有时,对客户毫无意义的某个专家的信手涂鸦正是让Muller推导出备份数据时可能利用了哪种格式和软件的字母或数字。

BitCurator的主要推动者之一、来自北卡罗来纳大学教堂山分校信息和图书馆科学学院的Christopher Lee解释说,下一步是评估文件。文件可能以无法识别的形式存在,因此很难知道哪种程序可以打开它。“软件经常会成为障碍。”Lee表示。研究人员可以利用名为“文书编辑”的计算机程序,显示此类文件初始的二进制内容。运气好的话,这或许能揭示某个文件是用什么软件生成的,或者使可用数据被直接提取出来。BitCurator还同美国国家标准与技术研究所软件参考图书馆建立互动,以试图将文件同创建它们的软件匹配起来。

不过,在数字档案保管员看来,有时最大的障碍不是技术上的,而是人类。将文件提取出来然后仅知道它有6列和10万行是不够的。研究人员需要知道这些数字意味着什么。例如,由来自密歇根州高校校际政治与社会研究联盟的Amy Pienta领导的档案保管员购买了翻新的穿孔卡片读出器,以便从上世纪50年代一项关于退休的大规模队列研究中获取数据。不过,在这些卡片被转换成数字代码后,他们需要被保存的密码本以便知道这些数字指的是什么——代码“1”意味着“是”还是“否”?

Parker的故事则有了一个有趣的结尾:电子数据仅包含了每组树木的平均值,但一个幸运的电话表明,关于每棵树测量数据的纸质记录被保存了下来。为此,他驱车好几个小时,去会见创造这些原始数据的科学家并且收集了数据表。(宗华编译)


我要留言