总体而言,应该注意的是,人文学科学者应该从一开始就尽可能密切地参与研究数据中心提供的技术和研究相关的咨询和培训服务的开发,因为仅仅提供要约并不足以引起潜在用户的接受。[25]
3.1.1 可持续性
科学家们期望他们交给数据中心的研究数据能够得到长期归档和长期可用性。一方面,研究资助者和科研机构的要求在这方面发挥了一定作用,[26]另一方面,例如,DFG 要求的最短保留期限为 10 年,而考虑到人文学科研究成果的相关意义通常非常长,这一期限只是非常短的一段时间。[27]关于最后一点,一项针对欧洲学术机构的调查发现,研究人员非常关心数字数据和档案的可持续性。[28]人文学科研究数据的长期存档和可持续提供不仅是一个技术问题,也是一个组织问题,因为合作结构才刚刚出现,成熟的商业和融资模式仍然严重缺乏[29],同时缺乏或至少缺乏足够的激励和支持系统来鼓励研究人员适当地准备他们的数据以供重复使用。然而,技术挑战不容小觑。这不仅包括比特流的保存,还包括使用和演示环境的保存。在这一领域,在切换时考虑以非预期的方式使用数据也起着重要作用。研究数据中心库存的吸引力关键取决于研究数据能够实现哪些后续使用场景。除了策展工作之外,当然还涉及法律和财务问题。
3.1.2 呈现
如前所述,长期存档意义上的备份并不一定意味着数据可立即供后续使用。呈现维度特指维护复杂数据对象和呈现系统的方面,它超越了基于对象的数据存储。这方面的另一个方面是数据的总体可见性,它应该:a)可查找[30] ——其中,使用元数据的详细内容索引再次发挥作用;以及b)应清晰可引用,这可以通过持久标识符(PID)等来确保。尽管与自然科学相比,人文学科对研究数据的引用较少,[31]但提高研究成果和数字成果的知名度(包括向更广泛的公众)对于人文学科的研究人员和支持机构来说,也发挥着不容小觑的作用。
这里必须提到的研究数据呈现的一个限制方面是可访问性。即使按照开放获取原则,所有研究数据原则上都应该可以自由、不受限制地获取,[32]但这并不在所有情况下都可行,特别是由于版权或开发法的限制,或出于数据保护的原因。然而,这些原因不一定会妨碍将数据归档到研究数据中心,因为可以通过访问策略定义不同的访问级别,并且可以使用适当的技术解决方案(例如 AAI [33] )来控制和管理访问。这种访问控制形式依赖于相关资源元数据中的独特信息,这使得系统能够以自动方式授予访问权限。
3.1.3 集成
集成维度包括与其他研究数据中心交换元数据和数据、连接虚拟研究环境或合并不同数据集以回答新的研究问题的可能性。特别是对于原始数据生产者以外的参与者对研究数据的重复使用,标准化的元数据和全面的上下文信息以及合适的接口至关重要。[34]
这也引发了如何分配与数据管理和提供相关的各项任务的责任的问题。与可持续性和展示性维度相比,整合维度的重点从原始研究项目转移到希望利用研究数据中心的资产来解决自己研究问题的未来项目。交付的研究项目将集中于对其而言重要的归档方面(例如,对赞助者的文件义务、研究数据的引用),而为第三方提供后续使用场景在大多数情况下将发挥从属作用,特别是因为研究项目内通常不为此提供任何资源。
此外,必须在研究数据交付之前或最迟交付时澄清重要的法律问题,包括谁拥有数据以及谁被允许以何种形式使用数据。[35]在这方面,不需要特殊的技术解决方案(除了 AAI),但需要明确的(机器可读的)识别,例如通过元数据。例如,为此目的,人文相关元数据标准都柏林核心中提供了 dc:rights [36]字段。
3.2 研究数据中心的进一步要求的利益,例如,创建稀有物品的数字副本以保护实物原件,当然,这些副本也必须进行相应的记录和呈现。[37]此外,记忆机构可能有兴趣持续保存数字副本或真正的数字对象,而由于版权原因等原因,它们暂时还不能向更广泛的科学公众提供这些对象。一方面,这可以用于数字保存[38] ,甚至可以作为实物丢失时的“保留副本”。这方面的例子包括科隆市历史档案馆倒塌[39] 和魏玛安娜·阿玛利亚公爵夫人图书馆发生火灾[40] 。在这两种情况下,许多书籍和文件都无可挽回地丢失了,如果事先将它们数字化,这些书籍和文件仍然可以找到。
3.3 从基础设施提供商角度看研究数据中心的实施条件
与出版物存储库[41]相比,后者在格式和元数据方面只需要适应较少范围的格式和 澳大利亚电报数据 技术,而人文学科数据研究数据中心面临着更大的挑战。正如上面已经详细描述过的(见 第 2 节),这涉及归档和保存各种格式和复杂的数据类型。格式的多样性主要是由于人文学科研究中使用的数字工具的多样性,其中目前有许多内部开发的工具可以针对特定的研究问题进行单独调整。
复杂数据类型的一个关键特征是通常只有一小部分核心可以实现标准化,即描述性、技术性和管理性元数据。这意味着通常需要或多或少定制的解决方案来确保这些数据的长期存档和可重用性。首先,必须确定复杂数据对象的结构,即必须检查它们由哪些单独的数据和应用程序组成。然后必须制定、测试适当的归档策略,并在必要时进行修改。此类个别解决方案的开发和实施需要大量资源投入,而投入的程度在不同情况下可能存在很大差异,因此很难确定长期存档和提供的成本。数据标准化程度低也给后续使用带来了挑战。
一方面,研究数据中心的搜索界面应该尽可能直观易用,另一方面,它应该提供足够相关的匹配结果和选项来优化结果。然而,用于在一系列研究数据中进行搜索的元数据的描述核心已经提出了一个问题:描述元数据必须或可以有多细粒度,因为元数据无法取代全文搜索。在此背景下的另一个问题是如何确保不同研究数据中心和记忆机构的元数据模式的互操作性。