档案大数据下数字档案馆知识服务现状与建议
摘要:知识服务是数字档案服务的发展趋势,而档案大数据时代给数字档案馆的知识服务带来了新的机遇。通过对全国各省级档案门户网站及其工作者进行咨询调查,对我国档案大数据背景下的数字档案馆知识服务现状和发展的弊端进行剖析,探讨其原因,并提出可行性的建议,在自己学习的同时为数字档案馆知识服务实践起到参考作用。
关键词:档案大数据数字档案馆知识服务知识资源库
2016年4月7日,国家档案局发布《全国档案事业发展“十三五”规划纲要》,在纲要中提出“持续推进数字档案馆建设”、“提高档案馆业务信息化和档案信息资源深度开发与服务水平”和“探索电子档案与大数据行动的融合”[1]8,为新时期档案发展提供以下新思路:
(1)在大数据已经成为时代潮流的背景下,我们更应该探究自己的大数据——档案大数据;(2)数字档案馆建设不单单追求传统的档案信息资源数字化,还需进一步实现数据化;(3)在档案大数据背景下,提升档案信息资源深度开发与服务水平是数字档案馆发展的新趋向。笔者认为将档案信息资源转变为档案知识资源,向用户提供知识服务正是信息资源开发的一个方向。本文通过对各省级档案门户网站进行网上调查并了解目前数字档案馆知识服务现状,提出对档案大数据下数字档案馆知识服务的建议,在自己学习的同时也希望为数字档案馆知识服务实践起到参考作用。
一、相关概念和特征
大数据与档案大数据。2014年,首次将大数据作为概念呈现在政府工作报告中,2015年国务院印发《促进大数据发展战略》,正式拉开我国大数据研究与发展的帷幕[2]8。随着大数据时代的到来,各行各业都在向信息化方向发展,档案行业也不例外。
档案行业的大数据即档案大数据,笔者认为档案大数据是档案行业的发展与创新,是一脉相承并紧密相连的。一是许多大数据技术比如数据存储、数据挖掘、数据分析、数据采集会应用于档案大数据中。二是档案部门的历史数据应该作为大数据的子项被纳入其中,否则将是不完整的大数据。
二者最大的区别在于档案大数据是基于历史的数据,而大数据是基于实时数据,由此延伸出技术管理、预测性能等方面差异。但是不可否认的是,在如今的大档案观的影响下,档案大数据对于实时数据愈发重视,并在逐步实现预测的功能。
2.什么是档案大数据下数字档案馆的知识服务。在档案大数据时代,其内涵发生变化,因此笔者在秦晓珠[3]8等学者对“大数据的知识服务”提出的理解、百度百科的定义[4]8和大数据与档案大数据区别的基础上,认为档案大数据下数字档案馆的知识服务是:在数字档案馆中,以用户需求为中心,以档案的利用服务为着眼点,为了适应档案服务智慧化、个性化、主动化的发展趋势而衍生出的一种基于网络用于解决档案数据多维度、多形式处理的信息服务新模式,目的是为档案用户解决问题。
3.典型特征。
首先,加强了对知识挖掘等技术方面的要求。档案大数据下数字档案馆的知识服务建立在信息集聚化和知识挖掘、知识存储分析等技术的基础上,其中知识挖掘最为关键。面对海量的异构的档案信息资源,利用大数据挖掘技术,将分布在数据库的异构数据源中的数据(如关系数据、平面数据文件等)抽取到临时中间层进行辨析、清洗、转换、集成,最后加载到分布式数据库,再进行深层次挖掘、整合和提炼,分析对比知识库,通过智能聚类关联等分析手段深层次开发利用,使隐性知识显性化[5]8,挖掘出所需知识提供给用户,这与传统的知识服务有着极大的不同。
其次,是基于数据的知识服务。档案大数据下数字档案馆的知识服务与传统的知识服务根本区别为是否基于数据。传统的知识服务形式,提供简单利用、档案编研、档案发布等是基于数字或者尚未转为数字的档案原件,在用户发出需求后,需要耗费超额工作量、翻阅档案全文并反馈给用户。档案大数据下数字档案馆的知识服务应该是基于数据的,在提供知识服务前期需要克服高难度的作业力度完成知识库建设等准备工作,此后档案工作者甚至用户自身都可以快速高效地满足知识需求。
最后,是个性化、主动化、定制化的服务。在档案大数据时代,数字档案工作者不再只是根据用户需求被动地解决问题,而是趋向于提供个性化、主动化、定制化服务。利用大数据技术,智能分析用户档案需求和利用行为,挖掘需求方向和趋势,针对他们的实际或者潜在的需求,提供给不同层次的用户。
二、现阶段数字档案馆知识服务的现状与问题
1.经过调查得出的现状。为了了解目前数字档案馆的知识服务水平,笔者普查全国34个省级档案信息门户网站,进行网站上是否有“数字档案馆”查询入口以及现有知识服务形式的调查,通过留言咨询档案工作者有关数字档案馆知识服务开展情况,大致掌握目前我国数字档案馆知识服务的基本情况。
(1)全国34个省级档案门户网站中,只有6个网站存在数字档案馆栏目,并提供单独的检索平台,可以通过关键词、题名等进行普通检索或者高级检索(图1)。
(2)各省级档案馆普遍开展了传统的知识服务,如汇编成果、业务咨询服务、城市记忆等。个别档案馆较为新颖,如上海市档案馆开展的档案百科和档案论坛;江苏、湖北、甘肃、内蒙古档案馆开展的网上课堂和在线教育;辽宁档案馆开展的社会档案人,即让用户在线编辑词条,经审批后通过并显示在网页上;宁夏档案馆开展的档案知识模块。
(3)在留言咨询中,通过两个工作日之内的七个回复,我们了解到目前数字档案馆基本未开展规模化的知识服务,数字化以目录形式为主且全文较少,数字化率普遍较低(表1)。
(4)部分省级档案馆,如云南省的专题数据库、浙江省的网上展览,具有数字档案馆知识服务的雏形,但并非是基于档案大数据基础。
2.存在的问题。
一是数字档案馆知识资源不足。知识资源是知识服务的基础,相对于在传统的知识资源获取中“数据—信息—知识”的金字塔模型,大数据时代数据不再依据DIKW金字塔模型,而是直接转化为知识甚至是智慧,因此大数据时代想要掌握知识资源就必须掌握数据资源。但是目前数字档案馆尚未形成集聚的数据资源。
二是数字档案馆技术水平无法达到档案大数据要求。技术是数字档案馆知识服务的前提,只有技术先进,知识服务才有实现的可能。数字档案馆普遍未引进数据挖掘等大数据技术,数据库大多采用关系型数据库,在海量数据资源存储中出现不便。数字化水平低,尤其是民国档案数字化过程中出现困难,只能简单扫描成图片。由于缺乏技术,知识服务进程缓慢。
三是数字档案馆网站尚未完善。首先,经调查发现,全国34家省级档案门户网站中,只有6家有数字化检索平台,包括上海、浙江等全国示范数字档案馆也未实现远程查找档案。这说明数字档案馆建成并且通过国家评定后只在内网或者专网运行,公众通过档案馆门户网站无法远程使用。其次,在使用部分省的档案馆网站中出现诸如用户注册烦琐、版块缺失、链接失效、咨询过程复杂等问题。这将挫伤用户的知识服务和利用请求的积极性。
四是档案网站用户相对较少。从网站访问量和公众的留言情况看,档案门户网站利用率较低。利用率低、效益不佳,影响档案工作者的积极性,工作者难以从实际工作过程中发现实际问题,导致创新性想法和解决对策缺乏。
三、档案大数据下数字档案馆知识服务存在问题的原因
1.知识资源不足。数字档案馆知识资源不足,其实质就是数据资源不足。
首先,数字档案馆数字化水平较低。经调查发现,部分省级数字档案馆数字化程度并不高,如四川省数字化率仅在30%左右。在已经数字化的档案中以目录信息为主,全文信息较少。全文数字化过程中的难点主要是民国档案。由于民国档案年代久远,很多都存在纸张皱折破损、字迹洇化褪色等问题,部分案卷排列杂乱、档案文字难以识别,数字化极为困难。数字化水平不高和全文数字化较少直接导致档案数据不完整。
其次,档案信息数字化而非数据化。在已经全文数字化的档案信息资源中呈现出来的结果以图片和PDF为主,较少对数字化信息进行规范的著录和标引。档案的内容、特点等信息无法被规范地描述和分析,档案全文无法通过关键词进行检索,必将会加大数字档案的使用难度,数字档案也只会是利用率较低的数字而非数据,知识服务若是要基于数字档案是不现实的。
最后,数据资源以历史数据为主,实时数据少。由于档案本身的原始记录性,文件的归档是基于非现行文件的,导致归档的数据出现滞后现象。一方面这将无法为解决用户知识需求提供完整的数据,另一方面现行数据的缺失将使档案信息在知识服务中表现狭隘。只有将现行数据和历史数据结合起来,才能发挥完整的档案数据的作用,这也是基于档案大数据和大档案观提出的设想。
2.技术水平较低。目前的技术在许多方面存在不足,以以下两点为典型进行说明。
数字档案馆普遍采用关系型数据库。不可否认,在信息化建设之初,对于存储数据量小的结构化数据关系型数据库能更好地进行管理和存储,但是在信息化高度发展的今天,电子档案和数字化档案与日俱增,关系型数据库并不能满足这些非结构化信息的存储。尽管目前普遍做法是将非结构化数据转变为结构化数据,再使用关系型数据库,但是这样会造成不必要的数据冗余。鉴于关系型数据库在存储海量非结构化数据方面的缺陷和非关系型数据库在这方面的优势,档案部门有必要引进非关系型数据库技术,对即将接收或者已经数字化的非结构化数据资源进行有效存储、管理和利用。
数据挖掘等大数据技术尚未推广。未来档案工作起到的主体作用不再是初步的整理和维护,提供的服务也不再是简单的查阅,而应该是在众多的档案数据群中,根据用户需求快速挖掘出具有价值的档案提供给用户[6]8。通过数据挖掘等大数据技术,档案数据能够合理利用,档案工作者大幅度优化了处理日常工作的效率。大数据技术对于知识服务的实现具有重要意义。
3.用户资源较少。
(1)社会公众的档案意识薄弱,潜在用户数量少。由于公众自身的不重视和档案宣传工作不到位,有些人对档案没有从根本上得到认识,只是凭主观臆想档案应该是什么。或者说对档案的认识过分片面,认为只有在工作中才会利用到档案[7]8。有些人认为档案是很神秘的且政治性较强的。这些对档案的错误认识使得档案潜在用户数量少。
用户知识需求无法得到满足,现实用户数量减少。用户在登录档案网站或者向工作人员提出知识需求后,若是无法得到满足,将会对档案工作失望,且难以再次利用。目前,数字档案馆普遍缺少面向公众的一站式检索平台,用户无法远程检索,若到所在档案馆又会产生不便,在通过网站咨询功能向工作者提出知识需求时又会出现一系列问题。用户利用不便、需求得不到满足,使现实用户数量减少。
四、档案大数据下数字档案馆知识服务的建议
1.构建档案大数据知识资源库。
首先,数字化并数据化。数据资源是知识资源的前提和基础,而馆藏档案只有先通过数字化才有成为数据资源的可能。在进行数字化后,将这些零散异构的数字化档案经规范的著录和标引后组织整合起来,成为档案数据,为构建数字档案馆档案大数据知识资源库做前期准备。
其次,对海量档案数据预处理。使用数据清洗、集成、变换等方法,将残缺、重复、含噪声和不相关的数据进行剔除,对数据进行审核、筛选、排序,以便后期进一步进行数据加工。进行预处理工作是对数字档案馆馆藏档案的大梳理,也是构建知识资源库的基础工作。
然后,构建知识资源库模块。大数据预处理后的档案是孤立、分散的未加工的数据,不能反映数字档案资源的全貌。数字档案馆应当采用大数据融合技术,将各类不同来源且零散异构的档案数据集中导入一个大型分布式数据库或存储集群中,使之形成全息式、智能化的档案大数据知识资源库模块[8]8。例如建立全息式档案大数据知识资源库,以及面向档案工作者和档案用户的知识资源子库、面向开放档案和保密档案的知识资源子库。
最后,对档案大数据源进行深度加工。运用可视化技术,通过表格、模型、趋势图等方式展示数据,比单纯用数字和文本来呈现更能让用户理解与接受;运用语义搜索引擎技术,对于用户的知识需求通过搜索匹配以及关联推理和自然语言处理来达到语义理解的目的,从而能多方位筛选用户需要的搜索结果[9]8,达到精确搜索的目的,提高知识利用效率;运用趋势预测分析,利用统计、建模、数据挖掘工具对已有数据进行研究以完成预测,发挥好档案大数据的预测性能。
2.构建数字档案馆知识服务网络平台系统。
(1)构建实时归档平台。档案大数据下数字档案馆中的数据是历史的冷数据,但是档案大数据对于实时数据趋于重视,以往的归档方式呈现出滞后性。实时归档平台是基于档案大数据和云计算技术,收集分散在网络上的数据和信息化过程中产生的电子档案,通过类似智能AI辅助鉴定的智能鉴定技术,过滤无价值和错误的数据,将过滤后的数据进一步整合加工,形成系统全面的数据资源,为知识服务在档案大数据下预测功能的实现提供了可能。
(2)完善信息服务平台。目前部分数字档案馆已完成信息服务平台的初步构建,能简单实现档案资源查询、检索和利用,但是档案大数据的知识服务要求更好地实现知识发布、共享、私人定制和对用户细化分析。首先,信息服务平台要成为“一站式”的知识服务发布平台,包括要满足用户提出的知识需求和为用户提供私人定制服务两个方面。其次,信息服务平台要有知识共享模块,通过档案专家学者、档案工作者和普通用户的知识交流,将个人隐性知识转化为显性知识并表达出来,不仅能满足更多主体的知识需求,还能增加知识资源库的知识积累。最后,信息服务平台应注重对用户信息和反馈意见的科学分析与处理,通过反馈与评价可以正确认识自身的知识服务质量水平和用户需求,有助于个性化、主动化、定制化知识服务的形成。
(3)构建知识众包平台。利用知识众包平台,将数字档案馆一部分档案工作分担给用户,如规范化著录标引以便检索,转录历史档案及民国档案以提供利用,上传共享与某专题有关档案和反映社会发展的重要档案等,形成用户提供知识、用户利用知识的局面。加快档案数据化的进程,弥补由于档案工作者数量上的缺陷造成的数据化水平不高。知识众包平台实质上是一个知识共享平台,档案用户在参与众包活动的同时分享自己的理解,这种思维与知识的碰撞有助于创新性理念的产生。同时知识众包平台可以提高档案的社会影响力,这是让档案走进公众视野的一个绝佳途径,让公众自愿自觉地来认识档案、关注档案,并加入到维护档案事业中来,有效使现实用户与潜在用户的数量增加。
综上所述,我国目前的数字档案馆知识服务尽管已经成为信息服务发展体系的趋势之一,但是由于没有紧跟档案大数据潮流而导致行业创新能力匮乏。档案大数据为数字档案馆的知识服务发展提供新机遇,进入行业发展新时期,我们更应抓住机遇,把握时代潮流,将档案大数据技术融于知识服务中,让数字档案馆真正成为服务公众的档案馆。
参考文献
[1]全国档案事业发展“十三五”规划纲要[EB/OL].[2018-11-26](2016-04-07).http://www.saac.gov.cn/news/2016-04/07/con-tent_136280.htm.
[2]杨丰源.经济敛散性与城市群空间网络关系研究[D].徐州:江苏师范大学,2018.
[3]秦晓珠,李晨晖,麦范金.大数据知识服务的内涵、典型特征及概念模型[J].情报资料工作,2013(2):18-22.[4]知识服务[EB/OL].[2018-11-26(]2018-07-13).https://baike.baidu.com/item/知识服务/6192713?fr=aladdin.
[5]王运玲.大数据时代下档案信息资源的知识服务[A].国家档案局.建设与文化强国相匹配的“档案强国”论文集[C].国家档案局:中国档案学会,2014:6.
[6]滕春娥.大数据环境下档案工作转型研究[J].北京档案,2015(2):17-19.
[7]杨怡璟.民生档案信息利用服务的问题及应对[J].陕西档案,2014(6):45-47.
[8]张倩.高校学术档案数据源的内容挖掘与开发利用[J].中国档案,2018(9):58-59.
[9]覃天.大数据背景下企业档案管理研究[D].哈尔滨:黑龙江大学,2018.