一、古典文献数据库存在的严重缺陷
上世纪80年代后,计算机技术开始涉入到古典文献研究中,对传统的古典文献整理与研究方法产生了极大冲击。那种手工劳动式的整理与研究方式越来越使人感到落后与不便,而对计算机涉入该领域已成众多学者的要求。20余年来,古典文献数据库从无到有,目前遍地开花,已成“燎原”之势。我们不能不承认它们确实对古典文献的整理与研究起到相当大的推进作用,然而在这“盛况”之下,我们不得不指出,这些古典文献数据库确实存在较为严重的缺陷,若不尽快加以解决,那么就会制约着古典文献整理与研究领域的正常的发展,对其它学术研究当然也会带来不利影响。
在此,笔者先阐述目前古典文献数据库存在的一些问题,以期引起有关部门及关心敦煌学知识库建设的专家学者们的关注。
大致说来,目前流行的古典文献数据库主要问题有以下几个方面:
其一,整体规划较差,公益程度甚差。当然,首先应该看到,国家有关部门确实着手做过一些规划,也实施一批较大的古典文献数据库项目,目前也建成了一些较大的古典文献数据库。如2002年10月,国家科技图书文献中心受科技部的委托,牵头联合中国科技信息研究所、国家图书馆、上海图书馆、中科院图书馆、北京大学图书馆等单位,启动了我国数字图书馆标准规范建设项目。这一项目的目的就是力图建立我国比较统一和规范的数字图书馆标准,自然也会对建立古典文献数据库有较大的借鉴与参考的价值。又如北京大学《中国基本古籍库》、上海图书馆《古籍影像光盘制作及检索系统》等等。其它各地也陆续建成或在建一些规模较大的古典文献数据库。
我们在肯定这一成绩的同时,也必须看到,由于实施这些项目的“政出多门”,因而至今没有制定或说形成出一个比较符合国内古典文献数据库发展状况的统盘考虑的真正有价值的规范体系,这些项目的承担者仍是各自为政,数据库之间并不能兼容,不可能形成技术上兼容和数据库“合力”。如此就浪费了大量的人力物力,没有将有限的资金、技术资源及文献资源发挥出更佳的效果。
从社会效益或说实际使用价值来看,也不尽人意。因为至今为止建立的各种数据库仍人为地设置许多障碍,无法使它们实现较大的国家收益和“公益”价值。如果说数据库由国家立项和投资,收益自然应该归国家,或者成为不收费的公益数据库。但事实上,收益既不归国家,又未能成为公益数据库,这不能不说是个极大的遗憾。这种现状已经受到越来越多的学者的质疑。笔者不反对使用有关数据库交纳一定使用费用,但收费单位一定要说明收费后大致去向,不能国家投资,个别单位乃至私人图利。
其二,数据错误严重,影响研究深入。这一情况主要有一定技术实力的软件开发商投资的古典文献数据库。比较而言,各科研机构、大专院校及各地图书馆建立的古典文献数据库数据质量较高,而开发商投资的数据库数据质量较差。有些开发商仅仅是把文本进行文字扫描导入,疏于校对,因此文本错误百出,难以卒读。当然,确实也有少量开发商制作的数据库质量较高,如迪志公司开发的《四库全书》之类,然而这样的数据库凤毛麟角,难以寻觅。由于利益驱使,绝大多数开发商都以“独自开发”为己任,数据库设计相互保密,互不兼容,使用户深感不便。这些问题已严重地影响到古典文献数据库的正常发展了。
其三,数据重复严重,冷门数据罕见。目前数据库品种繁多,但由于考虑到使用者对文献内容的需求,许多开发者热衷于开发热门数据,而一些比较冷门的文献则鲜有人问津。如《四库全书》已有武汉大学版、上海人民出版社版等数种,而二十四史更是种类繁多,几乎所有古典文献数据库都收录在内。我们知道,对具体研究者来说,文献的学术价值与热门、冷门毫无关系,所谓文献热门与冷门,仅是使用人多少而已。例如二十四史,确实使用者甚多,但敦煌资料中的某一著作,或许对研究敦煌学的专家来说更为重要。
且不说那些数量繁多、质量也不甚高的数据,内容重复导入浪费了多少人力物力,其实也使用户陷入一种无可适从、欲舍不能的境地。用户往往为了某些少量文献内容不得不购买和安装整个数据库操作系统,而且这些庞大的数据库大量占据硬盘空间,导致计算机运行速度大为减慢。笔者有一位同事,计算机上竟然装了七种有关古典文献的数据库!至于那些允许网上检索资料的文献数据库,又往往因为容量极大,上网检索者多,导致“交通阻塞”!
其四,技术关卡重重,难以互相兼容。各开发者既鉴于不同开发目的与技术条件,又为防止他人解密,因此在开发过程中在数据库某些程序中人为设置技术障碍,以保障自己利益不受损害。自然,开发者需要投入大量人力物力,保障本身利益不受损害是无可非议的。然而也由于人为地设置了障碍,却使各种文献数据库之间不能兼容,无法形成合力,先进的技术反而成为技术壁垒。实际上,这一情况大大浪费了宝贵的人力资源与财力,对古典文献的开发与利用有百害而无一利。
另外,由于技术壁垒,在古典文献数据库的文字方面问题更大。据有关学者估计,我国古籍常用汉字大约为4万余个,这还不包括超过2万个异体字及数千甲骨文、金文等古文字。然而我国目前在计算机上采纳的国标字库(GB)和扩展字库(GBK),两者相加也只有27000余字,这与我国古籍常用汉字数量相比,差距甚大。为了弥补这一缺陷,一些开发者就采取在自定义区自造字、有些用图片的方式来填字。然而这些自造字、图片字,有不少字占据了扩展B的位置,导致字库冲突;即使那些在自定义区的自造字,拷贝到WORD文本之后,由于内码位置的差异就变成其它字了,从而导致文本严重错误。例如《四库全书》文本拷贝出来就有严重错误。
其五,功能单调落后,难为科研服务。计算机技术日新月异,因此建立较早的古典文献数据库功能早已显得单调落后,有的只能做些简单检索、拷贝,没有更为先进的功能,已经完全不能适应学术研究的需要了。即使现在开发的一些古典文献数据库,由于往往没有学者参与研发,功能与现实需要之间存在比较大的背离。即使如上海人民版的《四库全书》,其检索功能虽有添加“作者”、“书名”等限定条件,但检索结果只是罗列一排出处,无法直观地了解检索到的具体内容,对研究者来说使用相当不方便。遗憾的是,《四库全书》功能已经“定型”,现在已经不再继续开发,因此这一数据内容较为准确的巨型古典文献数据库几成“鸡肋”。
其六,版权制约开发,英雄难施本领。数十年来,国内许多出版社化费了极大的精力,甚至专门组织专家点校了不少重要古籍,为学术研究的发展作出了极大贡献。然而随着计算机时代的来临,却出现了无法回避的“版权”问题。自然,一些数据库开发者忽视或无视了国家有关版权法规,侵犯了这些出版社版权,理所当然地会受到版权起诉。笔者以为,保护版权是每个学者乃至每个公民应尽的责任,根本毫无讨价还价的余地。然而问题是,现在一些出版社由于各种原因,没有对自己已出版的点校过的古典文献进行开发,而愿意开发这些古典文献资源者却望洋兴叹,导致宝贵的资源处于长期待开发的境地,这种两难境地对古典文献的整理与研究确实带来许多不便。因为如果有关出版社不愿授权,那么开发者只能返回到没有标点的原始文本中去,或者不再开发。无论是哪种情况,都使希望使用古典文献数据库的专家学者感到极其失望,当然,这也就严重影响了古典整理与研究的现代化进度。
上述六种情况并非全部,还能举出若干现象,但已经能看出目前我国古典文献数据库所陷入的窘状了。
二、古典文献数据库建设的出路
上述种种现实情况,已经是制约计算机技术对古典文献整理与研究支持的瓶颈了,这些问题得不到解决,即使计算机技术再发达,恐怕也难以对古典文献整理与研究予以真正意义上的支持与帮助。
那么,如何寻找出一条有利于古典文献数据库发展的出路?笔者认为:应该设计和开发出新一代古典文献数据库的软件。按照笔者设想,这代软件应该以建立能自由升级的公共古典文献数据库为目的,是一种以提供强大功能为主、彻底解决版权问题的数据库,实际上是建立一个规模巨大的功能相对完善的学术研究资源库。
公共古典文献数据库是综合性数据库,只能由国家有关部门作为主要规划者,它应该尽可能地包罗我国传世古典文献、碑刻资料和出土文献等。在此基础上允许建立适应每个研究者研究范围的个性化的文献检索服务系统。个性化的文献检索服务系统则是每个具体研究者所拥有的安装在各自计算机上的文献检索服务系统,它拥有一定数量的适合自己研究的范围的古典文献文本数据。
公共古典文献数据库与个性化文献检索服务系统各有侧重,两者关系是源与流的关系。公共古典文献数据库应该侧重于文献数量的完善、完备,而个性化文献检索服务系统则应该考虑符合研究者需要的强大功能。因此,从本质上说,公共古典文献数据库应该是一个统一的设计比较周密、与其它个性化数据库在技术上能实现良好兼容的的数据库;而个性化文献检索服务系统应该是“百花齐放”式的但必须能与公共古典文献数据库兼容,可以下载其文献数据的而非“各自为政”的小型数据库。
笔者近几年参与开发数据库的实践,以为要解决数据库存在的缺陷及问题是完全可能的。大致说来,可以从以下几个方面来解决:
其一,加强总体规划,建立公共古典文献数据库。由国家有关部门协调,组织攻关。至今为止,国家投入资金并不少,由于制度原因,只是向某些重点院校或科研单位、向重点项目投入巨资,而承担项目的单位却建立的是各自为政的古典文献数据库,虽然也为学术研究作了一些贡献,但毕竟设计思路不同,相互之间不能兼容,妨碍到数据库共享及进一步发展。以笔者愚见,国家有关部门应该主动负起责来,加强领导,尽快重新考虑古典文献数据库的立项和相互兼容的技术问题,组织力量、投入资金,真正建立起一个规模巨大、能为绝大多数研究者利用的公共古典文献数据库。同时也应该考虑所立项的古典文献数据库与其它数据库(如现代文献数据库、当代文献数据库、期刊数据库等)之间的兼容关系,只有这样,或许若干年之后就能建立起一个价值极大的能真正为学术服务的公共古典文献数据库。当然,就公共古典文献数据库来说,应该定位在“公益”上,不以“利”为主,可以进行适量收费服务,这样才能真正建立一个有价值的公共古典文献数据库来。
其二,文献数据内容与检索服务系统分离。
我们知道,一个古典文献数据库实际上是两大部分组成的,一是古典文献数据库内容,即文献数据内容,二是对这些数据进行管理的文献检索服务系统。目前所见古典文献数据库都是“两者合一”。从管理形式来说,一是网络管理,即网络版;一是个人管理,即单机版。就功能来说,两者都允许检索、打印等简单功能,而网络版一般不允许读者操作卡片、书签等个性化的功能,单机版则有做卡片、书签等功能。就文献数量来说,网络版与单机版两者相同(如《四库全书》之类)。
笔者以为,现行各种古典文献数据库无论网络版还是单机版,其功能确实比较简单、没有从单纯的文本内容竞争的思维中解脱出来。因此,应该进入以文献检索服务系统功能竞争为主,文本数据竟争为辅的体系,或许这是解决古典文献数据库的出路。也就是说,文献数据内容与检索服务系统分离开来,让擅长计算机技术的开发者(开发商)致力于功能开发与完善,而具体文本的整理可由研究学术的专业人士来完成,然后通过一定渠道导入到公共古典文献数据库中。这样,开发者就可能开发出功能强大的文献检索服务系统,而数据库中的文本也由于专业人士的加入而能大大提高文本的准确率。其实,整理古典文献数据文本可以采用投标(或以申报项目形式)来确定,规定统一格式,要求文本的正确率达到一定比例,完成后再分别导入这一公共古典文献数据库中;经过若干年努力,最终能形成一个规模巨大、适应于学术研究的公共古典文献数据库。这种方法不但能节省了大量重复投资,真正做到人尽其才,物尽其用,而且一旦建立起这个规模巨大的公共古典文献数据库,可以解决了目前数据库泛滥、文本错误太多、重复劳动等弊病,并且真正能做到广大学者对古典资源“共享共有”。
至于个性化的文献检索服务系统,它无须考虑文献文本内容,但必须功能强大、操作方便,并与公共古典文献数据库完全兼容,研究者通过“购买”文本或其它方式来方便地组建自己的数据库,这样或许会给学术研究带来真正的方便。
显然,将文献数据库内容与检索服务系统分离,是解决目前“列国纷争”情况的最佳途径。
其三,确定字库方案,以利数据库发展。
要真正解决公共古典文献数据库问题,还必须解决字库问题。目前,国家虽然组织专家在论证有关字库问题,然而由于进程不快,远远落后于当今计算机技术发展的需要。按照笔者的看法,应该建立一个以Unicode字库为基础的、适应汉语古籍需要的、并与国际接轨的真正有中国特色的字库。这就需要抓紧工作,迅速落实扩展字库B的内码。同时根据我国汉字的具体特点,对自定义区域的6400字的内码配置也应该有所规范,例如解决古典文献中的俗字、避讳字缺笔等,这样才能使汉语字库统一问题落实到实处。如果真能做到如此,那么就能解决目前古典文献数据库之间字库互不兼容问题。
与字库相关联的是字体问题。古典文献数据库应该考虑到古代文献对文字的特殊需要,笔者以为凡是古代文献数据库中的文本应该保留繁体字,以防繁简不分而导致文义偏差。应该强调的是,古代文献必须以繁体字导入数据库,但应该允许在数据库中自由进行繁简转换,换句话说,若需要使用繁体字时,文本可以保留繁体字,而需要简体时,可以十分方便地转换成简体,这样就适应用户对繁简体的不同需要了。
其四,解决古典文献版权问题。
困挠古典文献数据库建设版权问题其实通过一定方法也可以得到解决。笔者以为,有关出版社在维护自身版权权益的前提下,应该从大局出发,在收取一定数量的报酬前提下,允许制作有关古典文献的数据库,以利学术研究的发展。至于报酬多少可以也应该实事求是地酌情商定,国家有关部门应该主动与那些出版社协调,亦可将目前大量分散投入到各课题中的资金中抽出部分来补偿有关出版社,双赢互利,以求突破版权瓶颈,早日解决这一棘手的问题。
与此相关的是古典文献电子文本的版权问题,这也是个极难处理的问题。因为用户若贪图小利,版权意识不强,不愿化费代价使用电子文本,就容易产生“盗版”问题,如此就使得古典文献电子文本制作者的正当利益大受损失。按笔者设想,如果真正能够由国家有关部门主管古典文献数据库建设工作,那么就可以设想建立公共古典文献数据库规定导入数据库的文献文本都给予一个“统一编号”,没有统一编号的文献就不能直接导入公共古典文献数据库和个人使用的文献检索服务系统中,也就是说,个人使用古典文献电子文献必须化费一定的代价才能取得使用权,必须从公共古典文献数据库中下载才能导入数据,这样就可以保证制作古典文献电子文本者的一定收益,防止版权意识不强者侵权使用。同时由于古典文献电子文本都有了统一编号,那么也就可以防止某一具体文献文本重复录入的问题。即使有部分重复,古典文献电子文本也可以在用户选择过程中优胜劣汰。
其五,建立公平的交易平台。建立庞大的公共古典文献数据库当然需要投入巨大的资金,而这种古典文献数据库自然不是每一个普通研究者购买得起的,实际上,作为一个具体的研究者,也没有必要拥有庞大的数据库。因此,应该允许个人在交纳一定数量的经费后,自由上网使用这一数据库,并允许购买(下载)一定数量的古典文献文本,自行导入各自的文献检索服务系统,以利建立个性化的有实用价值的数据库。为了防止文本私自拷贝,可采取数据库接口对接的办法来解决,即只能从甲数据库直接导入乙数据库,而不能自由转换为WORD或其它文本形式。如果真能做到这样的话,既可防止文本数据盗版,也有利于学者建立自己个性化的数据库,那么就将会促进学术研究的迅速发展。
鉴于此,有必要建立一个公平的交易交流平台,既不是“就此一家,别无分店”的垄断式的高价出售,又不是无论你需要不需要而进行的“一揽子交易”式的硬性搭售。在笔者看来,应该允许研究者自己输入的文本在交易平台上自由交易或交换。当然,学者将自行输入文本无偿赠送给同行应该予以鼓励。学术是公器,没有必要象守财奴那样守住这一私产,然而也不能鼓励从网上下载一些有价值的文献文本或其它资料作为牟利的手段。
三、建立敦煌学知识库的对策
古典文献数据库的困境已如上述,目前拟建敦煌学知识库,笔者以为应该注意上述问题,采取有效对策,使敦煌学知识库自建立之初就有一个较高的起点,避免自己陷入困境。我的建议是:
1、定义准确,范围扩大。
就目前来说,学者大多把建立敦煌知识库的范围涵盖国内外所有的文献资料,也同意把敦煌壁画、雕塑艺术包括在内。事实上,目前所见一些有关数据库确实也从这方面努力。这一点,笔者表示完全同意。然而,如果仅是把敦煌知识库的定义局限于此,笔者则不能苟同。在笔者看来,敦煌知识库的定义应该更为宽泛一些,即还应该包括今人研究成果,以及敦煌地区及周围出土的与敦煌相关的资料和实物。今人研究成果对今后研究的的重要性,自然不必多说,因此有必要将此纳入知识库范围之中。而敦煌地区及周围出土的与敦煌相关的资料和实物则是我们深入研究敦煌学的宝贵参考资料,其重要的参考价值也是不容忽视的。
2、整体规划,通力合作。
众所周知,由于拥有敦煌资源的单位的支持及学界同仁的努力,目前已有不少有关敦煌资源的数据库或网站,如国家图书馆、敦煌研究院、甘肃兰州大学等等,都建立了自己的网站或数据库,为学者研究提供了不少方便。这都应该予以充分肯定与赞赏。现在敦煌学研究同仁都表示要建立敦煌学知识库,笔者以为应该尽可能容纳进来,建立广泛的合作与联系,减少重复投资,使资源得到充分利用。然而,就目前情况来说,各单位的数据库建立时间不同,采用技术路线不一,虽说都有自己特点,但兼容仍存在较大困难。因此,笔者认为有必要进行一次“圆桌会议”,建议目前拥有数据库的单位在一起商讨兼容的技术处理办法,讨论如何整合所有资源,以使新建立的敦煌学知识库尽可能地兼容它们,为学术研究提供更为扎实的条件。就目前来说,由于过去建立的一些数据库,限于技术条件,确实目前已有过时之嫌,因此,建议有关单位加快技术改造,对原有数据库进行技术升级,以提升技术水准,为建立敦煌学知识库提供有利条件。
3、阶段实施,量力而行。
敦煌学知识库的建立决非是一蹴而就之事,而是需要一个相当长期的过程,这是因为就我们目前掌握与已予以整理的敦煌资料来说,毕竟并非全豹。因此,我们既不能等待资料全部整理完毕后再着手建立敦煌学知识库,也不可能一气呵成地建成敦煌学知识库。因而,只能采取阶段实施,量力而行的策略。具体说来,可以采取先国内,再国外;先壁画雕塑,再文字资料的做法。
为什么要采取这样的做法?这是因为国内资源统合起来相对比较容易,实施较为方便,而国外即使有专家学者愿意支持,但实施仍有一些困难或说有时间差。因此,现在不必等待,条件基本成熟即可着手商讨建立敦煌学知识库问题。其实现在应该说条件已经基本成熟。至于先壁画雕塑,再文字资料,是基于这样的考虑。因为壁画雕塑是比较“现成”的,即已经存在,不必再查核寻找。因此可以先着手进行。当然,在具体步骤上仍有个阶段问题,如壁画雕塑可先搞平面图像,再搞立体图像,可先做单幅图像,再做影视式的全方位图像。而文字资料情况较为复杂。国内外资料情况基本弄清了,但所藏单位众多,使用条件限制不一,可供使用的技术力量更为悬殊,因此,要“统一步骤”恐怕是极难办到的事。依笔者来看,文字资料可依轻重缓急的区别来加以对待,应该先将最为重要的资料吸收到敦煌知识库中去。
4、总库分库,条理有序。
在建立敦煌知识库时,应该从整体考虑,将各地所设置有关数据库容纳进去,合成一个规模较大的总库,它包括所有敦煌学的内容。因此,总库就是各分库的总和。然而,由于各地的数据库一般都包括他们所掌握的所有资料,因此,有必要考虑再分置数个分库,如壁画库、文献库、雕塑库、建筑库、佛教库、籍帐库等等。如此就可以整合各地已经存在的有关数据库,又在各地数据库的基础上建立起一些分库(专题库),那么研究者利用资料就十分方便了。这种方式,既不是排除原有的各地有关数据库的新建,又在实际研究需要的基础上加以重建,既省力省钱,又利于学术研究,一举数得。
值得补充的是,敦煌知识库还有必要与与吐鲁番文书关联起来,对两者的资料加以整合,以利学者研究。
5、起点要高,规划要细。
显然,上述讨论的建立敦煌学知识库应该是比较可取的。当然,在实施中仍存在许多需要解决的技术问题、经费问题、规划问题,甚至还可能出现其它意想不到的事。但是,作为现在考虑要建立的敦煌学知识库,就必须在比较的起点上着眼,尽可能地以设计最先进的数据库角度出发来考虑,而不能仅从一地一处着眼来考虑问题,否则就会走上古典文献数据库建设的老路去。因此,在规划之时,就必须仔细考虑各地资料、有关数据库如何整合,以及经费的来源、先进技术的采取等等。把问题考虑清楚了,工作起来就会比较顺利,就不会走冤枉路!
这里还须指出,由于各地建立有关数据库的目的不同,如敦煌研究院自然应该考虑旅游问题,就完全可能在其网站中出现一些有关旅游方面的介绍,自然也会建立资料性质的数据库。笔者以为,这也不必硬性规定两者分离,而是要比较合理地处理好两者的关系,如有关旅游方面的资料可向任何人公开,而有关资料的数据库则可视情况予以处理。例如,敦煌雕塑当然要公开,但并非所有敦煌雕塑资料都必须公开,因为一般旅游者不需要太详细的资料,他们只需要部分平面照片或部分立体照片即可,而研究者则可能还需要该雕塑的尺寸大小、雕塑的具体背景资料、现在保护状况等等。因此,在建立敦煌学知识库时,就需要仔细加以区分与规划,不能不加区分地一概公开或公布。其实退一步讲,有关旅游方面的数据库也可以由敦煌地方旅游部门去建立,或许更为恰当。
另外,在具体规划敦煌学数据库时,还要考虑敦煌学的一些特殊问题,如敦煌众多俗字的字库问题如何解决,同一经卷的不同版本出现的文字、名称差异,文本资料与图像资料在数据库中的关系、结构方式等等,这些都需要统盘考虑,否则就可能出现混乱,不利于建立一个比较科学的敦煌学知识库。