现在位置:范文先生网>理工论文>计算机信息技术>地方文献数据库系统

地方文献数据库系统

时间:2022-08-09 07:11:09 计算机信息技术 我要投稿
  • 相关推荐

地方文献数据库系统


一、前言

地方文献是我国公共图书馆藏书建设的重要组成部分。这些出版物记载和反映了当地社会发展的历史进程,是国家的重要资源和财富。目前,地方文献工作在我国省市、自治区公共图书馆已受到普遍重视,许多馆建立了地方文献专藏,对文献的收集、整理、报道和利用做了大量工作,为当地的四化建设发挥了积极的作用。但是,我国的地方文献工作基本上还是沿用传统的理论和方法,在各方面已远不能适应当今信息社会的要求。在今天新技术革命浪潮蓬勃兴起的形势下,公共图书馆的地方文献工作怎样才能适应时代的需要这一重要课题,已历史地摆在我们图书馆工作者的面前。我们认为,面对新技术革命的挑战,地方文献工作必须实现现代化,才能使传统的地方文献工作获得新的发展,从而达到促进地区出版物资源共享的目的。基于这种认识,我馆在原有地方文献工作的基础上,开始用电脑建立地方文献数据库。经过一年多的研制,该数据库已初步建成并投入使用。为与国内同行交流,本文对该数据库系统作简要介绍。

二、收录范围与文献源

建立地方文献数据库,首先要明确收录范围和解决文献源问题。对地方文献的收录范围,我馆前馆长杜定友先生曾提出过著名的“史料、地方出版物和地方人士著述”三部分的论述。在杜定友先生的倡导下,我馆致力于地方文献的收集工作,建立了广东地方文献专藏。根据我馆地方文献的收集入藏情况,我们拟定了地方文献数据库收录范围的原则:

1.具有广东地方特点,并有一定学术、史料价值的文献资料(包括有地方特点的科技文献)。

2.反映本省人物(包括广东籍知名人士以及在广东有过影响的非广东籍人士)生平、传记、事迹的文献资料。

3.有广东地方特点的本省出版物和外省出版物。

4.广东人士著述(拥有地方特点的文献资料部分)。

对不予收录的文献,也作了如下规定:

1)虽是地方出版物,但内容并无地方特点的文献资料。

2)作者虽是广东人士,但文献内容并无地方特点的著述。

3)无地方特点的科技文献。

4)印刷质量差,内容贫乏的非正式出版物。

5)同收录原则相悖的其它文献资料。

具体的收录范围有24项。

地方文献数据库所收录文献的类型包括:专著,期刊、报纸、会议录、汇编、学位论文、科技报告、专利文献、手稿、地方志、族谱、检索工具、参考工具、图表、古籍等。其中检索工具包括反映本省图书馆馆藏的各种书目、文摘、联合目录;图表包括地图、气象图、地质图;参考工具包括年鉴、手册等;专利文献只限于本省单位和个人申请的国内外专利;报纸限于本省出版报纸的目录。

广泛征集地方文献资料,保证地方文献数据库有充足的文献源,是建立地方文献数据库极为重要的一环。我馆地方文献工作,早在解放前即已引起重视。建国后,更加广泛深入地开展了地方文献的收集和整理工作。省人民政府曾先后发出三个关于地方文献工作的文件,指定我馆为全省地方文献的征集工作机构和收藏中心,要求各级人民政府和各企事业单位,将所出版的文献资料无偿向我馆缴送二册,这为征集地方文献打下了良好的基础。在全省各有关单位的大力协助下,经过几十年的努力,我馆已逐步建立起拥有18万册,在海内外有一定影响的广东文献专藏,形成了广东文献的收藏中心。这是建立地方文献数据库的基础。

建立地方文献数据库,在确定收录范围的同时,还要认真选择和挖掘文献源。因为地方文献包括了反映当地历史和现状的文献资料,数量以万计,内容极为繁杂。图书馆应该首先选择利用率高,有一定学术和史料价值的文献存贮进电脑,其中科技文献应占有相当的比例。这是时代的要求。因此,我馆在建库前对文献源的选择进行了较深入的研究,最后决定从现代期刊入手,对符合收录范围的期刊论文进行著录标引,然后输入电脑。目前文献的前处理工作正顺利进行,现已标引出地方文献资料8,000多篇,输入电脑5,000篇。对于其它类型的文献资料,今后将有计划按步骤地进行输入,从而逐步建立起我省的地方文献数据库。

三、数据库系统目标与模式

作为地方性情报检索系统的地方文献数据库,其总目标是:收录和存贮反映本省历史和现状的地方文献资料目录,编辑出版综合性的地方文献通报(书目)和各种专题的地方文献目录,为当地党政军领导机关和各科研生产单位提供文献检索服务;作为地方文献的查目中心,将通过联机网络同当地的主要图书情报部门联网,逐步实现地方文献的联机编目和检索,从而促进地区性的资源共享。

为了实现上述目标,我们根据本省的实际情况,为地方文献数据库设计了下述模式:

1.选择具有良好汉字处理功能的远程通讯能力的微型电脑作为数据录入工作站和脱机检索系统,这一系统配有完整的外部设备,可独立进行地方文献书目数据的录入、检索和编辑出版地方文献通报。对已输入电脑的大量数据,可转贮到软盘,为将来在中、大型电脑上建库作好数据准备。我馆已购置了四套IBM5550中文电脑,其中一至二套用于地方文献数据库的建库工作。

2.设置电脑联机通讯线路,同当地计算中心的中、大型机联网。利用主权的计算机资源建立地方文献数据库,一般可存贮几百万篇的文献,从而为实现地方文献书目数据的资源共享打下基础。我馆已同省计算中心达成协议,利用该中心引进的IBM 4341主机建立地方文献数据库,并在86年二月成功地进行了利用市内话线联机通讯的试验,计划在明年内实现我馆IBM5550同主机的联网。

3.在本馆购置中、小型主机后,将进一步完善地方文献数据库系统,在省、市领导机关和主要科研机构设置检索终端,并同当地的主要图书情报部门联网,进行联机编目和检索,从而使地方文献数据库真正达到资源共享的目的。

4.把电脑同缩微技术结合起来,实现地方文献资料的全文检索。我馆准备在条件具备时,购置一套16毫米的缩微拍摄设备,用于拍摄地方文献资料。在数据库中检索命中的文献,可根据其文献号,在缩微阅读机上获得原文。

在我省有关部门的大力支持下,经过全馆同志的努力,广东地方文献数据库的系统目标正在逐步实现。目前,在IBM 5550微机上已实现了以下功能:

1)地方文献书目数据的录入与存贮。针对地方文献具有多种类型的特点,本数据库根据国家文献著录标准,设置了多种文献类型的自动格式识别程序,不但提供了完善的人机对话录入和修改方式,而且能够对录入的书目数据自动进行著录格式的自动识别,从而使书目数据达到标准化的要求。

2)编辑和打印综合性检索刊物《广东文献通报》。该刊物以及时报道我馆新入藏地方文献为宗旨,两月出版一期。每期通报正文约70页,按《中图法》分类体系排列,并附有地区索引,方便县、市图书馆、档案馆等有关单位从地区途径查找文献。从86年五月起,至今已出版文献通报六期及通报的年度累积索引一册。

3)自动编目功能,数据库系统可根据输入的地方文献书目数据,自动生成数据库倒排文档,供文献检索之用。另外,还可根据指定的专题,编制各种类型的地方文献专题书目,以及编制地方文献的累积本。

4)文献检索功能。因受1BM 5550系统外存的限制,目前数据库的存贮容量为25,000篇文献。如将外存扩大到40MB,数据库容量将可扩大到10万篇。在此范围内,用户可从篇名、著者、分类、主题、地名等五个途径进行联机检索,并允许用多个主题词或多个检索途径进行组配,以提高检准率。输出结果既可在屏幕显示,也可以用打印机输出。

5)词表管理功能。数据库系统可对地方文献标引词表、地名表和机内分类表进行插入、修改、删除等项操作,并提供编辑打印词表的功能。目前我馆已编制出《地方文献标引词表》、《广东省地名表》和《地方文献数据库分类表》。

6)地方文献征集和标引管理功能。数据库能为地方文献中的连续性出版物建立档案,并有催索、记到、装订以及标引管理等功能,可以对地方文献征集和标引实现科学管理。

除了上述功能外,我们计划在87年上半年前,为该数据库增加MARC机读目录生产、远程联机通讯等程序,使数据库的各种功能进一步完善。

四、数据库的设计与实现

本数据库系统使用IBM5550高档微机作处理机,其主要技术性能指标为:主机内存512-640KB,15英寸高分辨度显示器、24针汉字打印机和键盘各一台,可配8.1或20MB硬盘及5.25英寸软盘各一台。操作系统为IBM5550中文DOS(由MS-DOS演变而来),配有BASIC、COBOL、PASCAL、TORTRAN以及宏汇编等程序设计语言,还有dBASE2.0、DBASE3.0、SORT/MERGE、CWP、WORDSTAR、LOTUS 1-2-3等软件。该机具有良好的多语种处理功能(中、英、日、俄均可处理)和远程联机通讯能力。屏幕显示和打印输出字形美观。根据上述计算机资源的特点和省级公共图书馆地方文献工作的业务流程,我们首先进行了数据库的总体设计。该数据库分为文献库、期刊库、词表库三大部分:文献库实现各种地方文献资料目录的存贮和检索(包括打印);征集库实现连续出版物(包括图书)的征集管理;词表库实现广东地方文献标引词表的管理。所有程序在总控程序的调度下分块进入内存运行。

总体设计方案确定后,使用什么语言实现?开始我们考虑用DBASE3.0。但后来经模拟试验和论证,发现dBASE3.0用于开发文献型的数据库系统并不理想,原因是(1)记录字段不能适应书目数据可变长的特点;(2)不能使用数组,而且程序变量限于128个,响应速度慢;(3)如作组配检索一般要几十秒的等待时间;(4)难以实现人机对话方式的检索,即在检索过程中无法修改检索策略。基于上述原因,我们决定用编译BASIC进行系统开发。在开发的过程中,尽可能采用自顶向下、分块实现、逐步求精等行之有效的软件开发技术,仅用了四个多月的时间,就完成了程序的设计和调试。经过半年多的试运行,根据暴露出的问题,我们又对程序作了较大修改,形成了第2版本。目前该系统的源程序共有4,000多行,17个运行模块(占260KB)。以下对本数据库的文件结构和主要算法作简要介绍:

(一)文献库

文献库的任务是通过书目控制字段实现书目控制;按国家标准录入和存贮文献记录;编辑和打印各种书目;提供多途径的文献检索手段。文献库共设置了书目控制文件、主数据文件和倒排文件。

1)书目控制文件—该文件采用杂凑随机文件结构,每个记录由书目记录控制关键字、文献地址和冲突链组成(见图1)。每个记录的控制关键字,首先考虑用ISBN号(我国今年出版的图书开始使用该号)。对没有该号的图书文献,采用下述方法取号:

①整本文献和非书资料,用:题名首字符 著者末字符 地区代码 出版年 页数。

②析出文献用录入号(即系统分配的顺序号)。

书目控制关键字的取号要求是唯一性较为方便。本系统通过该文件将可对所有输入数据库的书目记录进行控制,实现快速查找或修改。

2)主数据文件—该文件采用固定长记录可变长字段的随机文件结构,记录长256字节。如有数据溢出,溢映部分将存入溢出文件中。本系统将所有书目数据划分为3种类型:整本文献、析出文献和非书资料。每种类型的字段虽有不同,但可存贮于同一数据文件中,通过文献类型代码进行识别。为便于新数据的处理,本系统又将主数据文件分为新书文件和数据库主文件两种。新录入的数据暂存于新书文件中,待打印出文献通报和地区索引后,再合并入数据库主文件。数据库主文件的记录是按文献通报的顺序号排列的。主数据文件的记录字段考虑了同国家机读目录的一致性,在必要的时候可通过一个格式转换程序,把书目数据的系统内部格式转换为标准格式,以利于资源共享。本系统的书目记录输出,采用了汉字取整装配技术,并按国家文献著录标准在各著录项目中加入分隔符号。

3)数据库倒排文件---该文件采用二级索引结构:第一级是杂凑随机文件,每记录分为前链和后链两个字段。第二级是顺序随机文件,每记录分为文献地址和后链两个字段。这样,一级索引作为检索入口指向二级索引,二级索引通过每个记录的后链集中了相关文献,通过文献地址就能查得所需文献。图2为示意图。采用这种文件结构的文献检索算法如下:

①接收一个检索表达式→KEYS

②生成提问表(即把表达式中的关键字存入检索比较工作区)

③生成检索逻辑尺

④根据工作区中元素的映射地址(杂凑)取出前链→R

⑤从R指示地址在二级索引中取出真正的文献地址→后链→L

⑤按B指示地址在主数据文件中读出一个书目记录

⑦将该记录同工作区元素作字符串比较,得到其文献逻辑值

⑧文献逻辑值同检索逻辑尺作比较,符合者为命中文献

⑨判L等于零?是则检索结束,否则L→R,转⑤

我们认为,这种以二级索引文件结构为基础,用杂凑映射作为快速寻址,用逻辑尺进行二次精确检索的算法,是一个新颖有效的算法。同时,在索引中仅存贮指针,可比传统的索引文件节省75%的空间。本系统首次检索的响应时间均低于2秒,二次检索的响应时间则因检索式的复杂程度而有不同程度的减慢。

(二)词表库

词表库的任务是对存贮在机内的地方文献标引词表进行查询和管理。本系统词表文件可分为主表和付表文件,主表存贮正式标引词,付表存贮同义词。为了实现首词集中和快速查词的目的,还设置了词表入口文件。图3为示意图。

1)词表入口文件--该文件为映射随机文件,每记录仅存第一个标引词的地址,通过该词第一个汉字的ASCLLI码映射寻址。

2)主表文件--该文件为随机文件,每记录由标引词字段和后链组成。通过后链便可查到首字相同的所有标引词。

3)付表文件--该文件为顺序文件,用于存贮正式标引词的同义词。

本系统通过上述文件结构和算法,已在机内建立了拥有4,000多个标引词的词库,实现了标引词快速查找、首词集中显示、标引词扩检与缩检、同义词参见和词表打印等功能。

(三)征集库

征集库的任务是建立地方文献连续出版物档案,实现征集工作的现代化管理。征集库的文件主要有刊号控制文件、现刊管理文件、期刊主文件、记到数据文件。

1)刊号控制文件---该文件用于存贮每种广东期刊的刊号(包括邮局刊号和内部期刊登记号),对数据库的期刊进行控制,其结构为杂凑随机文件。每记录有刊号和文献地址两个字段。

2)现刊管理文件---该文件用于存贮每种期刊的刊名、刊号、索取号、出版单位、地址、装订周期等管理数据,其结构为顺序随机文件。

3)期刊主文件---该文件用于存贮每种期刊的基本著录事项。每记录长256字节,溢出部分存入溢出文件。

4)记到数据文件---用于存贮每种期刊的记到数据,每种刊作为一个逻辑记录,采用二维数组结构。该文件以年为单位存贮数据,即每年生成一个记到文件。

以上文件的每个记录均存在映射关系,即每种期刊记录在不同文件中的地址是一致的。只要在刊号控制文件中查得某刊的地址,就可在各个文件中访问有关记录。由于我们采取了合理的文件结构,因而能使系统适应期刊经常发生的创刊、合刊、增刊、停刊、改刊期、改刊名、改发行方式等动态变化,有较强的实用性。这点对于地方文献征集工作的电脑化管理是至关重要的。

五、地方文献的著录与标引

为了达到资源共享的目的,地方文献的著录与标引也必须实现标准化。我馆在建立地方文献数据库的过程中,对地方文献的著录和标引的标准化十分重视,采取了下面的一些做法:

1.在进行数据库总体设计的同时,请本馆有丰富文献工作经验的同志组成科研课题组,起草制定了《文献标引员手册》。该手册对数据库的收录范围、文献著录标引工作细则、文献通报编制体例等都作了规定。从而为文献著录标引工作的标准化奠定了基础。

2.在建库前,对文献标引员进行业务考核,选择工作责任心强,经过图书馆专业培训,有三年以上图书馆工作经验,并有一定文献工作实践的同志担任文献标引员。

3.印制地方文献书目数据录入工作单,要求文献标引员根据国家文献著录标准进行著录,并按录入单格式进行填写。这样可以减少因不熟悉著录格式而产生的错误。

4.标引员标引的数据录入单,由数据库文献工作组最后审核定稿。审核的内容包括:著录文献的选题、著录的格式、分类和主题标引。在实践中我们感到,标引文献的审核,对提高数据库的文献质量,有着十分重要的作用,因此,应由有较高业务水平的同志负责把关,并注意保持文献标引人员队伍的相对稳定。

5.数据库书目数据均采用《中图法》分类体系。对同一文献的多个主题,尽量采取了组配方式生成分类号,以便充分发挥电脑多途径检索的优势。

6.以《汉语主题词表》为基础,根据地方文献的特点编制文献标引词表。《汉语主题词表》是一部综合性的文献标引工具,收词多而广泛。但由于《汉语主题词表》的编制是从全国范围的通用性来考虑的,对标引地方独特事物,便缺乏实用性。因此,我们在力求使用词表中正式主题词的同时,根据地方文献标引的需要,使用了许多“表外词”,有些地方,还对词表的规定作了一些变动。这可以从两方面来说明:

1)由于新概念的大量涌现,词表未及收入的新学科、新事物的新名词,现已形成可描述的叙词,例如:“经济法”、“经济纠纷”、“体制改革”、“第三产业”、“信息业”、“港元”……等等。它们在文献中出现的频率很高,但没有合适的直接上位词可用,也没有合适的概念接近的词可用,我们就把这些词作为正式词使用。

2)由于地方文献的特性需要,常常为综合性大型词表所难以照应,如名胜、古迹这一范畴内,就只列了“圆明园”等15个词,其中除“黄鹤楼”“孔庙”等词外,多数是北京地区的名胜古迹,这确实是不合用也不够用的。对这类情况我们作了一些调整。如词表规定,“东江纵队”、“琼崖操队”统用“华南抗日游击队”,也就是以上位概念取代具体事物,这从全国范围的检索需要来看可能是合理的。但从本地区出发,“东纵”和“琼纵”却是专指性极强的词。这两支革命武装有各自不同的历史、活动地区、代表人物文献量又很大。因此,我们改变“用”、“代”关系,不用“华南抗日游击队”,而直接用“东江纵队”、“琼崖纵队”。有些类似情况而文献量不大的,则采用直接上位词做正式主题词,加地方特有事物的关键词,以“,”号倒置。如“寺庙,华南寺”、“寺庙,光孝寺”、“刺绣,广绣”、“刺绣,潮绣”等。“,”号后的关键词,仅起限定和说明的作用,不参加累积索引的轮排,也不作为检索入口。凡地方事物、事件、人物而没有相应的主题词的,如:“黄埔军校”、“丘逢甲”等等,则一律标关键词。我们对这些使用过的关键词,也注意了规范。

六、结束语

随着我国图书馆事业的发展,地方文献工作的现代化已是历史发展的必然趋势。地方文献数据库的建立,不但是我国地方文献工作的新发展,而且必将推动和促进地区出版物的资源共享,其意义是十分重大的。我们衷心希望地方文献工作的现代化走向新的水平。

〔出处〕 现代图书情报技术 1987(2)



【地方文献数据库系统】相关文章:

文献报告调研02-07

开题报告文献02-23

文献综述怎么写08-17

文献综述论文06-06

影响Oracle数据库系统性能的初始化参数08-12

文献前言的写作技巧08-24

crm论文参考文献05-31

混凝土施工参考文献04-02

美式风格参考文献08-19

酒店培训参考文献08-19