- 探討構建中醫藥數據資源結構圖譜 推薦度:
- 相關(guān)推薦
構建中醫藥數據資源結構圖譜的探討
本研究通過(guò)分析中醫藥數據庫資源的類(lèi)型、特點(diǎn)和中醫藥資源存在的問(wèn)題,提出基于現有數據庫資源與結構,參考現有資源整合技術(shù),從數據層、物理層、基礎層3個(gè)方面入手,并結合體系構建等相關(guān)的資源深層整合技術(shù),探討構建中醫藥數據資源結構圖譜的實(shí)際解決方案。
1、中醫藥數據資源現狀與問(wèn)題
中醫藥數據庫建設工作起源于1985年,目前,已經(jīng)建立了覆蓋中醫藥學(xué)科的復雜的多類(lèi)型數據庫,總數據量約200 G,文獻數據庫收集年代跨越58年。數據庫建設主要包括單表數據庫、結構性數據庫和數據平臺的建設。目前,中醫藥現代資源數據庫的建設已經(jīng)具有一定的規模,已經(jīng)形成以中醫藥科學(xué)數據中心與分中心為主體的中醫藥文獻型及事實(shí)型數據庫群,幾乎涉及到中醫藥信息的方方面面。 然而這些資源庫群是徹底異構的,從數據結構、操作系統,到數據庫系統、應用系統;從命名方式,到數據格式、結構模型、用戶(hù)界面,都有可能完全不同,目前還沒(méi)有標準規范能夠對這個(gè)各個(gè)層次的異構進(jìn)行適當的約束。中醫藥科學(xué)數據中心缺少完整解決方案。1.1 局部有序、整體無(wú)序 從某一種具體資源的角度來(lái)看,他們都是經(jīng)過(guò)一定程度加工整序,具有統一的分類(lèi)體系和檢索界面。但從全局的角度來(lái),中醫藥科學(xué)數據中心擁有的各種資源是一個(gè)個(gè)的“信息孤島”, 各種資源內容交叉,信息重復,關(guān)聯(lián)度低,用戶(hù)查找資料時(shí)不但要在多個(gè)數據庫中來(lái)回穿梭、重復操作,還要精通各種不同數據庫、不同界面的數字資源系統檢索技術(shù),否則便難以查全或查準所需要的資料。
1.2 數據結構與標準不統一
各種不同類(lèi)型的數字資源不但采用Oracle、mySQL、SQL、Access等不同的數據庫物理模型或半結構、非結構的數據結構,而且在對資源的描述與揭示時(shí)沒(méi)有采用元數據、數據元、數據模式等標準。數據庫字段與數據表命名差異性較大,例如:“ZZ”表名對應數據字段名就有“主治”、“著(zhù)作”、“作者”等。
1.3 數據來(lái)源多途徑與數據版本復雜
中醫藥數據資源是指中醫藥科學(xué)數據中心與分中心收集的各類(lèi)型專(zhuān)業(yè)數據,這部分資源數量眾多,構成了學(xué)術(shù)數字資源的主體,現已成為重要的文獻來(lái)源。從文獻類(lèi)型上看,有期刊、圖書(shū)、會(huì )議論文、學(xué)位論文等;從文獻級別上看,有題錄、文摘、全文等不同的層次。自建數據庫有多種載體、多種形式、多種類(lèi)型、分散異構的信息資源,這些數據庫形成時(shí)間長(cháng),數據更新多次,缺少清晰的資源定義與描述。
1.4 系統平臺與應用程序各異
各種不同類(lèi)型的數字資源有著(zhù)不同的系統平臺;不同的數據資源存在著(zhù)過(guò)程數據的不同服務(wù)方式,例如:期刊文獻數據庫、結構型文獻數據庫、分析結構型文獻數據庫;同時(shí),數據表存在著(zhù)基礎數據庫、粗表數據庫、細表數據庫、單元素數據庫等,部署在共建、共享的服務(wù)器上,也給數據管理帶來(lái)麻煩。
2、數據資源與結構整合技術(shù)
2.1 數據資源整合
整合的實(shí)質(zhì)就是各個(gè)單獨事物共同遵循統一的原則、標準、規定,打破原來(lái)的界限形成有機的統一體。數據資源的整合[1],英文可譯作“digital resource integration”,就是通過(guò)各種手段和工具將已有的信息資源集成起來(lái),并按照一定的邏輯關(guān)系進(jìn)行組織,實(shí)現信息資源的有效共享,為用戶(hù)提供條理化的信息服務(wù),為后續信息的管理與使用提供規范,從而實(shí)現信息的增值利用。
數字資源整合主要集中在數據集的整合和應用的整合兩個(gè)方面,再具體細分還可以劃分為數據集成、信息集成、信息系統集成及業(yè)務(wù)(或工作流)集成等4個(gè)階段。
通常數據資源整合的范圍可以包括4個(gè)方面。①數據整合:數據標準、主題數據庫、數據交換平臺、基于語(yǔ)義的全局數據視圖。②應用整合:使用統一用戶(hù)認證、使用統一的數據交換、使用門(mén)戶(hù)實(shí)現應用集成。③內容整合:信息規劃、信息導航、統一搜索、信息專(zhuān)題、信息門(mén)戶(hù)。④流程整合:統一數據采集加工處理流程、統一數據存儲管理、統一數據訪(fǎng)問(wèn)和調用接口。
信息資源整合根據系統論的原則,依據一定的需要,對各個(gè)相對獨立系統中的數據對象、功能結構及互動(dòng)關(guān)系進(jìn)行融合、類(lèi)聚和重組,重新構建一個(gè)新的有機整體,形成一個(gè)效能更好、效率更高的新的信息資源系統。目前,數字資源整合的方式主要包括:基于OPAC資源系統的整合、基于數字資源導航的整合、基于異構數據庫跨庫檢索的整合、基于數字圖書(shū)館應用系統的整合等。
2.2 數據資源整合技術(shù)
2.2.1 DOI技術(shù)
DOI(Digital Object Identifier)由International DOI Foundation組織構造。該系統提供了一個(gè)框架,為數字環(huán)境中的數字對象分配唯一的、永久性的標識,方便該對象被管理和使用。DOI系統由4部分構成:申請DOI;創(chuàng )建對指定DOI對象的描述;解析系統;規則。
2.2.2 SFX技術(shù)
SFX即Special Effects Cinematography,它是比利時(shí)根特大學(xué)的薩姆堡爾為首的研究小組提出的。通過(guò)Open URL框架把復雜的數據庫之間的互連通過(guò)簡(jiǎn)單的鏈接完成。
2.2.3 Web Services技術(shù)
Web Service是為實(shí)現“基于web無(wú)縫集成”的目標而提出的全新概念,希望通過(guò)Web Service能夠實(shí)現不同的系統之間能夠用“軟件-軟件對話(huà)”的方式相互調用,打破軟件應用、網(wǎng)站和各種設備之間格格不入的狀態(tài)。
2.2.4 地域性索引服務(wù)平臺技術(shù)
A.N.ZINCIR-HEYWOOD提出一個(gè)地域性索引服務(wù)平臺(Domain Index Server),建議依靠一個(gè)索引代理去創(chuàng )建成主要的原文獻索引,這個(gè)代理通常是軟件系統,能夠在異構信息支撐下自動(dòng)行動(dòng)(搜索)的系統。
2.2.5 MAP資源整合系統
INNOPAC公司推出的MAP (Millennium Access Plus)是一個(gè)集成的資源整合系統,它可實(shí)現不同信息資源的動(dòng)態(tài)鏈接。這些資源包括全文電子資源、題錄和文摘數據庫、書(shū)目數據庫、圖書(shū)館在線(xiàn)書(shū)目系統、圖像數據庫及搜索引擎等其他Web資源。
2.2.6 OAI標準整合模式
OAI是指open archives initiative,它的目標是發(fā)展和促進(jìn)互操作標準,促進(jìn)內容數據的有效傳播。①數據提供者:提供元數據的Web服務(wù)器。②服務(wù)提供者:向數據提供者發(fā)出請求并且利用得到的元數據構建增值服務(wù)。③存儲體:由數據提供者管理的可以在網(wǎng)上訪(fǎng)問(wèn)的服務(wù)器,它提供服務(wù)提供者需要采集的元數據。④采集器:在服務(wù)提供者方作為從存儲體中搜集元數據的一種應用工具。
2.2.7 情報源圖譜
美國國立醫學(xué)圖書(shū)館主持了一項長(cháng)期研究和開(kāi)發(fā)計劃,即統一醫學(xué)語(yǔ)言系統(UMLS),其項目中有一個(gè)是關(guān)于生物醫學(xué)機讀信息資源的情報源圖譜,其目的是利用超級敘詞表和語(yǔ)義網(wǎng)絡(luò )實(shí)現情報源與特定提問(wèn)的相關(guān)性;有效組織信息資源,為用戶(hù)提供特定信息源的范圍、功能和檢索條件等人工可讀的信息;自動(dòng)連接相關(guān)信息源;在一個(gè)或多個(gè)情報源中自動(dòng)檢索并自動(dòng)組織檢索的結果[3]。
3、構建中醫藥數據資源結構圖譜
3.1 中醫藥數據資源結構圖譜框架(見(jiàn)圖1)
3.2 中醫藥數據資源結構圖譜內容
3.2.1 物理層
系統運行的硬件、軟件環(huán)境,解決如何為應用系統提供統一的支撐環(huán)境,支持應用系統的運作。
3.2.2 基礎層
位于物理互連的網(wǎng)絡(luò )協(xié)議之上,用于標準化、規范化描述數據,為更上層的數據交換提供基礎性支持的標準、規范;A性協(xié)議標準又可以劃分為數據描述層面和數據訪(fǎng)問(wèn)層面。前者主要包括元數據、XML、RSS,后者主要包括開(kāi)放數據庫互連標準(ODBC)等。在數據描述層面內部,RSS具有提供內容聚合的功能,是為實(shí)現內容聚合而制定的一種信息描述、組織的規范,但它也具有資源發(fā)現、發(fā)布的功能,更是一種新形式的描述規則。因此,將RSS歸入基礎的描述層面標準。準確的說(shuō),RSS本身也是基于XML格式的,其實(shí)是XML成功應用的一個(gè)典型。從這一層總體來(lái)看,這些基礎的標準、規范(除了RSS之外),大多數都不是專(zhuān)門(mén)為解決資源整合的問(wèn)題而制定的,主要是從信息組織、跨異構數據庫的互連、互訪(fǎng)用途出發(fā)的。但是,它們確為更好地實(shí)現資源整合提供了有力的支持。
3.2.3 數據層整合
旨在屏蔽各數據源異構性,使得各數據源之間能夠進(jìn)行數據的交換與交互,令用戶(hù)可透明地訪(fǎng)問(wèn)多個(gè)數據源。要實(shí)現數據整合,必須對數據進(jìn)行跨數據源的收集、組織、處理與集成。根據整合系統與數據源之間交互的特點(diǎn),又可以分為3種形式:基于聯(lián)邦的整合、基于采集的整合、基于鏈接的整合;數據層整合協(xié)議的重點(diǎn)是解決系統之間的數據交換和數據交互。
整合揭示以下功能。①不同文獻層次、級別的指引關(guān)系:題錄信息→標引信息→文摘信息→全文→結構信息,一次文獻和二次文獻之間的對應聯(lián)系。②中心數字資源和網(wǎng)絡(luò )數字資源之間的交叉、重復和互補關(guān)系:全文數據庫與中心文獻相重復的部分;又如PUBMED的生物醫學(xué)資源中的期刊包括絕大多數的館藏期刊,并提供了大部分題錄和部分免費全文。③數字資源之間的主題相關(guān)或學(xué)科相關(guān),內容上的重合和互補關(guān)系:引用和被引用及共同引用的關(guān)系,說(shuō)明資源在內容上的相互關(guān)聯(lián)。④數字資源與服務(wù)之間的關(guān)系:共建資源與服務(wù)資源之間存在密切聯(lián)系,但因服務(wù)層次需求分為全文、結構、粗表、細表、分析表等資源。
3.2.4 具體整合要求
數據庫資源的詳細描述與統一管理,包括數據庫元數據管理、每個(gè)中醫藥相關(guān)的數據庫涉及表的管理、每個(gè)表的數據元管理3個(gè)部分。數據庫的元數據管理需要對數據制作相關(guān)的信息如制作人、起始日期、制作背景、目標、更新周期等信息進(jìn)行管理,并可以使用中醫藥的分類(lèi)詞表對數據庫進(jìn)行描述;表的數據元管理需要指明字段的名稱(chēng)、類(lèi)型、大小、取值范圍以及所對應的標準。此外,多個(gè)數據庫之間也存在一定的關(guān)系,如方劑數據相關(guān)的數據庫,就有中國方劑數據庫、方劑現代應用數據庫等,對于方劑類(lèi)數據庫需要制定統一的方劑數據庫制作標準,并對這些庫之間的關(guān)系進(jìn)行描述。
要求研制管理工具,能夠增、刪改每個(gè)數據庫的元數據、數據元,以及每個(gè)數據庫之間的關(guān)系,并能夠逐層次的展示各層的信息以及關(guān)系。能夠使用檢索方式、分類(lèi)方式來(lái)具體的定位到相關(guān)的信息。
應用軟件的詳細描述與統一管理,包括應用軟件的描述、應用軟件使用數據庫資源的描述。應用軟件包括軟件開(kāi)發(fā)的起始日期、目標、版本、開(kāi)發(fā)語(yǔ)言、開(kāi)發(fā)人員、源代碼、可運行包、狀態(tài)、安裝運行條件、軟件描述、使用者、幫助文檔、安裝文檔等信息。
管理工具需要管理這些信息并能夠映射數據庫資源,能夠看到每個(gè)軟件所使用的數據資源,并能夠從數據庫資源導航到相關(guān)的軟件。
服務(wù)器信息的管理主要指數據庫資源在具體服務(wù)器上的分布以及存貯信息,包括服務(wù)器的編號、所安裝的數據庫、數據量、可存貯量、實(shí)際的數據存貯情況、每個(gè)數據庫的超級管理員帳號、數據庫表空間的帳戶(hù)信息等。每個(gè)數據庫資源需要映射到相應的服務(wù)器。
3.3 中醫藥數據資源結構圖譜功能
由于中醫藥數字資源的內在聯(lián)系不是單向或線(xiàn)性的,而是呈網(wǎng)狀的復雜關(guān)系,因此,不可能通過(guò)單一的線(xiàn)索或統一的機制描述全局的狀況。建立中醫藥資源結構圖譜目標是要通過(guò)多種模式,多角度和多層次地挖掘和揭示這些內在關(guān)系,通過(guò)鏈接、集成和嵌入實(shí)現資源之間、資源和服務(wù)的整合。其實(shí)現的主要功能如下。
3.3.1 數據庫資源管理功能
該項功能主要實(shí)現對數據庫元數據的管理和展示,主要分數據庫管理、單個(gè)數據庫管理、單個(gè)表的管理以及數據庫信息展示4個(gè)子功能。
、贁祿䦷旃芾。提供對數據庫信息的管理,包括以下功能:a.增加和刪除數據庫元數據,并可以對其進(jìn)行編輯(元數據包括制作人,起始日期,制作背景,目標,更新周期等);b.管理不同數據庫之間的關(guān)系,實(shí)現數據庫之間關(guān)系的增加、刪除、編輯功能;c.通過(guò)中醫藥分類(lèi)詞表對數據庫進(jìn)行描述。
、跀祿䦷熘斜淼墓芾。提供對指定數據庫中所屬表信息的管理,包括對數據庫中所屬表信息的管理。
、蹎蝹(gè)表對應信息的管理。提供對單個(gè)表對應元數據的管理,包括以下功能:a.對單個(gè)表的元數據進(jìn)行管理,表中的字段信息可以直接從數據庫中得到;b.管理表對應的標準。
、茉獢祿亩ㄎ缓驼故竟δ。實(shí)現對元數據的定位和展示,包括可以對元數據進(jìn)行逐層展示。根據數據資源分類(lèi)標準進(jìn)行元數據目錄分類(lèi)的分層,并定位元數據。
3.3.2 數據庫應用軟件管理功能
這項功能主要實(shí)現對具體應用程序的描述和管理,包括以下子功能:①應用軟件自身信息的展示,包括軟件開(kāi)發(fā)的起始日期、目標、版本、開(kāi)發(fā)語(yǔ)言、開(kāi)發(fā)人員、源代碼、可運行包、狀態(tài)、安裝運行條件、軟件描述、使用者、幫助文檔、安裝文檔等信息。②應用軟件使用數據資源的描述,可以查看軟件對應的數據資源。③增添元數據管展示功能,可以通過(guò)數據資源導航到相關(guān)軟件。
3.3.3 應用程序信息管理功能
實(shí)現對應用程序相關(guān)信息的管理,包括以下子功能:①增加、刪除和編輯應用程序的元數據;②管理應用程序與其數據資源之間的關(guān)系,可以建立、刪除、編輯應用程序與數據資源(數據庫中的表)之間的關(guān)聯(lián)。
3.3.4 服務(wù)器信息的管理
實(shí)現對服務(wù)器上數據資源信息的管理,包括以下子功能:①建立、刪除、編輯服務(wù)器元數據,包括服務(wù)器的編號、所安裝的數據庫、數據量、可存貯量、實(shí)際的數據存貯情況,每個(gè)數據庫的超級管理員帳號,數據庫表空間的帳戶(hù)信息等;②建立、刪除、編輯數據庫與服務(wù)器之間的關(guān)系。
隨著(zhù)網(wǎng)絡(luò )信息的海量增長(cháng),信息資源的有序化和信息的可用性問(wèn)題已經(jīng)成為以數字化為核心的中醫信息資源建設中的一個(gè)關(guān)鍵問(wèn)題。中醫藥科學(xué)數據中心與互聯(lián)網(wǎng)包容的信息內容在數量和覆蓋內容方面日趨全面,我們期待著(zhù)設計更加科學(xué)、結構更加完備、管理更加規范、功能更加強大的資源整合系統,為網(wǎng)絡(luò )資源的發(fā)現、整合與利用提供一個(gè)全新而高效的技術(shù)平臺,為中醫藥信息服務(wù)開(kāi)辟更加廣闊的發(fā)展前景。
【構建中醫藥數據資源結構圖譜的探討】相關(guān)文章:
探討構建中醫藥數據資源結構圖譜10-12
公司治理結構的構建與完善07-18
網(wǎng)絡(luò )信息資源的組織原則研究--對DC元數據的探討06-16
地下結構與構造設計探討05-23
構建醫院內部控制的探討10-09
論文的基本結構和提綱構建09-17
審計理論結構要素及其構建08-03