- 相關(guān)推薦
淺論我國年鑒全文數據庫的現狀和改進(jìn)策略
論文關(guān)鍵詞:年鑒全文數據庫;數字化年鑒;中國年鑒資源全文數據庫;中國年鑒全文數據庫
論文摘要:年鑒全文數據庫是新興的數字資源,是教學(xué)、科研、生產(chǎn)、乃至決策中不可或缺的工具。本文了目前我國兩個(gè)大規模年鑒全文數據庫的收錄情況、銷(xiāo)售策略、檢索性能、結果處理能力等現狀,認為年鑒全文庫尚存在的信息時(shí)滯較長(cháng)、檢索性能不能很好體現年鑒特點(diǎn)、檢索結果后處理能力不強、個(gè)性化服務(wù)欠缺、信息整合層次單一等問(wèn)題,并提出了改進(jìn)策略。
1 序言
年鑒作為覆蓋面廣、信息密集、事實(shí)性強、連續更新的資料性工具書(shū),有著(zhù)其他工具書(shū)無(wú)法比擬的優(yōu)勢,是重要的信息源之一。在我國,大規模的年鑒全文數據庫的開(kāi)發(fā)走在了世界的前列,它多角度地揭示了年鑒內容,大幅提升了信息的序化程度和檢索性能,實(shí)現了跨年鑒、跨年卷的整合檢索,為用戶(hù)查考年鑒信息帶來(lái)了很大的便利。
但是,從用戶(hù)的需求出發(fā),年鑒全文庫在更新頻率、檢索性能、結果優(yōu)化等方面都有待進(jìn)一步提高。尤其在當前數據庫、報紙全文庫產(chǎn)品已占有,“搜數”后來(lái)居上,第三代搜索引擎新功能疊出的形勢下,年鑒全文庫如果不做出自己的特色,將被湮沒(méi)在重圍之中。
2 我國年鑒全文數據庫的概況
2004年5月,北大方正(Apabi)公司與中國年鑒研究會(huì )合作,開(kāi)發(fā)出我國首個(gè)大規模的年鑒全文數據庫產(chǎn)品——“中國年鑒資源全文數據庫”。隨后,金報興圖的《年鑒全文數據庫》和中國知網(wǎng)(CNKI)的《中國年鑒全文數據庫》都相繼推向市場(chǎng)。2007年金報興圖的年鑒全文數據庫被方正合并,因此,當前我國的大規模年鑒全文數據庫僅Apabi和CNKI兩個(gè)。
Apabi的年鑒全文庫共收錄年鑒近600種,5300多卷(截至2007.10)m;CNKI的年鑒全文庫目前提供檢索的年鑒共1301種,約8000卷(截至2007.11.21)t副。它們收錄年鑒的類(lèi)型分布如表1所示:
兩大數據庫的銷(xiāo)售方案也有所不同,Apabi可以按需選購年鑒品種,而CNKI則把所有年鑒打包銷(xiāo)售。
3 年鑒全文數據庫現有功能分析
目前兩大年鑒全文庫都打破了印刷本年鑒的固有結構,突破了電子書(shū)傳統的瀏覽模式,實(shí)現了跨年鑒、跨年卷、以條目為單位的整合檢索,一定程度體現了年鑒資源的特點(diǎn),檢索系統也更符合用戶(hù)利用年鑒的特征。
3.1年鑒整刊導航
年鑒整刊導航應當完整、有序地揭示數據庫收錄的年鑒品種,并提供收錄年鑒品種檢索、選定年鑒中條目檢索的功能。目前兩大數據庫的年鑒整刊導航功能如表2所示。Apabi特別列出了長(cháng)三角、黃河流域等專(zhuān)題年鑒品種導航,并專(zhuān)列了“發(fā)展報告”類(lèi)。在整刊全文瀏覽功能中,Apabi除提供網(wǎng)頁(yè)文本格式的原文外,還提供原書(shū)版式文件全文,以便讀者核對重要信息,避免文本誤錄人造成的影響。
3.2檢索性能
兩大年鑒庫都提供初級檢索與高級檢索途徑,CNKI還設置了專(zhuān)業(yè)檢索。它們具體提供的檢索字段、條目類(lèi)型限定及可用檢索技術(shù)如表3至表5所示。
3.3結果處理功能
結果處理功能是系統檢索功能的延伸和補充,強大的結果處理功能可以使用戶(hù)快速篩選信息,便捷地擴展相關(guān)信息,有事半功倍之效。目前這兩大數據庫的結果處理功能如表6所示。
3.4全文顯示格式
CNKI的年鑒文本、表格和圖片均為PDF格式,不便于用戶(hù)下載利用表格和圖片。Apabi的年鑒文本都為純文本格式,表格目前部分年鑒的表格為Excel格式,其他表格均為JPG格式,圖片是具原圖色彩的JPG格式。
4 年鑒全文數據庫存在的問(wèn)題與改進(jìn)策略
針對年鑒信息的特點(diǎn),結合信息襝索技術(shù),當前的年鑒全文庫還有不少問(wèn)題有待改進(jìn)。
4.1信息及時(shí)性有待加強
信息的及時(shí)性是年鑒全文庫在內容上保持吸引力的要素之一,包括年鑒新品種的及時(shí)收錄和年鑒信息的及時(shí)更新兩方面。但遺憾的是,目前年鑒全文庫通常信息時(shí)差總要在印刷版出版后半年以上。
增強信息的及時(shí)性,一方面要把新出版的、質(zhì)量較好的年鑒新品種及時(shí)增加到數據庫中,如《中國企業(yè)年鑒》等;另一方面,對已收錄的年鑒應及時(shí)更新信息,縮短信息時(shí)滯。數據庫應與年鑒社充分溝通,最好在年鑒編纂完成、付印之前,就直接把數字化的新信息倒人數據庫中。尤其是對一些數據、圖表、事件、動(dòng)態(tài)等時(shí)效性較強的內容,年鑒社可能每隔半年或一季度就會(huì )收集新的數據,數據庫應隨時(shí)將這些新收集齊但未正式出版的信息轉人年鑒庫,并通過(guò)設置“最新更新”欄目、RSS訂閱等功能,及時(shí)告知用戶(hù)更新信息。這樣就可以在第一時(shí)間實(shí)現信息的動(dòng)態(tài)更新,把年鑒信息的年度性提升到動(dòng)態(tài)性。
4.2檢索性能應更契合年鑒的特點(diǎn)
目前年鑒全文庫的檢索系統基本上是仿照期刊全文檢索系統開(kāi)發(fā)的,只是增加了一些針對年鑒的字段和信息類(lèi)型限制,這還不足以體現年鑒信息的特點(diǎn),與讀者的檢索需求尚有一定的距離。近年來(lái),包括自動(dòng)摘要、自動(dòng)分類(lèi)、相似性檢索乃至視頻與圖像內容檢索的內容挖掘技術(shù)成為新的發(fā)展熱點(diǎn),年鑒數據庫急待引人這些技術(shù),而這些技術(shù)的基礎則是對數據特征的詳盡標引。
因此,數據庫首當其沖的是應針對不同類(lèi)型的信息作更為詳盡的標引,設定不同的可檢索字段,以便為進(jìn)一步的內容挖掘打下基礎。例如,對機構名錄信息應根據其屬性要素,對機構名、法人、電話(huà)、傳真、地址、郵編、e—mail、所屬地域、機構性質(zhì)、單位簡(jiǎn)介等進(jìn)行標引;對人名錄則主要包含人名、性別、生卒日、籍貫、工作單位、部門(mén)、職務(wù)、職稱(chēng)、、人物類(lèi)型(先進(jìn)、領(lǐng)導、專(zhuān)業(yè)獎項獲得者等)、從業(yè)類(lèi)別等屬性的標引;對大事記部分,現有的年鑒全文庫都是不加分割地作為完整的文獻單元處理,連最簡(jiǎn)單的檢索某日各地發(fā)生的重大事件都不可能,因此應以獨立的事件為單位,用數據庫的結構提取時(shí)間、地點(diǎn)、所屬地域、事件內容等相關(guān)信息提供檢索,并按單獨的事件為單位輸出檢索結果,而不是輸出整篇大事記的全文;對法規類(lèi)信息應提取其特有的法律法規的級別、頒布部門(mén)、頒布年、實(shí)施年、發(fā)文號等屬性供用戶(hù)檢索;對圖像應建立基于圖像內容的索引庫,提供圖片內容特征的搜索;對表應進(jìn)行統計指標、表頭的標引,甚至有能力的話(huà),還可以加強對統計表的標準化處理,提供具體的數值檢索,充分體現數字信息檢索的優(yōu)勢,發(fā)揮年鑒統計數據的價(jià)值。同時(shí),系統應在詳盡標引的基礎上,對以上信息類(lèi)型設置專(zhuān)類(lèi)信息檢索功能,提供針對各類(lèi)信息的檢索字段,提高信息檢索的精準度。
4.3檢索結果后處理能力不強
(1)年鑒全文庫現有的二次檢索沒(méi)有提供算符的選擇,只能進(jìn)行邏輯“與”的二次檢索,這不便于用戶(hù)進(jìn)一步調整檢索策略。
(2)對于年鑒全文庫而言,由于條目數量巨大,檢出記錄數往往較多,因此特別需要對檢索結果作進(jìn)一步的分面和聚類(lèi)。但目前的年鑒全文庫都沒(méi)有提供檢索結果分面功能。所以,年鑒全文庫應當按結果的信息類(lèi)型、所涉地域、條目年份、所屬年鑒、行業(yè)、學(xué)科等維度進(jìn)行分面,供用戶(hù)選擇合適類(lèi)別的結果瀏覽,這樣既使大量檢索結果序化,又可減少讀者篩選結果的時(shí)問(wèn)。
(3)現有年鑒全文庫的統計表基本都是格式或PDF格式,數據導出靈活性不夠,用戶(hù)對統計表數據的再處理非常不便。數據庫應對所有統計表格以Excel形式錄入并提供導出接口,并可以進(jìn)一步利用ASP、JsP等動(dòng)態(tài)網(wǎng)頁(yè)生成技術(shù),根據用戶(hù)需求,以交互互動(dòng)的方式輸出數據,實(shí)現統計表與統計圖動(dòng)態(tài)轉換的數據可視化,為用戶(hù)提供深加工的統計數據,簡(jiǎn)化用戶(hù)后續處理的過(guò)程(這些功能在國外的Knovel工具書(shū)數據庫中已經(jīng)實(shí)現)。此外,在Excel表格顯示地同時(shí)應提供原表格的圖片格式或PDF格式的鏈接,以供讀者核對數據,保證準確性。
(4)檢索結果中條目所屬欄目標注不夠完整,僅標注了欄目,沒(méi)有標注其上級類(lèi)目,用戶(hù)很難找到該條目在年鑒目錄體系中的準確位置。因此必須完整標注出該條目在年鑒原有框架結構中所屬的篇目>類(lèi)目>分目>欄目(如:上海年鑒>>教育>高等藝術(shù)教育),并分別對年鑒名稱(chēng)、篇目、類(lèi)目、分目、欄目制作超鏈接,指向與紙本年鑒框架結構一致的年鑒目錄導引下的全文瀏覽,便于用戶(hù)利用年鑒目錄體系調出相關(guān)內容瀏覽。
4.4個(gè)性化服務(wù)功能欠缺
在個(gè)性化功能上年鑒全文庫還很薄弱,CNK1只提供了檢索的瀏覽,Apabi則只提供條目的收藏,尚缺乏其他服務(wù)。由于年鑒資料連續性的特點(diǎn),用戶(hù)往往需要對密切關(guān)注領(lǐng)域的特定資料作跟蹤收集。這就需要數據庫開(kāi)發(fā)針對用戶(hù)個(gè)體需求的個(gè)性化服務(wù),這些服務(wù)包括特定年鑒品種、年鑒的欄目、檢索策略的RSS訂閱,定題跟蹤,我的檢索集設定等功能,這樣用戶(hù)就可以在第一時(shí)間獲得由系統自動(dòng)推送來(lái)的最新信息,而不必再每隔一段時(shí)間去查找相同主題的信息。
4.5信息整合層次單一
當前的文獻數據庫領(lǐng)域正在發(fā)生著(zhù)重要的轉型,許多數據庫正從單一的信息檢索工具,向廣泛整合外部資源的、綜合的信息資源與服務(wù)體系轉變,它是數字信息源發(fā)展到一定階段的必然選擇,封閉的“信息孤島”是難以充分滿(mǎn)足用戶(hù)需求的。然而,目前年鑒全文庫對信息的整合尚停留于以條目為單位的跨年鑒文獻層面,CNKI也僅與自己的各類(lèi)全文庫做了相似文獻的整合。年鑒全文庫與其他全文數據庫、工具書(shū)乃至互聯(lián)網(wǎng)信息等外部資源的整合有待加強。
在年鑒各類(lèi)信息中,一些文章類(lèi)信息的參考文獻、二次文獻信息等,可以與電子期刊、電子圖書(shū)等其他全文數據庫建立原文鏈接;有關(guān)法律法規、標準的信息,如果沒(méi)有全文的,則可鏈向法律法規和標準全文庫;一些機構名錄、重點(diǎn)單位介紹類(lèi)信息,則可與該機構、團體在互聯(lián)網(wǎng)上的網(wǎng)站主頁(yè)建立鏈接;對于年鑒的統計指標、劃分標準、計量單位等涉及的專(zhuān)業(yè)術(shù)語(yǔ),可以引入百科全書(shū)、詞典類(lèi)工具書(shū),供讀者查詢(xún)參考。通過(guò)這些方式,可以發(fā)揮互聯(lián)網(wǎng)的優(yōu)勢,多層次地整合各種資源,為用戶(hù)提供全方位的信息保障。
【淺論我國年鑒全文數據庫的現狀和改進(jìn)策略】相關(guān)文章:
淺論鐵路客車(chē)整備庫排煙系統的現狀和改進(jìn)03-01
淺論我國內部控制的研究現狀03-18
我國網(wǎng)絡(luò )銀行的現狀及其競爭策略03-23
我國鋼鐵企業(yè)成本管理的現狀與改進(jìn)論文11-17
中學(xué)班干部管理現狀分析及改進(jìn)策略03-21
建筑工程管理現狀和改進(jìn)03-10