- 相關(guān)推薦
圖書(shū)檢索系統體系架構研究
圖書(shū)檢索系統可以歸納為索引子系統、檢索子系統、資源匹配子系統和資源子系統四大部分,每一個(gè)子系統在整個(gè)系統中都有著(zhù)不可忽視的作用,各個(gè)子系統之間統籌合作完成圖書(shū)信息的檢索工作。 下面小編為大家準備了圖書(shū)檢索系統體系架構的文章,歡迎閱讀。
1 圖書(shū)信息檢索系統評價(jià)指標
信息檢索評價(jià)是對信息檢索系統性能(主要滿(mǎn)足用戶(hù)信息需求的能力)進(jìn)行評估的活動(dòng)。通過(guò)評估可以評價(jià)不同技術(shù)的優(yōu)劣,不同因素對系統的影響,從而促進(jìn)本領(lǐng)域研究水平的不斷提高。信息檢索系統的目標是在較少消耗的情況下盡快、全面返回準確的結果。根據F.W.Lancaster的闡述,判定一個(gè)檢索系統的優(yōu)劣,主要從質(zhì)量、費用和時(shí)間三方面來(lái)衡量。因此,對計算機信息檢索的效果評價(jià)也應該從這三個(gè)方面進(jìn)行。本文主要研究信息檢索系統的質(zhì)量標準,質(zhì)量標準主要通過(guò)查全率與查準率進(jìn)行評價(jià)。
查全率和查準率是判定檢索效果的主要標準,而后兩者相對來(lái)說(shuō)要次要些。
查全率是指系統在進(jìn)行某一檢索時(shí),檢出的相關(guān)文獻量與系統文獻庫中相關(guān)文獻總量的比率,它反映該系統文獻庫中實(shí)有的相關(guān)文獻量在多大程度上被檢索出來(lái)。
查全率=[檢出相關(guān)文獻量/文獻庫內相關(guān)文獻總量]×100% (1)
查準率是指系統在進(jìn)行某一檢索時(shí),檢出的相關(guān)文獻量與檢出文獻總量的比率,它反映每次從該系統文獻庫中實(shí)際檢出的全部文獻中有多少是相關(guān)的。
查準率=[檢出相關(guān)文獻量/檢出文獻總量]×100% (2)
查全率與查準率是評價(jià)檢索效果的兩項重要指標。查全率和查準率與文獻的存儲與信息檢索兩個(gè)方面是直接相關(guān)的,也就是說(shuō),與系統的收錄范圍、索引語(yǔ)言、標引工作和檢索工作等有著(zhù)非常密切的關(guān)系。
影響查全率的因素:從文獻存儲來(lái)看,主要有:文獻庫收錄文獻不全;索引詞匯缺乏控制和專(zhuān)指性;詞表結構不完整;詞間關(guān)系模糊或不正確;標引不詳;標引前后不一致;標引人員遺漏了原文的重要概念或用詞不當等。此外,從情報檢索來(lái)看,主要有:檢索策略過(guò)于簡(jiǎn)單;選詞和進(jìn)行邏輯組配不當;檢索途徑和方法太少;檢索人員業(yè)務(wù)不熟練和缺乏耐心;檢索系統不具備截詞功能和反饋功能,檢索時(shí)不能全面地描述檢索要求等。
影響查準率的因素:主要有:索引詞不能準確描述文獻主題和檢索要求;組配規則不嚴密;選詞及詞間關(guān)系不正確;標引過(guò)于詳盡;組配錯誤;檢索時(shí)所用檢索詞(或檢索式)專(zhuān)指度不夠,檢索面寬于檢索要求;檢索系統不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數量有限;截詞部位不當,檢索式中使用邏輯“或”不當等等。
2 信息檢索系統體系架構
一個(gè)完整的圖書(shū)信息檢索系統應當包括圖書(shū)信息的預處理,圖書(shū)信息的入庫、用戶(hù)檢索接口、資源匹配、資源排序等部分,本文主要就以下幾個(gè)部分進(jìn)行闡述。
2.1 索引子系統
索引子系統主要完成的工作是對圖書(shū)信息的入庫工作,圖書(shū)館中信息資源具有完整的資源名,然而用戶(hù)在搜索時(shí)是通過(guò)輸入關(guān)鍵字來(lái)發(fā)現類(lèi)似的資源,因此需要對信息資源進(jìn)行預處理。主要通過(guò)對信息資源名構建倒排索引,通過(guò)建立關(guān)鍵詞和信息資源名之間的鄰接矩陣,如此則完成信息資源和關(guān)鍵詞之間的關(guān)聯(lián)性,用戶(hù)可以通過(guò)關(guān)鍵詞發(fā)現自身需要的相關(guān)聯(lián)文檔。
2.2 查詢(xún)子系統
查詢(xún)子系統主要提供給用戶(hù)查詢(xún)接口,用戶(hù)通過(guò)輸入檢索關(guān)鍵詞,查詢(xún)子系統需要對用戶(hù)的檢索關(guān)鍵詞進(jìn)行分析,可能用戶(hù)輸入的關(guān)鍵詞并非規范的形式,可能還存在著(zhù)錯誤信息,或者是以字母形式輸入,或者是以英文或者其它方式輸入,查詢(xún)子系統需要對輸入的檢索關(guān)鍵詞進(jìn)行消歧工作。
2.3 資源匹配子系統
資源匹配子系統主要根據用戶(hù)的檢索關(guān)鍵詞在圖書(shū)館數據庫資源中進(jìn)行資源匹配,尋找和用戶(hù)相關(guān)聯(lián)的資源,資源匹配的方式有很多種,諸如采用完全匹配方式(即用戶(hù)輸入的關(guān)鍵詞和數據庫中資源完成匹配)、部分匹配方式(用戶(hù)輸入的關(guān)鍵詞中部分信息和數據庫中信息匹配成功)、語(yǔ)義匹配方式(用戶(hù)輸入的關(guān)鍵詞與數據庫中資源存在語(yǔ)義上的關(guān)聯(lián)性)。
2.4 資源排序子系統
資源排序子系統主要根據用戶(hù)的檢索關(guān)鍵詞對匹配完成的資源信息進(jìn)行排序,按照資源的重要性和用戶(hù)檢索的相關(guān)聯(lián)程度進(jìn)行梯度排序,排序的原則有多種方式,諸如余弦相似度,向量相似度,Jaccard相似度,Dice相似度等多種方式,有些排序子系統根據現今流行的搜索引擎頁(yè)面排序算法進(jìn)行改進(jìn),并將改進(jìn)的排序算法移植于圖書(shū)信息檢索系統中。
拓展:基于圖書(shū)館管理系統的藏書(shū)剔除實(shí)踐
一、常用方法的藏書(shū)剔除
常用的藏書(shū)剔除辦法主要有主觀(guān)判斷法、書(shū)齡判斷法、使用年限法等,其中主觀(guān)判斷法是藏書(shū)剔除最常用的方法之一,是館員按照事先擬訂的一系列相關(guān)的剔除標準(或準則),憑借自己的經(jīng)驗,直接在書(shū)架上剔除文獻資料。面對的是知識內容千差萬(wàn)別、質(zhì)量水平參差不齊的藏書(shū),運用主觀(guān)判斷法進(jìn)行藏書(shū)剔除的尺度很難把握。
書(shū)齡判斷法是根據圖書(shū)年代進(jìn)行藏書(shū)剔除的一種方法?墒窍嗤瑫(shū)齡圖書(shū)的利用率會(huì )相差甚遠,單純以年代決定藏書(shū)的去留,就有可能把一些有價(jià)值的、使用率高的舊書(shū)剔除出去,或者留下許多書(shū)齡較短、不符合讀者需求的圖書(shū)。
文獻壽命“半衰期”體現的是知識情報的老化與更新的基本規律,可以作為一線(xiàn)書(shū)庫藏書(shū)剔除的一個(gè)參考依據。然而在實(shí)際工作中,量化某一館藏是否超出其有效使用年限,或著(zhù)超出了多少,都是很困難的。
調查研究法是開(kāi)展特定范圍(讀者、專(zhuān)家)的調查,并根據調查結果進(jìn)行藏書(shū)剔除的一種方法。它過(guò)分注重代表范圍內的即時(shí)需求,忽視館藏體系整體的、長(cháng)遠的建設和發(fā)展。
滯架時(shí)間是反映圖書(shū)使用情況的一個(gè)客觀(guān)標準,如果大量利用率很低的館藏文獻繼續留在一線(xiàn)書(shū)庫,會(huì )增加館藏的承載負擔和經(jīng)濟支出,增加讀者查找和獲取的時(shí)間。但如果圖書(shū)沒(méi)有放到規定位置,或者讀者沒(méi)有發(fā)現它,那么它自然沒(méi)有被利用的記錄,很可能就被選為剔除對象。
目標比對法是根據資源建設目標進(jìn)行藏書(shū)剔除的一種方法。然而,藏書(shū)體系也需要不斷完善,這種方法有時(shí)會(huì )加大滯后的周期。
上述方法從不同角度為藏書(shū)剔除提供依據,總體上說(shuō)是各有千秋。有些時(shí)候,單獨使用上述方法在時(shí)間、人力、質(zhì)量等方面難以滿(mǎn)足藏書(shū)剔除的需要,需要結合目標、摸索更先進(jìn)、更科學(xué)、更合適的藏書(shū)剔除方法。
二、圖書(shū)館管理系統發(fā)展概況
圖書(shū)館管理系統,又稱(chēng)圖書(shū)館自動(dòng)化管理系統,自國內圖書(shū)館開(kāi)始運用圖書(shū)館自動(dòng)化管理系統,到目前已經(jīng)將傳統的圖書(shū)館業(yè)務(wù)手工操作轉變?yōu)橛嬎銠C管理,從簡(jiǎn)單的單個(gè)模塊管理提升到功能齊全和強大的集成系統,使圖書(shū)館的主要業(yè)務(wù),包括采訪(fǎng)、編目、流通、連續出版物管理、公共檢索等,在一個(gè)書(shū)目數據庫中得以實(shí)現。隨著(zhù)計算機和網(wǎng)絡(luò )技術(shù)在我國的快速發(fā)展,圖書(shū)館管理系統全面普及,傳統的人工工作逐項逐項地被計算機代替。圖書(shū)館管理系統本身從圖書(shū)館內部提供信息資源朝著(zhù)館際之間資源共享和信息資源的多媒體化[2—3]方向發(fā)展。圖書(shū)館管理系統實(shí)時(shí)顯示圖書(shū)的庫存數量、種類(lèi),以及圖書(shū)的借閱情況,有助于動(dòng)態(tài)的分析和決策,提高了圖書(shū)館的管理水平,提高了工作效率。
三、基于圖書(shū)館管理系統的藏書(shū)剔除
在圖書(shū)館集成管理系統得到普遍應用的當前,依托各集成管理系統的功能,跟蹤特定讀者群,核實(shí)電子文獻、各種數據庫、虛擬館藏的覆蓋面、特色和利用情況。與對口院系、各專(zhuān)業(yè)尤其重點(diǎn)學(xué)科、基地建立長(cháng)期的聯(lián)系,掌握對口院系學(xué)科的專(zhuān)業(yè)設置、課程設置及學(xué)生和教師用書(shū)需求。根據入藏、流通、閱覽統計,確定反映本館利用狀況的藏書(shū)周轉基點(diǎn),研究剔除一部分非本館特色學(xué)科的文獻、剔除一部分少人問(wèn)津的文獻,對藏書(shū)結構、滿(mǎn)足率、利用率造成的影響。傳統的藏書(shū)剔除工作也可以根據計劃進(jìn)度、一個(gè)庫一個(gè)庫、一類(lèi)一類(lèi)、持續不斷地開(kāi)展,形成一個(gè)經(jīng)常性、制度化、規范化、以3~5年為周期的、按主題(或按類(lèi)別)的藏書(shū)剔除制度。
利用計算機很容易列出長(cháng)期滯架文獻的清單,但是要從這幾十萬(wàn)條數據中判斷出哪些圖書(shū)應該在這一批剔除的確有困難。況且,判斷館藏圖書(shū)是否有使用價(jià)值,使用頻率的高低只是其中的一個(gè)方面,使用頻率的高低并不一定與使用價(jià)值的大小同步,滯架書(shū)刊中不乏一些內容質(zhì)量、及其時(shí)效性都是好的或比較好的書(shū)刊,不應屬于剔除之列。因此必須啟用專(zhuān)用的系統,把具體的量化指標限定條件輸入計算機,如歷年利用率要求、出版時(shí)間要求、復本數量要求、外觀(guān)狀態(tài)要求、修補次數要求等,其中連續利用率、出版時(shí)間、復本數量可以從數據庫獲得,外觀(guān)狀態(tài)和修補次數如果有記錄以記錄為準,沒(méi)有記錄則認定外觀(guān)狀態(tài)正常、修補次數為零。在計算機分類(lèi)分類(lèi)平臺完成檢索之后,記錄符合條件的分類(lèi)結果,生成一個(gè)符合量化指標的表單。面對學(xué)科知識千差萬(wàn)別、書(shū)品質(zhì)量參差不齊的具體藏書(shū),不是用幾條原則標準就能決定取舍的,隨時(shí)都可出現的一些實(shí)際問(wèn)題。所以還需具體問(wèn)題具體分析,還須對藏書(shū)進(jìn)行逐類(lèi)審查、逐種鑒別的,任何僵化的、一刀切的做法是不可取的,因此需要對擬剔除文獻進(jìn)行必要的復審。
對于通過(guò)復核的擬剔文獻,才可以分門(mén)別類(lèi)交付工作人員把對應的文獻逐一從架位上按順序抽取出來(lái),按順序集中存放。下架后應設一道復核工序,即由復核人員對下架的剔除文獻進(jìn)行認真核對,以防止誤剔、漏剔。同時(shí),對獲批下架文獻進(jìn)行相應的數據處理,把剔除文獻的去向反映到相應的數據庫,調整庫位,生成新的排架號。
藏書(shū)剔除的主要目的是為了提高藏書(shū)質(zhì)量,讓使用率高的藏書(shū)留在一線(xiàn)書(shū)庫的開(kāi)架書(shū)位上,方便讀者取用,提高流通書(shū)位的利用率,控制開(kāi)館成本。斯坦利J斯洛特的相關(guān)研究表明:“當一個(gè)圖書(shū)館的核心藏書(shū)占該館現有圖書(shū)的72~84%時(shí),可以保證滿(mǎn)足99%的讀者使用需求”,換句話(huà)說(shuō),如果一個(gè)圖書(shū)館將其現有藏書(shū)的16~28%圖書(shū)予以剔除,會(huì )對1%的讀者需求產(chǎn)生影響。所以?xún)Σ靥蕹荒軐⑻蕹墨I輕率地拋棄,對尚有一定參考、利用價(jià)值的書(shū)刊,優(yōu)先移至貯藏書(shū)庫,密集排架,以為讀者可能產(chǎn)生的特殊文獻需求提供保障。通過(guò)對藏書(shū)剔除相關(guān)問(wèn)題的研究、分析和解決,可從藏書(shū)是否符合讀者群的需求、藏書(shū)分類(lèi)是否恰當、藏書(shū)著(zhù)錄是否準確、藏書(shū)排架是否符合讀者習慣等一個(gè)個(gè)側面為館員改進(jìn)工作提供了非常重要的反饋信息,進(jìn)而有利于修正和調整資源建設的方針和政策,有利于管理水平的提高。
四、結束語(yǔ)
藏書(shū)剔除是藏書(shū)建設的重要環(huán)節,在當前圖書(shū)館集成管理系統得到普遍應用的前提下,依托圖書(shū)館集成管理系統的功能,可為藏書(shū)剔除工作提供更客觀(guān)、更準確的依據,并有效地保障藏書(shū)剔除的進(jìn)度和質(zhì)量。
【圖書(shū)檢索系統體系架構研究】相關(guān)文章:
紅帽認證體系架構介紹07-23
華為認證架構介紹10-03
微服務(wù)的架構設計09-24
如何搭建系統CSS架構12-31
Linux概念架構解讀201610-15
系統架構設計模式大全08-22
即興評述的中間部分如何架構09-07
ui設計師知識架構10-24