- 相關(guān)推薦
學(xué)術(shù)搜索引擎的優(yōu)化策略
摘要:該文介紹了一種新的檢索模型,提高學(xué)術(shù)搜索引擎的檢全率及檢索效率。該擴展模型的創(chuàng )新點(diǎn)在于引入檢索詞的下位詞構成新的檢索詞組,不再局限于檢索詞本身字面上的匹配;且文獻列表的排序將學(xué)術(shù)價(jià)值這一因素考慮在內,根據相關(guān)度及學(xué)術(shù)價(jià)值的綜合評分機制對檢索結果進(jìn)行有序輸出。該模型具有一定的科學(xué)性和實(shí)用性,但是其排序的評分機制等需要在未來(lái)的研究中進(jìn)一步細化,完善。該擴展模型主要適用于對檢全率要求較高的學(xué)術(shù)系統及網(wǎng)站。
關(guān)鍵詞:學(xué)術(shù)搜索引擎 檢索 文獻排名 擴展模型
不同于普通網(wǎng)站或系統的搜索引擎,本文所研究的學(xué)術(shù)搜索引擎是專(zhuān)門(mén)針對于知識庫的一類(lèi)搜索引擎,其檢索對象較為單一,為期刊、文獻等數字學(xué)術(shù)資源。該文以CNKI為例。當前學(xué)術(shù)搜索引擎檢索模型一般采用布爾模型、向量模型等傳統的檢索模型[1],這類(lèi)檢索方式只能對檢索的關(guān)鍵詞進(jìn)行字面上的匹配,而忽略了其內在含義的相似度,降低了學(xué)術(shù)搜索引擎的檢全率。該文淺談一種更加全面的檢索模型,以提高其檢索效率。在該文中此模型統一簡(jiǎn)稱(chēng)為擴展模型。
1、理論依據
當用戶(hù)輸入檢索詞后,返回具有相關(guān)信息的文獻排名列表。此列表的確定取決于文獻的關(guān)鍵詞或題目及其下位詞是否與檢索詞匹配。此列表的排序則取決于文獻與檢索詞的相關(guān)度及該文獻的學(xué)術(shù)價(jià)值。該文根據文獻所屬期刊的影響因子評定文獻的學(xué)術(shù)價(jià)值。
所以該模型獲取檢索詞后,首先,根據建好的學(xué)科專(zhuān)長(cháng)詞表(表1)利用其下位詞進(jìn)行擴展,擴展后成為擴展檢索詞組;其次,從文獻庫中抽取文獻題目或關(guān)鍵詞中含有擴展檢索詞組的文獻;但是檢索詞與其下位詞能提供的相關(guān)度權重不同,根據已確定的評分機制(第三部分將詳細給出)即可計算相關(guān)文獻的得分,按得分高低得出文獻列表。
2、模型介紹
該模型是為了提高文獻的查全率,借鑒了文獻[2]結合專(zhuān)長(cháng)詞表的專(zhuān)家檢索方法,即用戶(hù)輸入檢索詞后,利用詞表對檢索詞進(jìn)行擴展。具體設計如下。
2.1 構建主題詞表
專(zhuān)長(cháng)詞表的一、二級詞匯由中國分類(lèi)主題詞表中對應分類(lèi)的主題詞經(jīng)稍加改造得來(lái)。專(zhuān)長(cháng)詞表分為三級,其中部分一、二級詞匯如表1所示。
對每一個(gè)二級詞還需建立相應的三級詞文檔,一個(gè)學(xué)術(shù)研究領(lǐng)域較長(cháng)時(shí)間內的大量學(xué)術(shù)研究成果的關(guān)鍵詞的集合,可以揭示研究成果的總體內容特征、研究?jì)热葜g的內在聯(lián)系、學(xué)術(shù)研究的發(fā)展脈絡(luò )與發(fā)展方向[3],該文以中國知網(wǎng)CNKI數據庫2010―2014年核心期刊上相關(guān)文獻的所有關(guān)鍵詞作為三級詞匯來(lái)源。
2.2 確定文獻列表
用戶(hù)輸入檢索詞后,首先,利用該檢索詞的下位詞進(jìn)行擴展。其次,根據CNKI數據庫文獻表中的文獻題目和關(guān)鍵詞,生成題目或關(guān)鍵詞中含有擴展檢索詞組中詞的文獻,此即符合查詢(xún)主題的專(zhuān)家文獻。
2.3 文獻排名的實(shí)現
文獻排名依據兩方面:一是依據文獻與檢索詞的相關(guān)度;二是依據該文獻的學(xué)術(shù)價(jià)值。在此基礎上,雖然文獻最終得分與文獻中含有檢索詞組中詞的數量有一定關(guān)系,但并不意味著(zhù)二者成絕對的正相關(guān),而是僅對同一篇文獻來(lái)說(shuō),隨著(zhù)相關(guān)詞數量的增加,最終得分也增加。最后按文獻得分由高到低得出有序的文獻列表。
一般地,題目和關(guān)鍵詞能集中體現文章的主要內容,故取文獻的題目和關(guān)鍵詞衡量其相關(guān)度,按體現程度的不同,給二者賦予不同的系數,該文分別將其設定為0.6和0.4(式(2))。其次,在檢索詞組中,詞本體與其下位詞體現相關(guān)度也不同,將其權數分別設為0.7和0.3(式(4))。最后,由于期刊的級別不同,其權威性也不同,因此,可取期刊的影響因子衡量文獻的學(xué)術(shù)價(jià)值。相關(guān)度和學(xué)術(shù)價(jià)值的系數分別設為0.8和0.2(式(3))。
計分公式如下:
Wk=Skrel+Skval (1)
Wk為文獻k的得分;Skrel為文獻k的相關(guān)度得分;Skval為文獻k的學(xué)術(shù)價(jià)值得分。
Wk=(0.6×Pktil+0.4×Pkkey)+Skval (2)
Pktil為檢索詞組中詞在文獻k的題目中出現的頻數;Pkkey為檢索詞組中詞在文獻k的關(guān)鍵詞中出現的頻數。
Wk=0.8×(0.6×Pktil+0.4×Pkkey)+0.2×Skval (3)
Wk=0.8×[0.6×(0.7Pkts+0.3Pkte)+0.4×(0.7Pkks+0.3Pkke)]+0.2×Skval (4)
Pkts與Pkte分別為檢索詞本體及其擴展詞在題目中出現的頻數;Pkks與Pkke則分別為檢索詞的本體及擴展詞在文獻關(guān)鍵詞中出現的頻數。
在計算出3.2節所得文獻列表中每篇文獻的分值后,按分值高低排序即可得出有序的文獻列表。
3、結語(yǔ)
該模型的創(chuàng )新點(diǎn)在于突破了布爾模型、向量模型等傳統模型的僵性匹配模式,通過(guò)下位詞匹配提高模型的檢全率,使檢索方式更加智能。同時(shí)在進(jìn)行排序時(shí),將學(xué)術(shù)價(jià)值這一因素考慮在內。該模型可用于對檢全率要求較高的系統。但是該模型也有一些缺陷,其評分標準有待進(jìn)一步的細化、考證;同時(shí)檢準率有待提高。
參考文獻:
[1] 王娟琴.三種檢索模型的比較研究-布爾、概率、向量空間模型[J].情報科學(xué),1998(3):225-230,260.
[2] 陸偉,劉杰,秦喜艷.基于專(zhuān)長(cháng)詞表的圖情領(lǐng)域專(zhuān)家檢索與評價(jià)[J].中國圖書(shū)館學(xué)報,2010(2):70-76.
[3] 李文蘭,楊祖國.中國情報學(xué)期刊文獻關(guān)鍵詞詞頻分析[J].情報科學(xué),2005,23(1):68-70,143.
【學(xué)術(shù)搜索引擎的優(yōu)化策略】相關(guān)文章:
談搜索引擎優(yōu)化的鏈接策略03-19
淺談搜索引擎優(yōu)化的鏈接策略03-22
垂直搜索引擎發(fā)展策略探討03-21
學(xué)術(shù)論文的發(fā)表策略有哪些12-07
關(guān)于小學(xué)數學(xué)教學(xué)的優(yōu)化策略的論文12-09