激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

幾種信息檢索模型比較

時(shí)間:2024-10-10 15:31:40 計算機應用畢業(yè)論文 我要投稿
  • 相關(guān)推薦

幾種信息檢索模型比較

摘要:對信息檢索模型研究的主要內容和構建策略進(jìn)行了描述,給出了幾種常用的信息檢索模型相關(guān)性算法,分析了它們的優(yōu)缺點(diǎn),并就存在的問(wèn)題進(jìn)行了探討,總結了信息檢索模型的研究現狀和發(fā)展趨勢。

關(guān)鍵詞:信息檢索模型;相關(guān)性;查詢(xún);搜索引擎

Abstract:This article described the main contents and the construction strategy of the models of information retrieval,demonstrated a lot of methods in common usages,which is to calculate the model of information retrieval.And in this article,the advantages and disadvantages were analyzed,the problems that is still existing have been researched.In addition,the current situation of this research and the development tendency of the model of information retrieval were deeply summarizad in this article.

Keywords:Information retrieval models;Relativity;Inquiry;Search engine

當前,隨著(zhù)互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長(cháng),信息檢索系統及其核心技術(shù)搜索引擎的性能和效率問(wèn)題已成為人們研究和關(guān)注的焦點(diǎn)。影響一個(gè)搜索引擎系統的性能有很多因素,但最主要的是信息檢索模型,其研究?jì)热莅ㄎ臋n和查詢(xún)的表示方法、評價(jià)文檔和用戶(hù)查詢(xún)相關(guān)性的匹配策略、查詢(xún)結果的排序方法和用戶(hù)進(jìn)行相關(guān)度反饋的機制。本文從研究文檔與用戶(hù)查詢(xún)“相關(guān)性”匹配的角度出發(fā),對信息檢索模型研究的主要內容和構建策略進(jìn)行了詳細的描述,并給出了幾種常用的信息檢索模型相關(guān)性算法,分析了它們的優(yōu)缺點(diǎn)及存在的問(wèn)題,總結了當前信息檢索模型的研究現狀和發(fā)展趨勢,其目的在于提高信息檢索、查詢(xún)的性能和效率。

一、構建信息檢索模型的策略

當前,構建信息檢索模型的主要策略有以下兩個(gè):

(一)通用的信息檢索模型

構建一個(gè)通用的信息檢索模型,研究?jì)?yōu)化的匹配算法,提高查詢(xún)速度、查全率和查準率,最大程度地滿(mǎn)足一般用戶(hù)的查詢(xún)需求。

(二)用戶(hù)興趣模型

根據特定用戶(hù)查詢(xún)興趣要求構建用戶(hù)興趣模型或共同興趣模型,能夠盡可能地滿(mǎn)足特殊用戶(hù)查詢(xún)的需求。它可以構建一個(gè)適合行業(yè)或專(zhuān)業(yè)應用語(yǔ)義要求信息獲取模型。如google就能推斷用戶(hù)的使用意圖,提供動(dòng)態(tài)的、即時(shí)的用戶(hù)“個(gè)性化定制”信息,幫助用戶(hù)快速、準確地定位到所需要的信息。

二、常用的信息檢索相關(guān)性算法

(一)布爾模型

布爾模型是基于特征項的嚴格匹配模型,文本查詢(xún)的匹配規則遵循布爾運算的法則。用戶(hù)可以根據檢索項在文檔中的布爾邏輯關(guān)系提交查詢(xún),搜索引擎則根據事先建立的倒排文件結構,確定查詢(xún)結果。標準的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢(xún)相關(guān),要么與查詢(xún)無(wú)關(guān)。查詢(xún)結果一般不進(jìn)行相關(guān)性排序。

 

在布爾模型中,一個(gè)文檔通過(guò)一個(gè)關(guān)鍵詞條的集合來(lái)表示,這些詞條都來(lái)自一個(gè)詞典。在查詢(xún)與文檔匹配的過(guò)程中,主要看該文檔中的詞條是否滿(mǎn)足查詢(xún)條件。布爾模型用文檔的檢索狀態(tài)值作為一種評價(jià)查詢(xún)和文檔相似性的一種方法。這里,首先定義關(guān)鍵詞集合S,關(guān)鍵詞為t1,t2,…,tn。

這些關(guān)鍵詞可以和邏輯操作符AND,OR和NOT形成不同的條件查詢(xún)。如果得到條件表達式的值為T(mén)rue,該文檔相對于此條查詢(xún)的檢索狀態(tài)值為1;如果若干文檔相對于此條查詢(xún)的檢索狀態(tài)值都為1,則可以認為,這些文檔與此用戶(hù)的查詢(xún)是相關(guān)的。

布爾模型的主要優(yōu)點(diǎn)有兩點(diǎn):一是實(shí)現起來(lái)比較容易,速度快,計算的代價(jià)相對較少。二是查詢(xún)語(yǔ)言表達簡(jiǎn)單,用戶(hù)可以使用任意復雜的查詢(xún)表達式,易于表示同義關(guān)系(如:聾教育OR特殊教育)和詞組(如:計算機AND基礎AND課程改革)。它的缺點(diǎn)是,由于所有檢索到的與用戶(hù)查詢(xún)條件相關(guān)的文檔具有相同的檢索狀態(tài)值,則不能對查詢(xún)結果按照相關(guān)性進(jìn)行排序;另外關(guān)鍵詞也沒(méi)有考慮權重的影響,缺乏定量分析和靈活性以及不能表述模糊匹配。而為了克服布爾型信息獲取模型查詢(xún)結果的無(wú)序性,在查詢(xún)結果處理中引進(jìn)了模糊邏輯運算,將所檢索的數據庫文檔信息與用戶(hù)的查詢(xún)要求進(jìn)行模糊邏輯比較,按照相關(guān)的優(yōu)先次序排列查詢(xún)結果。

(二)向量空間模型

向量空間模型把信息庫中的文本以及用戶(hù)的查詢(xún)都表示成向量空間中的點(diǎn)(向量),用它們之間夾角的余弦作為相似性度量。向量空間模型是現在的文本檢索系統以及網(wǎng)絡(luò )搜索引擎的基礎。

在向量空間模型中,信息檢索系統如果涉及n個(gè)關(guān)鍵詞Term,則建立n維的向量空間,每一維都代表不同的關(guān)鍵詞Term。首先要建立文本和用戶(hù)查詢(xún)的向量,一個(gè)n元組的文檔向量Di的每個(gè)坐標都通過(guò)對應關(guān)鍵字的權重來(lái)表示,查詢(xún)向量中的權重表示對應關(guān)鍵詞對于用戶(hù)來(lái)說(shuō)的重要程度。然后進(jìn)行查詢(xún)向量和文本向量的相似性計算。并可以在匹配結果的基礎上進(jìn)行相關(guān)反饋,優(yōu)化用戶(hù)的查詢(xún)。在知道了文檔向量與查詢(xún)向量后,查詢(xún)與文檔的相似性就可以通過(guò)公式(2)求解。

         (2)

在公式(2)中,文檔Di可以用n維的向量表示,其中每個(gè)分量表示某一Term在整篇文檔中的權重。Q = (q1,q2,…,qn)中ql表示Terml在Q中的權重。

向量空間模型的優(yōu)點(diǎn)在于:1.檢索詞加權改進(jìn)了檢索效果。2.部分匹配策略允許檢索出與查詢(xún)條件相近的文獻。3.可以根據相似度對文獻進(jìn)行排序。

它的缺點(diǎn)是,在這種模型中的基本假設,關(guān)鍵詞Term向量之間被假設為相互無(wú)關(guān)的,而實(shí)際是有時(shí)它們之間大多是依賴(lài)關(guān)系,如在自然語(yǔ)言中,詞或短語(yǔ)之間存在著(zhù)十分密切的聯(lián)系。所以這一假設對計算結果的可靠性造成一定的影響。另外,在查詢(xún)中,也不能像布爾模型一樣使用關(guān)鍵詞之間的邏輯運算關(guān)系。
(三)概率模型
概率模型主要是基于概率排序原則:即如果文檔按照與查詢(xún)的概率相關(guān)性的大小排序,那么排在最前面的是最有可能被獲取的文檔。它主要針對信息檢索中相關(guān)性判斷的不確定性以及查詢(xún)信息表示的模糊性。

在前面的向量模型中,我們假定關(guān)鍵詞Term向量是正交的,不考慮Term向量之間的依賴(lài)關(guān)系。而在概率模型中,可以通過(guò)概率計算表達關(guān)鍵詞Term之間,以及關(guān)鍵詞Term和文檔之間的依賴(lài)關(guān)系,預測文檔與用戶(hù)查詢(xún)的相關(guān)概率,并可以對獲取的結果按照相關(guān)度概率的大小進(jìn)行排序(簡(jiǎn)稱(chēng)PRP)。

概率模型有兩個(gè)主要的參數:一個(gè)文檔和用戶(hù)查詢(xún)的相關(guān)概率Pr(rel)及不相關(guān)概率Pr(nonrel),并且Pr(rel)=1-Pr(nonrel)。即

Pr[term t in document|document is relevant]=Rt/R                             (3)

Pr[term t in document | document is irrelevant]= (ft-Rt)/(N- Rt)  (4)

其中:R表示與用戶(hù)查詢(xún)相關(guān)的文檔數;Rt表示在相關(guān)R中出現關(guān)鍵詞Term t的文檔數;N表示文檔數;ft表示在N個(gè)文檔中出現關(guān)鍵詞Term t的文檔數。由式(3)和(4),可以

得到:

Pr[term t is not in document| document is relevant]= (R- Rt)/R    (5)

Pr[term t is not in document | document is irrelevant]=(N-ft-(R- Rt))/(N- Rt)        (6)

根據上面所給的“條件概率”,可以計算出關(guān)鍵詞Term t的權重:

             (7)

在公式(7)中,如果wt>0,表明詞Term t出現的文檔與用戶(hù)查詢(xún)相關(guān);如果wt<0,出現Term t的文檔與用戶(hù)查詢(xún)無(wú)關(guān)。

概率模型的主要缺點(diǎn)是對文本集的依賴(lài)性過(guò)強,而且條件概率值很難估計。概率模型的一個(gè)特例是貝葉斯網(wǎng)絡(luò ),該網(wǎng)絡(luò )以概率的方式定義了關(guān)鍵詞的權重隨著(zhù)與其相關(guān)的關(guān)鍵詞的權重的改變而改變方式。由于該模型適用于超文本信息系統,因而該模型的應用越來(lái)越廣泛。但是該模型的缺點(diǎn)是,計算復雜度很大,因而該模型不適合很大的網(wǎng)絡(luò )。

三、結束語(yǔ)

目前,大多數信息檢索模型都依賴(lài)于布爾模型,而在實(shí)驗環(huán)境中用的最多并居于主導地位的是傳統的向量空間模型。信息檢索模型還有許多其他變種,如基于布爾模型的變種有:模糊集合模型、擴展布爾模型;基于矢量空間模型的變種有:通用矢量空間模型、潛在語(yǔ)義索引模型、神經(jīng)網(wǎng)絡(luò )模型;基于概率模型的變種有:推理網(wǎng)模型、可信網(wǎng)模型。而總體上來(lái)看,這些模型及其變種都是“語(yǔ)法”層次的信息檢索模型,沒(méi)有具有“語(yǔ)義”特征的規范的詞匯集。今后,進(jìn)一步研究基于“概念語(yǔ)義空間”的文本信息組織與檢索,建立基于本體的信息檢索模型,則能有效地代表文檔和用戶(hù)信息需求,使信息檢索更加精確、有效。未來(lái)的搜索引擎應該信息量更大、搜索速度更快、搜索精度更高和最大限度地滿(mǎn)足用戶(hù)個(gè)性化的要求。

參考文獻:

[1]Ricardo Baeza-Yates,Berthier Riberiro-neto等著(zhù).王知津等譯.現代信息檢索[M].北京:機械工業(yè)出版社,2005

[2]吳麗華,羅云鋒,張宏斌.信息檢索模型及相關(guān)性算法的研究[J].情報雜志,2006(12)25-27

【幾種信息檢索模型比較】相關(guān)文章:

剩余收益模型與傳統DCF模型的比較研究03-23

基于視覺(jué)注意力模型的圖像檢索的研究11-22

信息檢索中的查詢(xún)擴展技術(shù)03-07

幾種常見(jiàn)的網(wǎng)絡(luò )存儲技術(shù)的比較研究02-27

幾種績(jì)效評價(jià)方法的比較分析03-18

學(xué)習型組織理論模型的比較研究03-21

銀行業(yè)幾種CRM應用方案比較分析03-24

銷(xiāo)售領(lǐng)域信息化模型分析03-20

企業(yè)最佳信息獲取成本模型研究03-24

激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频