激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

自然語(yǔ)言檢索中的概念控制

時(shí)間:2024-09-20 01:23:45 教育畢業(yè)論文 我要投稿
  • 相關(guān)推薦

自然語(yǔ)言檢索中的概念控制

自然語(yǔ)言檢索是信息檢索中的一個(gè)類(lèi)型。隨著(zhù)互聯(lián)網(wǎng)的普及和發(fā)展,信息檢索的最終用戶(hù)日趨擴大,自然語(yǔ)言檢索成為重要的發(fā)展趨勢。
目前,自然語(yǔ)言檢索系統采用的是模式匹配技術(shù)。所謂模式指的是關(guān)鍵詞或索引詞匯。模式匹配技術(shù)處理速度快,簡(jiǎn)單易行,但也有缺點(diǎn)。自然語(yǔ)言檢索系統對同義詞、近義詞、多義詞和其他一些與其相關(guān)的詞語(yǔ)沒(méi)有進(jìn)行規范和統一,詞間缺乏有機的聯(lián)系。當用戶(hù)提問(wèn)的檢索概念具有多種表達形式時(shí),采用單一的關(guān)鍵詞或自然語(yǔ)言索引詞匹配方式勢必會(huì )影響檢全率。自然語(yǔ)言檢索系統的選詞沒(méi)有嚴格限制,詞量過(guò)多過(guò)雜,這樣會(huì )影響檢準率,并且會(huì )過(guò)多地占用磁盤(pán)的存儲空間,影響查詢(xún)匹配的速度。要想解決這些問(wèn)題,必須對自然語(yǔ)言查詢(xún)做進(jìn)一步的處理,也就是進(jìn)行概念控制。

  1 概念控制及其實(shí)現基礎

1.1 概念控制的目的
概念并不是孤立存在的,一個(gè)概念總是與其他概念之間存在著(zhù)各種各樣的關(guān)系,如上下位關(guān)系、同義關(guān)系、反義關(guān)系等。關(guān)鍵詞也會(huì )出現一詞多義、一義多詞以及同一事物多種表述的情形。根據概念之間的相互聯(lián)系,在詞的概念含義層次上建立聯(lián)系,為檢索用戶(hù)提供相關(guān)的結果分析是概念控制的一個(gè)應用前景。例如,“體育”這一概念根據上下立類(lèi)的關(guān)系可以細分為足球、排球、奧運會(huì )、亞運會(huì )等,單純的字面匹配會(huì )漏檢甚至誤檢很多與之相關(guān)的信息。通過(guò)概念控制就可以將一個(gè)上位類(lèi)的概念擴展為多個(gè)子概念。體育新聞的檢索就可以擴展為:體育新聞、球類(lèi)(足球、籃球、排球)、田徑運動(dòng)、體育賽事(奧運會(huì )、亞運會(huì )、世界杯)等概念,同時(shí)對那些具有下位概念的詞匯可以再次擴展,這樣就大大地提高了檢索效果!坝嬎銠C”和“電腦”是同一事物的不同表述,機械匹配的話(huà)就只能檢索到有關(guān)“計算機”或“電腦”的信息,采用概念控制的相關(guān)方法可以將這些相同概念的詞匯統一到檢索匹配中,這樣就擴大了檢索面,提高了檢全率。在自然語(yǔ)言檢索系統中進(jìn)行慨念控制,就是把信息檢索從目前的基于關(guān)鍵詞層面提高到基于知識(概念)層面,能夠從概念意義層次上來(lái)認識和處理檢索用戶(hù)的請求,從而提高檢全率和檢準率。
1.2 概念控制的主要方法
目前雖然沒(méi)有一個(gè)檢索系統可以完全實(shí)現理想狀態(tài)下的高層次的語(yǔ)義檢索,但有些自然語(yǔ)言檢索系統已經(jīng)采用概念控制查詢(xún)。主要的方法是利用知識體系建立概念間的關(guān)系進(jìn)行查詢(xún)擴展,深度匹配,優(yōu)化檢索效果。
概念控制的內容包括:提問(wèn)句概念語(yǔ)義塊的抽取,從提問(wèn)句中切分出概念詞或詞組等語(yǔ)義單位;基于知識體系對抽取出的語(yǔ)義單元進(jìn)行概念擴展;概念的組配,將選擇出的各檢索單位基于知識體系的組織信息轉換成體現概念關(guān)系的邏輯表達式。
概念抽取不等同于分詞處理,其中包括普通概念的識別和人名、地名、事件名等專(zhuān)有名詞的識別,并進(jìn)行概念提取。對于普通的概念字串采用逆向最長(cháng)匹配算法(或正向最長(cháng)匹配算法),并綜合切割標記等分詞手段切分就可以進(jìn)行概念抽取。對于詞典中未收錄的概念詞,可以采取基于句模、句子結構分析、詞和詞組構成規則、句內結構性標志字、標點(diǎn)符號等來(lái)進(jìn)行切分。除切割標志外,已知的詞也可作切割標記使用。
自然語(yǔ)言檢索系統的本質(zhì)是查詢(xún)滿(mǎn)足特定主題概念的文本,因此被檢索的內容不是和提問(wèn)句的字面匹配。對提問(wèn)進(jìn)行分析后抽取出的主要是概念或概念的組合,需要進(jìn)行概念匹配,這就需要對檢索句中的詞進(jìn)行概念擴展,即考慮提問(wèn)句中詞的同近義詞、上下位詞和關(guān)聯(lián)詞?梢酝ㄟ^(guò)知識體系保存同近義關(guān)系、上下位關(guān)系和其他關(guān)聯(lián)關(guān)系,當處理用戶(hù)檢索需求時(shí),通過(guò)查詢(xún)知識體系可對提問(wèn)句中的詞按概念進(jìn)行擴展。如“我國今天的體育新聞”,可以通過(guò)知識體系對“體育”進(jìn)行擴展,查詢(xún)包括“籃球”、“賽車(chē)”、“奧運會(huì )”、“世界杯”等方面的內容,“今天”一詞指檢索者進(jìn)行檢索時(shí)的日期,因此需通過(guò)規則將“今天”映射為檢索時(shí)的時(shí)間,將“我國”擴展為“我國”V“中國”V“中華人民共和國”(知識體系中可能只存在“中國”和“中華人民共和國”之間的同義關(guān)系,沒(méi)有“我國”這一詞條)。
概念組配,按其內在邏輯關(guān)系,可分為限定組配和相交組配。限定組配將一個(gè)概念的內涵增加到另一個(gè)概念的內涵中,從而加深概念的內涵,縮小或限定了概念的外延。相交組配將具有共同的屬概念、概念之間具有相交關(guān)系、外延部分重合的概念組合成一個(gè)新概念。在構成查詢(xún)表達式時(shí),基于知識體系的擴展詞和原詞間為“邏輯加”的關(guān)系。如“美麗”擴展為“美麗”V“漂亮”V……V“標志”。提問(wèn)句中語(yǔ)義塊間的關(guān)系通常為邏輯乘的關(guān)系。語(yǔ)義塊間的概念組配通常存在如下邏輯關(guān)系:(1)主謂結構,描述的是一種陳述與被陳述的關(guān)系。(2)偏正結構,描述的是一種修飾與被修飾的關(guān)系。(3)動(dòng)賓結構,描述的是一種作用和被作用的關(guān)系。(4)并列結構,描述的是一種成分間的并列關(guān)系[1]。主謂結構、偏正結構和動(dòng)賓結構間為“邏輯乘”關(guān)系,并列結構為“邏輯加”關(guān)系。但通過(guò)對檢索提問(wèn)句進(jìn)行分析后發(fā)現,部分并列結構在用戶(hù)的檢索概念中為“邏輯乘”關(guān)系,于是采用通過(guò)句模分析和指示標志來(lái)確定語(yǔ)義塊間的“邏輯乘”或“邏輯加”關(guān)系。提問(wèn)句語(yǔ)義塊之間的“邏輯加”關(guān)系通常存在顯式指示標志,如“或”等。分析傳統的主、謂、賓、定、狀、補六大成分與句型的關(guān)系,可以輔助獲取語(yǔ)義塊的邏輯關(guān)系。檢索提問(wèn)句的語(yǔ)義概念和提問(wèn)句的結構緊密相關(guān)。需要分析謂語(yǔ)的性質(zhì)、句子的結構,如“把”字、“被”字句等。
概念控制的3項關(guān)鍵技術(shù)中,概念擴展和概念組配都離不開(kāi)知識體系的支持,知識體系的好壞直接關(guān)系到檢索效果的優(yōu)劣。
1.3 概念控制系統
國內外已有一些檢索系統在不同程度上實(shí)現了概念控制,代表系統有首信搜索引擎、孫悟空、UMLS等。下面以UMLS為例進(jìn)行介紹。

自然語(yǔ)言檢索中的概念控制

【自然語(yǔ)言檢索中的概念控制】相關(guān)文章:

信息檢索中的查詢(xún)擴展技術(shù)03-07

審計視角下內部控制相關(guān)概念的探討03-22

探析CBR在因特網(wǎng)教育資源檢索中的應用03-20

《邏輯哲學(xué)論》中的真理概念03-03

PPLID控制回路及其在FIRA控制中的應用03-21

試論西方哲學(xué)中的“常識”概念03-07

德國環(huán)境刑法中污染概念的研究03-25

試臨床醫學(xué)中的模糊概念03-18

概念設計中的虛擬現實(shí)技術(shù)03-19

激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频