激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

多民族語(yǔ)言本體知識庫構建技術(shù)文學(xué)論文

時(shí)間:2024-10-07 17:37:47 語(yǔ)言文學(xué)畢業(yè)論文 我要投稿
  • 相關(guān)推薦

多民族語(yǔ)言本體知識庫構建技術(shù)文學(xué)論文

  摘 要:語(yǔ)義本體是共享概念模型的顯示的形式化規范說(shuō)明,其目標是將雜亂無(wú)章的信息源轉變?yōu)橛行蛞子玫闹R源。語(yǔ)義本體知識庫的構建是文本自動(dòng)處理的一個(gè)重要環(huán)節,跨語(yǔ)言信息檢索、信息抽取、自動(dòng)翻譯等領(lǐng)域中都有廣泛的應用。該文旨在描述統一標準、統一接口的多民族語(yǔ)言本體知識庫的創(chuàng )建思路,以及包含的若干問(wèn)題,例如:多民族語(yǔ)言中共有概念的一般表示與各民族語(yǔ)言特有的事物表達方式的規律,基于詞匯語(yǔ)義的、包括漢語(yǔ)、英語(yǔ)及少數民族語(yǔ)言在內的多民族語(yǔ)言語(yǔ)義本體的表示理論與方法等。

多民族語(yǔ)言本體知識庫構建技術(shù)文學(xué)論文

  關(guān)鍵詞:知識庫;語(yǔ)義本體;詞典擴充;本體學(xué)習

  1 前言

  我國是一個(gè)統一的多民族國家,55個(gè)少數民族中的53個(gè)民族都有自己的語(yǔ)言文字。這些語(yǔ)言文字與本民族生存發(fā)展息息相關(guān)。2009年國務(wù)院發(fā)表《中國的民族政策與各民族共同繁榮發(fā)展》白皮書(shū)中指出:“為了使少數民族群眾共享信息化時(shí)代的成果,國家采取各種措施促進(jìn)少數民族語(yǔ)言文字規范化、標準化和信息處理工作的健康發(fā)展!北倔w(Ontology)[1]是對共享概念的正規、明確的表述。本體始于哲學(xué)概念,90年代初被引入人工智能后,作為一種能在語(yǔ)義和知識層面上描述信息系統的概念模型建模工具[2]。

  基于語(yǔ)義的本體庫是實(shí)現跨語(yǔ)言信息檢索、信息抽取、自動(dòng)翻譯等智能信息處理應用的重要基礎,是智能文本信息處理的重要環(huán)節。為人們所熟知的本體庫中文《知網(wǎng)》HowNet[3],是一個(gè)較為完整的以語(yǔ)言知識為基礎的中文本體知識庫。目前,《知網(wǎng)》已成為許多自然語(yǔ)言智能處理系統的基礎資源。

  本體構建需要描述語(yǔ)言共性和個(gè)性信息。大量的語(yǔ)言研究說(shuō)明,不同語(yǔ)言除具有個(gè)性差異外,還有共性因素。語(yǔ)言共性研究認為,語(yǔ)言間存在某種共同的普遍規律,稱(chēng)為“普遍語(yǔ)法”。為蒙、藏、維、哈、朝等民族語(yǔ)言以及漢語(yǔ)、英語(yǔ)構建統一標準的本體庫,對于多民族語(yǔ)言智能信息處理應用將起到積極地推動(dòng)作用。

  目前,多民族語(yǔ)言,除漢語(yǔ)外,均缺乏或沒(méi)有本體知識庫建設。進(jìn)行統一標準和接口的多民族語(yǔ)言語(yǔ)義本體知識庫的創(chuàng )建,意義主要表現在:(1)從技術(shù)方面看,將促進(jìn)民族語(yǔ)言信息處理(Ethnic Language Processing)技術(shù)的發(fā)展,探索出一套把被充分研究的語(yǔ)言的處理技術(shù)轉移到被較少研究的語(yǔ)言上移植方案,使自然語(yǔ)言處理(NaturalLanguage Processing)技術(shù)的應用更加廣泛。

  (2)從科技發(fā)展方面看,本項目實(shí)施為多民族語(yǔ)言的智能信息處理應用提供重要的基礎支撐。

  (3)從社會(huì )價(jià)值方面看,通過(guò)多民族語(yǔ)言信息技術(shù)服務(wù)于多民族的信息溝通和交流,將增強民族地區網(wǎng)絡(luò )信息安全,有利于促進(jìn)民族團結、構建多民族和諧社會(huì )。

  本文首先介紹了多民族語(yǔ)義本體庫的構建思路,創(chuàng )建方法,詳細描述多民族語(yǔ)言知識本體庫包含內容。介紹多民族語(yǔ)言共性知識庫中詞匯語(yǔ)義知識的表示和抽取,各民族語(yǔ)言特有語(yǔ)法知識的表示和抽取等技術(shù)。

  2 相關(guān)工作

  20世紀90年代初期,國際計算機界舉行了多次關(guān)于本體的專(zhuān)題研討會(huì ),本體成為包括知識工程、自然語(yǔ)言處理和知識表示在內的諸多人工智能研究團體的熱門(mén)課題,其主要原因在于本體使人與人、人與機器、機器與機器之間的交流建立在共識知識的基礎上。目前中英文自然語(yǔ)言處理領(lǐng)域,已經(jīng)有很多語(yǔ)義本體的研究成果,其中最突出的是WordNet和HowNet。

  英文本體WordNet[4]的詞匯包括名詞、動(dòng)詞、形容詞、副詞和功能詞。每個(gè)詞(更確切地說(shuō)是詞的一條意項)是一個(gè)網(wǎng)絡(luò )節點(diǎn)。節點(diǎn)之間通過(guò)“同義關(guān)系”、“反義關(guān)系”、“上位關(guān)系”、“下位關(guān)系”、“部分—整體關(guān)系”、“形態(tài)關(guān)系”等聯(lián)系在一起。目前,Word-Net已經(jīng)分別建立了名詞、動(dòng)詞、形容詞和副詞的四個(gè)相互獨立的語(yǔ)義網(wǎng)絡(luò ),包括約十萬(wàn)多個(gè)詞項。

  中文本體HowNet[3]是揭示概念與概念之間以及概念所具有屬性之間的關(guān)系為基本內容的常識知識庫,從1996年研發(fā)至今,已有漢語(yǔ)詞項96 744條,多家科研單位研發(fā)基于HowNet知識表示的信息處理技術(shù)。但目前,查新還沒(méi)有查到民族語(yǔ)言信息處理研究中,關(guān)于語(yǔ)義本體表示層面的相關(guān)研究?jì)热;谡Z(yǔ)義的本體知識庫在文本處理、信息抽取、基于文本的數據挖掘、自動(dòng)翻譯中都有廣泛的應用,合適的本體知識庫將成為文本自動(dòng)處理中的一個(gè)重要環(huán)節。

  總結多民族語(yǔ)言中共有概念的一般表示與各民族語(yǔ)言特有的事物表達方式的規律,發(fā)現各民族語(yǔ)言之間的異同;研究和實(shí)現基于詞匯語(yǔ)義的、包括漢語(yǔ)、英語(yǔ)、及多種少數民族語(yǔ)言在內的多民族語(yǔ)言語(yǔ)義本體的表示理論與方法,構建統一標準、統一接口的多語(yǔ)言語(yǔ)義概念本體知識庫,將會(huì )為多民族語(yǔ)言的智能信息處理應用提供重要的基礎支撐,加快民族語(yǔ)言信息處理的進(jìn)程。

  3 多民族語(yǔ)言知識庫構建

  本文將多語(yǔ)言知識庫的建設作為研究的重點(diǎn),為多語(yǔ)言信息處理的關(guān)鍵技術(shù)和應用研究提供更好的支持。為了實(shí)現上述目標,表達各民族語(yǔ)言的語(yǔ)義知識的多語(yǔ)言語(yǔ)義本體庫和各民族語(yǔ)言語(yǔ)法知識庫都是不可缺少的,擬構建的多民族語(yǔ)言知識庫將這兩種知識庫融合在一起。

  3.1 多民族語(yǔ)言本體知識庫

  與通常單語(yǔ)本體知識庫不同,由于各民族語(yǔ)言間存在著(zhù)一些共性的概念,如一個(gè)漢語(yǔ)詞與其在其他語(yǔ)言中的譯文對應同樣的語(yǔ)義概念,同一概念在不同語(yǔ)言中具有相同的語(yǔ)法功能(比如動(dòng)詞同時(shí)需要施事者和受事者,或動(dòng)詞可接雙賓語(yǔ)),且其常見(jiàn)搭配詞可以在語(yǔ)義概念上一一對應。因此,多語(yǔ)本體知識庫需要保存各民族語(yǔ)言在語(yǔ)法和語(yǔ)義上的一些共性信息,從而體現各語(yǔ)言的詞匯在語(yǔ)義概念上的對應性,各語(yǔ)義概念在不同語(yǔ)言中語(yǔ)法行為的某種相似性,以及各語(yǔ)義概念之間的關(guān)聯(lián)。這些共性知識可用于解決翻譯和跨語(yǔ)言檢索中的詞義消歧,提供翻譯模板輔助調序和目標語(yǔ)生成等問(wèn)題。表示語(yǔ)言共性知識的本體庫使用語(yǔ)義概念作為基本詞條(在本體庫中稱(chēng)為元素)。

  在這一過(guò)程中,有一個(gè)反復迭代、逐步求精的過(guò)程,而這種迭代體現在自動(dòng)建立HowNet語(yǔ)義本體知識庫需要用到一系列不同語(yǔ)言的分詞詞性標注工具的自動(dòng)分析結果,而使用語(yǔ)義本體知識庫和語(yǔ)義相似度分析可以解決分詞詞性標注過(guò)程中的一些歧義消歧現象,提高分詞詞性標注的性能。

  多語(yǔ)言語(yǔ)義本體知識庫構建模型見(jiàn)圖1。

  3.2 語(yǔ)言本體創(chuàng )建

  本體結構(Ontology Structure)是一個(gè)四元組O:={C,R,Hc,Rel };其中C(Concept)表示概念集合,R(Relation)表示關(guān)系集合;Hc表示概念層次,即概念間的分類(lèi)關(guān)系(Taxonomy Relation);Rel表示概念間的非分類(lèi)關(guān)系(Non-taxonomy Relation)。

  本文以概念和概念的層次分類(lèi)為基礎,適當增加概念之間的聯(lián)系與推理,作為多民族語(yǔ)言語(yǔ)義本體的體系結構。本文借鑒《知網(wǎng)》的知識定義,結合在多民族語(yǔ)言信息處理當中的應用,確定本體庫的結構。

  主要包含以下內容:

 、倩緦傩詀)語(yǔ)義編碼 b)上下位元素 c)詞類(lèi)信息②概念屬性a)義原 b)搭配概念③共性語(yǔ)法信息在設計該本體庫結構中,充分考慮了擴展性因素,并將信息處理需要用到的信息盡量并入該本體庫當中,作為元信息以最大化地輔助其他信息處理過(guò)程。

 、苷Z(yǔ)法知識庫

  各民族語(yǔ)言也具有自己的特性知識,充分利用這些信息對機器翻譯調序、目標語(yǔ)言生成和跨語(yǔ)言信息檢索都有重要意義。這部分語(yǔ)言的特性知識一般表現在語(yǔ)法層面,因此本體知識庫需要另一個(gè)部分———各民族語(yǔ)言特有的語(yǔ)法知識庫作為補充。

  蒙藏維語(yǔ)和漢語(yǔ)語(yǔ)法知識庫結構:詞法信息:詞類(lèi),變格,變元等信息,時(shí)態(tài)、人稱(chēng)、數等信息;

  句法信息:句式或次范疇化信息,主謂賓等信息。

 、轂榱俗詣(dòng)建設包含上述多語(yǔ)言共性知識和各民族語(yǔ)言語(yǔ)法知識的知識庫,本課題還需要完成兩個(gè)任務(wù):一是為知識庫的每種詞條設計屬性結構,使每種詞條的結構能夠充分表達其對應的知識,并使其易于應用;二是在獲得合理的知識庫結構的基礎上,從語(yǔ)料庫中通過(guò)統計或規則的方法學(xué)習每一詞條的各種屬性的取值。

  3.3 語(yǔ)義本體概念的詞典擴充

  語(yǔ)義本體的創(chuàng )建是耗時(shí)耗力的艱苦工作,需要語(yǔ)言學(xué)家、知識工程師和信息處理人員合作完成。

  目前的語(yǔ)義本體的創(chuàng )建,有手工創(chuàng )建和自動(dòng)生成兩種策略。手工創(chuàng )建本體人工工作是主體,最多增加一些本體創(chuàng )建的輔助工具,以方便和加快概念和關(guān)系獲取的過(guò)程。完全手工創(chuàng )建的本體一般規模較小,無(wú)法應付海量的知識源。自動(dòng)策略一般采用有監督或無(wú)監督的機器學(xué)習技術(shù)從文本語(yǔ)料中自動(dòng)獲取概念和關(guān)系,人工干預程度較低。

  為了自動(dòng)構建描述多民族語(yǔ)言共同特點(diǎn)的本體知識庫,我們首先需要一個(gè)具有較高準確率和覆蓋率的雙語(yǔ)詞典。對于一個(gè)翻譯系統,這樣的詞典也可以有效地提高翻譯的準確性。然而,當前的民族語(yǔ)言和漢語(yǔ)之間的雙語(yǔ)詞典還不能很好地覆蓋語(yǔ)料庫中的文本。其主要原因如下:首先,這些詞典是手工建立或只在一定規模語(yǔ)料之上建立起來(lái)的,這些語(yǔ)料并不能很好地覆蓋所有的領(lǐng)域,因此有些詞(比如領(lǐng)域專(zhuān)業(yè)術(shù)語(yǔ))不會(huì )在詞典中出現;而且當某個(gè)詞具有一詞多義現象時(shí),具有領(lǐng)域偏置的詞典可能會(huì )漏掉一些解釋。第二,未登錄詞問(wèn)題,其中有很大一部分是專(zhuān)有名詞,如人名、地名、機構名、時(shí)間日期等,這些專(zhuān)有名詞除了時(shí)間、日期可以通過(guò)規則進(jìn)行翻譯,其他詞語(yǔ)在翻譯中往往并無(wú)直接的規律可循。還有很多新詞需要收入詞典。

  解決上述問(wèn)題的一個(gè)方法是在已有詞典和語(yǔ)料的基礎上,進(jìn)行詞典的自動(dòng)擴充,包括根據上下文對齊關(guān)系擴充新詞,以及采用特定方法識別術(shù)語(yǔ)和名實(shí)體并找到其對應的翻譯等方法。目前,關(guān)于自動(dòng)詞典擴充的研究還不完善,且多民族語(yǔ)言的現有數據缺乏對齊語(yǔ)料、部分語(yǔ)言數據量很小等特點(diǎn),現有的方法并不符合多民族語(yǔ)言信息處理的現狀。因此需要提出針對多民族語(yǔ)言詞語(yǔ)級信息處理的詞典擴充方案。為了建立一個(gè)適用于翻譯的雙語(yǔ)詞典,我們需要對以下問(wèn)題進(jìn)行研究:①在現有詞典的基礎上,根據上下文的共現信息進(jìn)行逐步擴充。在詞典擴充的過(guò)程中,可能會(huì )出現三種情況,第一,對應的雙語(yǔ)端詞語(yǔ)都是新詞;第二,雙語(yǔ)端詞都在詞典中出現,但詞典中不包含兩者的對應關(guān)系;第三,雙語(yǔ)端有一端在詞典中出現,另一端是新詞,如一詞多義現象和一詞多譯現象。其中第一、二種情況需要根據雙語(yǔ)上下文共現一致性進(jìn)行詞典擴充,第三種情況可以利用單語(yǔ)言端上下文共現一致性進(jìn)行同義詞的挖掘。

 、诿麑(shí)體和術(shù)語(yǔ)的翻譯往往有一定規律可循,例如命名實(shí)體等在不同語(yǔ)言表示之間具有讀音的相似性。因此,我們需要研究如何利用讀音等信息從語(yǔ)料中識別出名實(shí)體和術(shù)語(yǔ)并找到不同語(yǔ)言間的對應翻譯。如蒙古文詞是一個(gè)人名,用漢字標音時(shí)蒙古文中間的音節(ro)在漢字中沒(méi)有,可用近似的漢字來(lái)標注,有三種寫(xiě)法:嘎日迪、嘎?tīng)柕、嘎儒?這三種標注都算正確。

 、墼~典會(huì )隨著(zhù)新語(yǔ)料的加入而不斷增長(cháng),且新詞當中名實(shí)體類(lèi)型出現的頻率最高。詞典不斷增長(cháng)的問(wèn)題使得詞典擴充不可能一次性被解決,因此為了解決以上問(wèn)題,我們將采用一種在線(xiàn)擴充方法,在當前詞典的基礎上,不斷地從新語(yǔ)料中抽取新的對應關(guān)系加入到詞典中,實(shí)現詞典的不斷更新。

  4 總結

  語(yǔ)義本體是共享概念模型的顯示的形式化規范說(shuō)明,其目標是將雜亂無(wú)章的信息源轉變?yōu)橛行蛞子玫闹R源。本文描述了建設統一標準、統一接口的多民族語(yǔ)言本體知識庫的思路,及需要研究的若干問(wèn)題,例如:多民族語(yǔ)言中共有概念的一般表示與各民族語(yǔ)言特有的事物表達方式的規律,基于詞匯語(yǔ)義的、包括漢語(yǔ)、英語(yǔ)、及多種少數民族語(yǔ)言在內的多民族語(yǔ)言語(yǔ)義本體的表示理論與方法等。

  語(yǔ)義本體知識庫的構建是文本自動(dòng)處理的一個(gè)重要環(huán)節,跨語(yǔ)言信息檢索、信息抽取、自動(dòng)翻譯等領(lǐng)域中都有廣泛的應用,具有極大的研究?jì)r(jià)值。

【多民族語(yǔ)言本體知識庫構建技術(shù)文學(xué)論文】相關(guān)文章:

當代審美實(shí)踐與文學(xué)本體論的構建10-16

當代審美實(shí)踐與文學(xué)本體論的構建詳細內容05-08

基于本體的教學(xué)知識庫系統分析08-31

綠色建筑技術(shù)體系構建論文10-28

漢語(yǔ)言文學(xué)論文05-24

漢語(yǔ)言文學(xué)論文10-23

語(yǔ)言文學(xué)畢業(yè)論文精選10-24

語(yǔ)言文學(xué)畢業(yè)論文07-06

電影語(yǔ)言與文學(xué)語(yǔ)言的比較研究論文08-17

構建高職漢語(yǔ)言文學(xué)專(zhuān)業(yè)課程人才培養模式論文07-10

激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频