- 相關(guān)推薦
關(guān)于網(wǎng)絡(luò )標注的主要方法概述
[論文關(guān)鍵詞]大眾標注 語(yǔ)義標注 本體[論文摘要]認為標注對于檢索至關(guān)重要,網(wǎng)絡(luò )標注在網(wǎng)絡(luò )資源海量的今天更是如此。介紹網(wǎng)絡(luò )中標注的方法:元數據標注、聚類(lèi)標注和分類(lèi)標注,并對大眾標注和語(yǔ)義標注進(jìn)行詳細介紹。最后對這些標法方法進(jìn)行比較分析及評價(jià)。
在網(wǎng)絡(luò )信息爆炸的今天,讓用戶(hù)檢索到需要的信息至關(guān)重要,因而網(wǎng)絡(luò )中標注顯得尤為重要。目前對于標注的定義大家沒(méi)有統一的說(shuō)法,但是本質(zhì)上都是一致的。概括來(lái)說(shuō)即通過(guò)對文獻進(jìn)行主題分析,識別其重要特征,賦予確切的檢索標識(類(lèi)號、標題詞、敘詞、關(guān)鍵詞、人名、地名等),用以反映該文獻內容的過(guò)程。標注的質(zhì)量,對文獻的檢索效果有直接的決定性影響。標注的類(lèi)型從不同的角度劃分有無(wú)數據標注,聚類(lèi)標注,傳統網(wǎng)絡(luò )的分類(lèi),Web2.0中的大眾標注,語(yǔ)義標注等。
1 幾種主要網(wǎng)絡(luò )標注方法
1.1 一些傳統網(wǎng)絡(luò )標注方法
1.1.1 元數據標注傳統上元數據的創(chuàng )建有兩種方法專(zhuān)業(yè)人員創(chuàng )建和作者創(chuàng )建。第一種是指在和其他組織中最初創(chuàng )建的元數據,大多為編目記錄或由精心挑選的復雜、詳細的規則集和詞匯;第二種方法是指作者創(chuàng )建的元數據,表現為作者標注的文檔可由SGML、萬(wàn)維網(wǎng),都柏林核心集表現出束。
1.1.2 聚類(lèi)分析聚類(lèi)分析是將事物按其某些屬性的相似程度歸至各個(gè)群體。傳統的文獻聚類(lèi)方法主要有單遍聚類(lèi)法、逆中心聚類(lèi)法,密度測試法、圖論法等。這些方法大都通過(guò)計算文獻的相似度,生成待進(jìn)行聚類(lèi)分析的文獻集的關(guān)系矩陣,然后通過(guò)分析此矩陣獲得文獻集的分類(lèi)。Web文檔聚類(lèi)技術(shù)可以縮減搜索引擎的搜索空間,加快檢索速度,提高查詢(xún)精度,因而受到人們的廣泛關(guān)注㈣。
1.1.3 傳統網(wǎng)絡(luò )分類(lèi)法傳統網(wǎng)絡(luò )分類(lèi)法表現為兩種形式:一種是對現有文獻分類(lèi)法實(shí)行網(wǎng)絡(luò )化。目前一些大型萬(wàn)維網(wǎng)站點(diǎn)或搜索引擎均采用現有的文獻分類(lèi)法組織Internet信息資源。如加拿大國家圖書(shū)館利用《杜威十進(jìn)分類(lèi)法》編制綜合性網(wǎng)絡(luò )目錄Canadtan Information by Subject,英國B(niǎo)UBLSub,ject Tree利用《國際十進(jìn)分類(lèi)法》編制了覆蓋國內綜合性網(wǎng)上資源的目錄等;另一種是采用網(wǎng)絡(luò )自編分類(lèi)法的形式。網(wǎng)絡(luò )自編分類(lèi)法是20世紀90年代新興的專(zhuān)門(mén)網(wǎng)絡(luò )資源分類(lèi)工具,以Yahoo、搜狐、美國的Excite等為代表的分類(lèi)系統重視以事物對象為中心設置類(lèi)目,以超文本的方式反映相關(guān)類(lèi)目,現已發(fā)展成為許多門(mén)戶(hù)網(wǎng)站普遍使用的一種模式。
隨著(zhù)Internet的出現,海量的網(wǎng)絡(luò )資源使得利用受控進(jìn)行標注的可操作性變得越來(lái)越差,而利用自然語(yǔ)言進(jìn)行全文檢索以其方便、低、效率高等優(yōu)點(diǎn)獲得了全面發(fā)展,并很快成為因特網(wǎng)資源檢索的主流技術(shù)。在專(zhuān)業(yè)人員創(chuàng )建元數據、作者創(chuàng )建元數據表現出種種問(wèn)題情況下又出現了第三種方法;用戶(hù)創(chuàng )建的元數據,其應用體現在Web2.0中。
1.2 大眾標注
Web2.0的出現為用戶(hù)帶來(lái)了真正的個(gè)性化、去中心化和信息自主權,它是互聯(lián)網(wǎng)的一次理念和思想體系的升級換代,由原來(lái)的自上而下的由少數資源控制者集中控制主導的互聯(lián)網(wǎng)體系轉變?yōu)樽韵露系挠蓮V大用戶(hù)集體智慧和力量主導的互聯(lián)網(wǎng)體系。在Web2.0中人們使用的是基于非受控詞即自然語(yǔ)言的標注。在這里用戶(hù)不僅自己應用創(chuàng )建的元數據,也在社區中分享,這是一種自底向上的標注方法。
性標簽能夠從群體用戶(hù)分類(lèi)中涌現出對應使用最多的分類(lèi),這種通過(guò)協(xié)同用戶(hù)單個(gè)行為“涌現”出使用最多的分類(lèi)法,是在大眾用戶(hù)持續使用“tag”的過(guò)程中被集體創(chuàng )造出來(lái)的,所以Thomas Vander Wal將其命名為Floksonomy(Floksonomy,由“Folks”和“Taxonomy”合成),即集合眾人之力產(chǎn)生的社會(huì )分類(lèi)法。Folksonomy可被譯為“分眾分類(lèi)”、“大眾分類(lèi)”、“自由分類(lèi)、“社會(huì )分類(lèi)”、“通俗分類(lèi)”,我們認為“大眾標注”更能反映出“folksonomy”是一種大眾性的、自由式的標注。大眾標注是一種使用用戶(hù)自由選擇的關(guān)鍵詞對網(wǎng)站進(jìn)行協(xié)作分類(lèi)的方式,而這些關(guān)鍵詞一般稱(chēng)為標簽(tag)。該方法是大眾自發(fā)的用標簽對網(wǎng)絡(luò )信息標識和共享的過(guò)程,它沒(méi)有權威、成形的分類(lèi)文本,而是依據大眾日?陬^詞匯對信息標記,其結果表現為系統的標簽云,標簽云易于直觀(guān)地組織信息和共享信息,同時(shí)亦因缺乏等級結構、不精確、濫用、同義詞等為研究者所質(zhì)疑。但網(wǎng)民卻接受了此種“有勝于無(wú)”的方案。
大眾標注法分為寬(Broad)大眾標注法、窄(Narrow)大眾標注法。寬大眾標注法指許多用戶(hù)可以標注同一事物,而窄大眾標注法指只有一少部分用戶(hù)能夠標注同一事物。
在大眾標注法中,非受控詞匯有著(zhù)與生俱來(lái)的限制性和缺點(diǎn):標簽“一詞多義”的現象就造成了標簽的不確定性;同義詞的不可控性使得相同的概念用不同的標簽標注,這種“一義多詞”的現象又造成協(xié)作的不便性;單詞的不同格式,單復數,也經(jīng)常用作不同的標簽,這種情況在閃亮書(shū)簽上尤為突出(中文中不存在這種單復數的問(wèn)題);美味書(shū)簽和閃亮書(shū)簽最初設計時(shí)只是針對單個(gè)詞匯的,都不允許標簽中出現空格。用戶(hù)就用多個(gè)不含空格的單詞組成單個(gè)的標簽,比如閃亮書(shū)簽中的“vertigovideostlllsbbc”,有時(shí)用戶(hù)在單個(gè)標簽中融入層次,比如美味書(shū)簽中的“deslgn/css”。這兩個(gè)系統忽略了字母的大小寫(xiě),這可能導致具有不同含義的標簽相同,尤其是在首字母縮寫(xiě)時(shí)。這些都是傳統分類(lèi)法中應用受控詞匯的原因,但是在像美味書(shū)簽、閃亮書(shū)簽這種語(yǔ)境體系中應用受控詞匯是不太現實(shí)的。
檢索完整性的要求需要詞表對詞間關(guān)系給予全面揭示,具體包括等同關(guān)系、等級關(guān)系、相關(guān)關(guān)系等。本體能夠表達概念間關(guān)系的這一特點(diǎn)可以補償大眾標注的缺憾。
1.3 語(yǔ)義標注
語(yǔ)義Web被稱(chēng)為Web3.0,是Web上數據的一種表示,它基于資源描述框架RDF來(lái)集成以XML為語(yǔ)法、統一資源標識符URI為命名機制的各種應用。語(yǔ)義Web是對當前Web的一種擴充,并不是一個(gè)全新的Web,其研究重點(diǎn)就是如何將信息表示為能夠理解和處理的形式,即帶有語(yǔ)義,使計算機和人能協(xié)同工作。
實(shí)現語(yǔ)義web目標的一個(gè)重要前提是利用本體詞匯標注Web資源(如Web頁(yè)、服務(wù)等)。本體在TimBemes-Lee提出的語(yǔ)義Web的七層體系結構中位于第四層,其目的是為捕獲相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內共同認可的詞匯,并給出這些詞匯(術(shù)語(yǔ))和詞匯間相互關(guān)系的明確定義,通過(guò)概念之間的關(guān)系來(lái)描述概念的語(yǔ)義;诒倔w的語(yǔ)義標注利用由專(zhuān)家定義好的本體支持內容創(chuàng )建者在Web頁(yè)中添加語(yǔ)義元數據,使其內容能被人和機器所理解,與大眾標注相比較這是一種自頂向下的分類(lèi)法。利用語(yǔ)義標注工具對現有的大量Web信息進(jìn)行標注,將使得Web頁(yè)的內容成為機器可識別的數據,從而構成語(yǔ)義Web的基礎。
OgeMarques等認為語(yǔ)義網(wǎng)的成功在于能夠在Web頁(yè)面及其構成上作語(yǔ)義標記,且是以低的、采用一致性結構和本體的方式。他們著(zhù)力于圖像語(yǔ)義標注的智能方式,并提出三層結構。底層組織是從原圖像內容中抽取的信息,這些信息映射中間層有語(yǔ)義的關(guān)鍵詞,而這些關(guān)鍵詞又聯(lián)系著(zhù)頂層的結構和本體。他利用機器學(xué)習算法作用戶(hù)自助的、半自動(dòng)的圖像標注,可以加快相同領(lǐng)域本體圖像的標注,并且改善標注圖像以后的查詢(xún)和檢索。
在Web服務(wù)方面,下一代網(wǎng)絡(luò )語(yǔ)義標注下的軟件代理能比目前的軟件代理更快地抽取和Web內容。Web服務(wù)中的語(yǔ)義標注能夠促進(jìn)服務(wù)發(fā)現,也能夠促進(jìn)服務(wù)組合轉化為工作流。但目前僅有少量的服務(wù)標注被廣泛應用,這就使得這種語(yǔ)義標注仍然受限。Khalid Belhajjame等基于操作參數之間的聯(lián)系,在工作流中反復試驗,推斷關(guān)于操作參數的相關(guān)語(yǔ)義信息。雖在開(kāi)放的上下文中只能推斷參數語(yǔ)義的約束,但這些松散的標注在工作流、標注、本體中檢測錯誤仍然有價(jià)值,在簡(jiǎn)化手工標注的任務(wù)中也很有價(jià)值。
2 比較分析
專(zhuān)業(yè)人員創(chuàng )建元數據最主要的問(wèn)題是內容擴展時(shí)的可擴性和可行性問(wèn)題,尤其是在萬(wàn)維網(wǎng)中。并且專(zhuān)業(yè)的編目系績(jì)工具對于沒(méi)有專(zhuān)門(mén)培訓和知識的人來(lái)說(shuō)太復雜;作者創(chuàng )建元數據也有問(wèn)題,經(jīng)常出現不恰當、不準確的標注,或者完全是虛假標注。
采用聚類(lèi)分析方法對用關(guān)鍵詞或自由詞標引的檢索系統中的詞表建立詞間關(guān)系,可以形成語(yǔ)義網(wǎng)提高系統檢索效率,達到語(yǔ)義控制的目的。但詞條高達數百萬(wàn)條使得待聚類(lèi)的Web文檔特征詞條一權重矩陣的維數過(guò)高,增加了聚類(lèi)算法的復雜度,因此空間維數較高或詞與詞間呈現較強的相關(guān)性時(shí)聚類(lèi)質(zhì)量和算法的性能會(huì )明顯下降。目前有許多人從事該方面的研究,其中戚涌等人提出了基于潛在語(yǔ)義標注(LatentSemanticIndexing—LSI)的Web文檔自動(dòng)分類(lèi),即對Web文檔采用最優(yōu)聚類(lèi)準則進(jìn)行聚類(lèi),使得獲得的特征向量具有較低的維數和更好的分類(lèi)特征。
亞當·馬斯認為大眾標注將取代以往由專(zhuān)家控制的元數據編輯。Marieke Guy認為大眾標注指的就是關(guān)鍵詞、標簽、元數據,是由使用資源的社區創(chuàng )建的自然,術(shù)語(yǔ)間不存在層次結構,沒(méi)有特定的父子與兄弟關(guān)系,有反饋現象,是種類(lèi)而非分類(lèi)。
而在語(yǔ)義標注中人們將本體引入標注系統用于知識的組織。之所以將ontology引入網(wǎng)絡(luò )信息資源組織領(lǐng)域,是因為ontology的研究著(zhù)眼于更加寬泛的空間——即為人類(lèi)認識活動(dòng)構建頂層概念框架;ontology更加突出知識共享的功能,更著(zhù)眼于給出人類(lèi)事物認識的知識(或領(lǐng)域知識)總框架,以期待將Internet上的信息資源組織成一個(gè)語(yǔ)義網(wǎng)、知識網(wǎng),以最大程度實(shí)現Internet信息資源的有效利用。
3 評價(jià)
正如David welnberger所述,大眾標注法不同于傳統分類(lèi)法,最重要的地方表現在傳統分類(lèi)法是自頂向下的、有層次的,而大眾標注法是自底向上的,沒(méi)有層次的。如果說(shuō)傳統的分類(lèi)法所得的是棵分類(lèi)樹(shù),那么大眾標注法只是將由用戶(hù)自創(chuàng )建的葉子堆到了一起。語(yǔ)義標注所依賴(lài)的本體也是一種自頂向下分類(lèi)法,所以從這點(diǎn)來(lái)看,可以將語(yǔ)義標注與傳統分類(lèi)法歸為一類(lèi),即都是使用受控詞匯的分類(lèi)法。但是語(yǔ)義標注不僅增加了可控性,更由于本體的介入獲得了標注中使用語(yǔ)義的便捷性。
在大眾標注法中可以考慮在用戶(hù)添加標簽后,利用人工智能和ontology的方法對標簽進(jìn)行分析定位,并向用戶(hù)顯示其所處的樹(shù)狀,甚至網(wǎng)狀的知識體系結構,方便用戶(hù)從整體上認識問(wèn)題。這做到了大眾標注自底向上與ontology自頂向下的結合。
4 結語(yǔ)
標注對開(kāi)發(fā)者而言可以更好地組織信息,對用戶(hù)而言可以更好地檢索信息。傳統網(wǎng)絡(luò ),Web2.0中的標注都需要ontol-ogy的引入,需要語(yǔ)義標注的參與。目前在語(yǔ)義標注方面也已經(jīng)有應用研究出現,但語(yǔ)義標注的發(fā)展需要ontology的深度介入。不過(guò),作為底層支持的ontology自身研究進(jìn)展緩慢,尤其是國內仍然研究多于應用,這給語(yǔ)義標注的發(fā)展造成瓶頸。我們期待語(yǔ)義標注更全面的發(fā)展,以促進(jìn)語(yǔ)義網(wǎng)絡(luò )更快速的進(jìn)步,從而能更便捷地為人所用。
【網(wǎng)絡(luò )標注的主要方法概述】相關(guān)文章:
企業(yè)并購風(fēng)險評價(jià)方法概述03-22
淺論網(wǎng)絡(luò )環(huán)境下用戶(hù)標注的價(jià)值與應用03-05
研究黑豆主要病害及其防治方法03-19
談黑豆主要病害及其防治方法03-18
網(wǎng)絡(luò )英語(yǔ)特點(diǎn)及翻譯方法03-12
戰略本錢(qián)治理及其主要分析方法02-26