- 相關(guān)推薦
網(wǎng)絡(luò )信息分類(lèi)系統的詞匯控制
所謂詞匯控制,是指根據信息資源標引和檢索的需要,對自然語(yǔ)言中的詞匯進(jìn)行選擇、規范并揭示其相關(guān)性的過(guò)程。自然語(yǔ)言作為一種人際交流和思維的工具,其詞匯具有使用靈活、表達性強等特點(diǎn),但相對檢索要求來(lái)說(shuō),含義不夠精確,缺乏明確的結構,詞匯量也過(guò)大。因此,必須根據檢索系統要求,對詞匯進(jìn)行選擇和處理。適度的詞匯控制對于建立一個(gè)高效的信息組織和檢索系統是十分必要的。
分類(lèi)系統對詞匯的控制主要包括:同義控制、詞義控制和詞間關(guān)系控制三個(gè)方面[1],本文主要圍繞這三個(gè)方面進(jìn)行討論研究。
1 傳統分類(lèi)法詞匯控制
傳統分類(lèi)法的構成原理中,詞匯控制是一個(gè)重要的方面。
1.1 同義控制
即對字面形式不同、涵義相同的詞進(jìn)行控制,使一個(gè)概念只用一個(gè)語(yǔ)詞表達,目的是克服自然語(yǔ)言中的一義多詞現象。
分類(lèi)法對詞匯的同義控制主要體現在類(lèi)名的選擇上。類(lèi)名即類(lèi)目的名稱(chēng),規定著(zhù)類(lèi)目的含義和內容范圍。當遇到一義多詞情況時(shí),傳統分類(lèi)法的選詞原則一般是:采用能準確反映其含義且比較通行的科學(xué)名詞,而不選擇其俗稱(chēng)、舊稱(chēng)、不能準確表達全稱(chēng)原義的簡(jiǎn)稱(chēng)、不通行的譯名或近義詞等[2]。如有必要,也可將這些落選的同義詞、近義詞用括號加注于類(lèi)名后,或設置交替類(lèi)目、用代參照。
1.2 詞義控制
即對同形異義詞和語(yǔ)義含糊的詞進(jìn)行控制,使得詞義明確,一個(gè)詞語(yǔ)只表示一個(gè)概念,克服自然語(yǔ)言中的一詞多義現象。
傳統分類(lèi)法主要通過(guò)類(lèi)目注釋來(lái)對詞義進(jìn)行控制。類(lèi)目注釋有多種類(lèi)型,包括內容注釋、關(guān)系注釋、編列方法注釋、分類(lèi)方法注釋、沿革注釋等。一般在類(lèi)目?jì)热葑⑨屩凶髟~義控制,對類(lèi)目的涵義加以說(shuō)明,或對類(lèi)目的內容范圍加以區分,指示某類(lèi)包含與不包含的內容。如中圖法第四版類(lèi)目“TB47工業(yè)設計”的注釋?zhuān)?ldquo;工業(yè)設計是工程技術(shù)與美學(xué)藝術(shù)相結合的新學(xué)科”。
1.3 詞間關(guān)系控制
指揭示詞匯之間的各種聯(lián)系使其成為一個(gè)語(yǔ)義相關(guān)的系統,目的是用以滿(mǎn)足擴檢、縮檢、改變檢索方向等的需要。詞匯之間的聯(lián)系,主要包括等同、等級、相關(guān)三種基本類(lèi)型。
由于傳統分類(lèi)法以分類(lèi)標記作為概念標識,將系統展開(kāi)的類(lèi)目體系作為主要檢索途徑,因此,詞間關(guān)系控制成為其詞匯控制的中心。分類(lèi)系統主要采用系統方式展開(kāi),通過(guò)層層劃分,構成其具有隸屬、并列關(guān)系的秩序井然的概念等級體系。將主題之間從屬、并列、相關(guān)等聯(lián)系加以系統展示,同時(shí)將類(lèi)目之間的參照作為揭示類(lèi)目之間橫向聯(lián)系的一種補充手段。類(lèi)目參照一般用于內容聯(lián)系具有揭示價(jià)值、但在分類(lèi)體系中被分散了的類(lèi)目之間,通常采用互逆的方式在相關(guān)門(mén)類(lèi)下注明。
2 網(wǎng)絡(luò )分類(lèi)系統詞匯控制現狀
以下從同義控制、詞義控制及詞間關(guān)系控制三個(gè)方面來(lái)對網(wǎng)絡(luò )分類(lèi)系統詞匯控制的現狀與傳統分類(lèi)法進(jìn)行對比分析。
2.1 同義控制
在類(lèi)目名稱(chēng)上,傳統分類(lèi)法的類(lèi)名力求科學(xué)、準確、規范,而網(wǎng)絡(luò )分類(lèi)法在類(lèi)名選擇上更注意面向各類(lèi)網(wǎng)絡(luò )用戶(hù),力求通俗易懂、時(shí)新,類(lèi)名也更為簡(jiǎn)練。因此,導致類(lèi)名不規范的現象在各網(wǎng)絡(luò )分類(lèi)系統尤其是在其三級及以下類(lèi)目中普遍存在,成為詞匯控制中一個(gè)突出的問(wèn)題[3]。如雅虎中國的一個(gè)三級類(lèi)目名“親子”,搜狐的一個(gè)三級類(lèi)目名“拓展”。
至于落選的同義詞,一般不建立用代參照或設置交替類(lèi)目,但可作為入口詞。如在提供類(lèi)目索引的雅虎中國中,在檢索框中輸入“腳踏車(chē)”,檢索結果會(huì )將你指引向“自行車(chē)”[4]。
2.2 詞義控制
網(wǎng)絡(luò )分類(lèi)系統中,也普遍存在類(lèi)名用語(yǔ)模糊導致難以判斷其外延的現象。傳統分類(lèi)法中的詞義控制手段如含義注釋和范圍注釋也很少采用,一般只在一級大類(lèi)下有選擇地列舉重點(diǎn)或熱點(diǎn)下位類(lèi)來(lái)幫助明確其類(lèi)名含義。如Yahoo!中,在一級大類(lèi)“Business & Economy”下列出部分一級類(lèi)“B2B,Finance,Shopping,Jobs”[5];在Open Directory中,一級大類(lèi)“Business”下列出部分二級類(lèi)“Jobs,Real Estate,Investinn”[6]。
2.3 詞間關(guān)系控制
與傳統分類(lèi)法一樣,等級式類(lèi)目體系也是網(wǎng)絡(luò )分類(lèi)法進(jìn)行詞間關(guān)系控制的主要手段。傳統分類(lèi)法基本上是采用線(xiàn)性形式揭示類(lèi)目之間聯(lián)系的,這是文獻組織的需要和傳統檢索環(huán)境的特點(diǎn)所決定的。計算機的使用,特別是超文本技術(shù)的使用改變了這一狀況。超文本技術(shù)的特點(diǎn)是,可以通過(guò)節點(diǎn)之間的鏈接,以非線(xiàn)性的方式充分揭示和表達信息之間的聯(lián)系。這一特點(diǎn)極大地改進(jìn)了網(wǎng)絡(luò )分類(lèi)法中類(lèi)目之間各種關(guān)系的揭示,尤其是多維關(guān)系的揭示。這是超文本技術(shù)的強項,也是傳統分類(lèi)法中的一個(gè)薄弱環(huán)節。目前,網(wǎng)絡(luò )分類(lèi)體系中對多維關(guān)系的揭示比較充分,一般均通過(guò)鏈接的方式,在相應類(lèi)下重復反映。但如在處理過(guò)程中缺乏一致性及對應用范圍的適度控制,也會(huì )造成類(lèi)目關(guān)系的混亂。此外,單一的重復反映并不能簡(jiǎn)單代替相關(guān)關(guān)系的揭示[7]。
在從屬、并列關(guān)系的揭示上,網(wǎng)絡(luò )分類(lèi)系統目前也存在一些問(wèn)題,如類(lèi)目歸屬存在著(zhù)不合理現象,同位類(lèi)排列不能揭示類(lèi)間關(guān)系等。
3 網(wǎng)絡(luò )分類(lèi)系統詞匯控制改進(jìn)策略
網(wǎng)絡(luò )分類(lèi)目錄是因特網(wǎng)上用戶(hù)常用的兩種信息檢索工具之一,對網(wǎng)上海量的混雜無(wú)序的信息起著(zhù)重要的導航作用。網(wǎng)絡(luò )分類(lèi)系統詞匯控制的根本目的是提高檢索效率,因此,筆者認為網(wǎng)絡(luò )分類(lèi)系統的所有詞匯控制改進(jìn)策略都應以提高檢索效率為前提。
3.1 繼續保持自然語(yǔ)言的主體檢索語(yǔ)言地位
目前,在大多數信息存儲與檢索系統中,自然語(yǔ)言和人工受控語(yǔ)言處于并存狀態(tài),相互取長(cháng)補短。隨著(zhù)Internet的普及發(fā)展,信息檢索最終用戶(hù)日趨壯大,自然語(yǔ)言檢索呈現迅速發(fā)展趨勢。如前所述,網(wǎng)絡(luò )分類(lèi)檢索系統中詞匯控制具有與傳統分類(lèi)系統不同的特點(diǎn),自然語(yǔ)言在系統中完全占據了主體地位。從根本上看,這是由自然語(yǔ)言檢索的特點(diǎn)和網(wǎng)絡(luò )用戶(hù)的檢索需求特點(diǎn)所決定的。
傳統分類(lèi)法的編制主要針對印刷型文獻的特點(diǎn)用以編制分類(lèi)目錄和組織分類(lèi)排架,而網(wǎng)絡(luò )信息分類(lèi)體系旨在為網(wǎng)上信息提供指引,建立與目標信息的快速有效的鏈接。網(wǎng)絡(luò )信息分類(lèi)體系面向的是廣大網(wǎng)絡(luò )用戶(hù)而不是圖書(shū)情報專(zhuān)業(yè)人員。與原來(lái)的專(zhuān)業(yè)檢索人員相比,網(wǎng)絡(luò )用戶(hù)的范圍十分廣泛,他們的教育程度、知識結構、專(zhuān)業(yè)技術(shù)、興趣愛(ài)好各不相同,對同一事物、同一概念的理解也不盡相同。因此,為了增加網(wǎng)絡(luò )分類(lèi)體系對一般用戶(hù)的易用性,現有的網(wǎng)絡(luò )分類(lèi)體系都盡量采用自然語(yǔ)言,而避免學(xué)術(shù)性、專(zhuān)業(yè)性過(guò)強的詞匯,從而向大眾提供易于掌握、使用的分類(lèi)查詢(xún)系統。
自然語(yǔ)言由于其與生俱來(lái)的詞義模糊、詞間關(guān)系不清等特性造成不少的漏檢和誤檢,與人工語(yǔ)言相比,檢索效率較低。但從用戶(hù)角度來(lái)說(shuō),自然語(yǔ)言具有獨特的優(yōu)越性,如自然語(yǔ)言時(shí)新性強,一旦網(wǎng)頁(yè)中出現某個(gè)新概念詞語(yǔ),即可直接使用這一新詞作為檢索入口,而不必要轉換成另一規范詞用于檢索。而且自然語(yǔ)言檢索方便,它解除了受控語(yǔ)言的種種限制,不需要復雜的檢索規則,使用者能夠較快適應、易用性突出。
當然,要想獲得滿(mǎn)意的檢索效果,對自然語(yǔ)言的適度控制是不可缺少的,這包括建立機內關(guān)鍵詞詞典、類(lèi)主題詞典和后控制詞表等。有理由相信隨著(zhù)相關(guān)技術(shù)的日益提高,自然語(yǔ)言的優(yōu)越性將越來(lái)越顯著(zhù),網(wǎng)絡(luò )分類(lèi)檢索系統也將日臻完善,獲得人們的普遍歡迎。
綜上所述,為了促進(jìn)網(wǎng)絡(luò )分類(lèi)系統的廣泛使用,自然語(yǔ)言在其中作為主體檢索語(yǔ)言的地位需要繼續保持下去。
3.2 適度借鑒傳統分類(lèi)法和主題法的詞匯控制手段
傳統分類(lèi)法主要通過(guò)其層層展開(kāi)的嚴密的類(lèi)目體系來(lái)進(jìn)行詞匯控制。其系統的類(lèi)目體系使得系統地掌握和利用一個(gè)學(xué)科或專(zhuān)業(yè)范圍的知識和信息很方便,對于從學(xué)科或專(zhuān)業(yè)出發(fā)的泛指性檢索能達到較高的檢全率,而且能方便地進(jìn)行擴檢和縮檢。傳統主題法系統,一般以詞匯為單元進(jìn)行控制,主要通過(guò)參照系統和各種輔助索引來(lái)展示詞間關(guān)系,在主題詞的選擇、詞義控制方面比分類(lèi)法更為嚴格。主題法的特點(diǎn)是以主題為中心集中信息資源,能準確、專(zhuān)指地標引和揭示各種主題內容,檢索的直接性、通用性好,適合于進(jìn)行專(zhuān)指性檢索,而且可通過(guò)靈活組配方式進(jìn)行多途徑檢索,達到較好的使用效果。
現有網(wǎng)絡(luò )分類(lèi)法由于應用超文本技術(shù)揭示詞間關(guān)系,采用多重列類(lèi)的方法,從不同的屬性、角度設置類(lèi)目,從而提供從多個(gè)方面揭示信息資源的方法,增加了檢索入口,方便用戶(hù)從不同角度查找。這是其在檢索上相對于傳統分類(lèi)法和主題法檢索系統最大的優(yōu)勢。但從目前檢索實(shí)踐來(lái)說(shuō),其檢索效率遠不及后者,究其原因,詞匯控制是其中一個(gè)很重要的因素。因此,要改善網(wǎng)絡(luò )分類(lèi)系統的檢索效率,借鑒傳統分類(lèi)法和主題法成熟的詞匯控制手段是一個(gè)可行的辦法[8]。
首先,在類(lèi)目體系設計上,網(wǎng)絡(luò )分類(lèi)體系普遍存在著(zhù)類(lèi)目設置缺乏規律性、類(lèi)目歸屬不合理、同位類(lèi)排列混亂、橫向關(guān)系揭示不一致等問(wèn)題,而這些問(wèn)題在傳統分類(lèi)法中都相應地有很成熟的技術(shù)或約定俗成的做法可借鑒。
其次,在類(lèi)名選擇上可借鑒傳統主題法詞匯選擇的原則和方法或直接選用其主題詞。類(lèi)目名稱(chēng)不規范是目前各種網(wǎng)絡(luò )分類(lèi)系統的一大通病。作為面向最終用戶(hù)的檢索系統來(lái)說(shuō),采用廣大網(wǎng)民所喜聞樂(lè )見(jiàn)的稱(chēng)謂是無(wú)可厚非的,但對于類(lèi)目命名還是要進(jìn)行適當的規范化處理,F有的網(wǎng)絡(luò )分類(lèi)系統大多屬于等級式主題分類(lèi)法系統,以主題充當類(lèi)目。因此,借鑒傳統主題法詞匯選擇的原則和方法或直接選用其主題詞不失為改善詞匯控制的一個(gè)捷徑。
另外,在詞義控制上,可采取傳統分類(lèi)法和主題法所常用的手段,包括加限義詞、增設含義注釋和范圍注釋等,以進(jìn)一步明確類(lèi)目的內涵和外延。這有助于用戶(hù)在查詢(xún)系統時(shí)快速、準確選擇類(lèi)目,增強系統的用戶(hù)友好性,從而達到改善檢索效果的目的。
3.3 建立一致的詞匯控制機制
許多國內外知名的綜合性門(mén)戶(hù)網(wǎng)站如Yahoo、Excite、Infoseek、搜狐、網(wǎng)易等都研制有自己的網(wǎng)絡(luò )分類(lèi)檢索工具,提供分類(lèi)瀏覽式查詢(xún)。這些各具特色的網(wǎng)絡(luò )分類(lèi)體系給網(wǎng)上信息檢索帶來(lái)了極大的便利。這些分類(lèi)體系的大類(lèi)設置與劃分、類(lèi)名的表述與外延、類(lèi)目的排列等各不相同,檢索性能也有較大的差異。而用戶(hù)在查詢(xún)網(wǎng)絡(luò )信息時(shí)通常會(huì )使用多種分類(lèi)檢索工具,這就造成了用戶(hù)理解和使用的困難,更不利于網(wǎng)上信息資源的共建和共享。
傳統分類(lèi)法也曾是多種多樣的,但目前在國際上占主導地位的只有DDC、UDC和LCC,在我國則是《中圖法》和《科圖法》。綜合性的分類(lèi)法趨向統一是信息資源共享趨勢的結果;ヂ(lián)網(wǎng)上信息資源的最大特點(diǎn)之一就是它的共享性。知識組織體系的相對統一將為基于網(wǎng)絡(luò )的資源共享提供便利。因此,編制適應網(wǎng)上信息組織和檢索的統一分類(lèi)體系已成為迫切需要解決的問(wèn)題。建立一致的詞匯控制機制是統一分類(lèi)體系的非常重要的一環(huán),對于推動(dòng)網(wǎng)絡(luò )分類(lèi)法的進(jìn)一步發(fā)展具有重要的意義。
建立一致的網(wǎng)絡(luò )信息分類(lèi)體系詞匯控制機制,應該由圖書(shū)情報專(zhuān)業(yè)人員參與,以現有的傳統分類(lèi)體系主題法詞匯控制機制為基礎,吸收已有的網(wǎng)絡(luò )分類(lèi)體系的詞匯控制經(jīng)驗和成果,遵循面向網(wǎng)絡(luò )信息資源、面向網(wǎng)絡(luò )技術(shù)環(huán)境、面向網(wǎng)絡(luò )用戶(hù)的原則。其詞匯控制機制主要包括同義控制、詞義控制、詞間關(guān)系控制方面的原理、原則、方法和技術(shù)等,此外,還包括詞量控制、詞組選擇和使用的控制、專(zhuān)指度的控制等方面的內容。
最后,在詞匯控制機制一致的基礎上,構建相對統一的網(wǎng)絡(luò )信息分類(lèi)法。所謂相對統一,是指在統一網(wǎng)絡(luò )分類(lèi)體系基本原理包括詞匯控制機制的基礎上,保留并改進(jìn)現有的多樣的網(wǎng)絡(luò )分類(lèi)體系,允許多種有特色有實(shí)力的分類(lèi)體系共存發(fā)展。因為不同的網(wǎng)絡(luò )分類(lèi)體系在類(lèi)目體系和資源選擇上往往都有自己的特點(diǎn),在滿(mǎn)足不同用戶(hù)需求或檢索特定資源時(shí)有其獨到之處[7]。此外,多樣性必然導致網(wǎng)絡(luò )分類(lèi)體系之間的競爭,為了爭取用戶(hù),開(kāi)發(fā)者不得不針對用戶(hù)的需求實(shí)時(shí)地改進(jìn),這就使得整個(gè)網(wǎng)絡(luò )分類(lèi)體系的性能得到自然的提升,從而推動(dòng)網(wǎng)絡(luò )分類(lèi)法逐步走向成熟和完善[9]。
【參考文獻】
1 馬張華.信息組織(第二版)[M].北京:清華大學(xué)出版社,2003.14-15.
2 張琪玉.情報語(yǔ)言學(xué)基礎(第二版)[M].武漢:武漢大學(xué)出版社,1997.44-47.
3 黃如花.網(wǎng)絡(luò )信息組織:模式與評價(jià)[M].北京:北京圖書(shū)館出版社,2003.89-91.
4 http://cn.yahoo.com,2004-10-11.
5 http://www.yaboo.com,2004-10-11.
6 http://dmoz.org/,2004-10-11.
7 劉穎.試論網(wǎng)絡(luò )信息分類(lèi)的現狀與未來(lái)——構建統一的網(wǎng)絡(luò )信息分類(lèi)法[J].晉圖學(xué)刊,2003,(1):21-23.
8 周寧,黃曉梅,等.信息組織[M].武漢:武漢大學(xué)出版社,2001.74-77.
9 杜安平.網(wǎng)絡(luò )分類(lèi)體系基本原理研究[J].圖書(shū)館學(xué)研究,2004,(4):60-62.
【網(wǎng)絡(luò )信息分類(lèi)系統的詞匯控制】相關(guān)文章:
信息系統內部控制審計初探03-21
試論網(wǎng)絡(luò )會(huì )計信息系統的內部控制03-07
網(wǎng)絡(luò )信息挖掘系統評價(jià)初探03-07
網(wǎng)絡(luò )化系統集成優(yōu)化控制的實(shí)現03-18
E5122的家庭網(wǎng)絡(luò )控制系統03-18
關(guān)于網(wǎng)絡(luò )信息分類(lèi)組織研究展望03-05
網(wǎng)絡(luò )會(huì )計的特征與控制系統03-19
學(xué)科信息門(mén)戶(hù)中網(wǎng)絡(luò )信息導航系統的規范建設12-08
物流系統的成本控制03-18