- 相關(guān)推薦
談?wù)撘姆治龇椒ǖ木W(wǎng)絡(luò )化發(fā)展和應用
[論文關(guān)鍵詞]引文分析網(wǎng)絡(luò )信息計量網(wǎng)絡(luò )鏈接分析
[論文摘要]引文分析是傳統文獻計量學(xué)和科學(xué)計量學(xué)的一種獨特研究方法。主要從網(wǎng)絡(luò )鏈接分析研究、基于網(wǎng)頁(yè)鏈接分析的搜索引擎排序算法研制和新型網(wǎng)絡(luò )引文索引工具的編制等方面,分析論述引文分析方法在網(wǎng)絡(luò )下的發(fā)展和應用,以期形成對引文分析方法及其價(jià)值的合理認知和評價(jià)。
1、引 言
所謂“引文分析(Citation Analysis)”,是指利用各種和學(xué)的方法,以及比較、歸納、抽象、概括等方法,對學(xué)術(shù)期刊、論文、著(zhù)者等各種對象的引用與被引用現象進(jìn)行分析研究,以便揭示其數量分布特征和內在關(guān)聯(lián)規律的一種文獻計量研究方法。
追溯引文分析思想的淵源,最初的相關(guān)活動(dòng)都出現在領(lǐng)域。特別是1873年美國出版的專(zhuān)供查閱判例的檢索工具——“Shepard’s Citations”,對后來(lái)引文分析工具的研制產(chǎn)生了直接而重要的影響。1927年,美國的Gross夫婦對化學(xué)專(zhuān)業(yè)期刊論文的參考文獻進(jìn)行統計分析,得出了化學(xué)方面的核心期刊表,成為文獻工作中的第一次引文分析實(shí)踐。1961年,E,Garfield經(jīng)過(guò)多年思考和苦心鉆研,開(kāi)始編制并出版“Science Citation Index(簡(jiǎn)稱(chēng)SCI)”,為期刊文獻引文分析研究活動(dòng)的廣泛開(kāi)展提供了強有力的工具保障和數據來(lái)源。隨后,Social Science Citation Index(簡(jiǎn)稱(chēng)SSCI)(1973年)、Arts&Humanities Citation Index(簡(jiǎn)稱(chēng)A&HCI)(1978年)、Journal Citation Reports(簡(jiǎn)稱(chēng)JcR)(1975年)、Essential Science Indicators(簡(jiǎn)稱(chēng)ESI)(2001年)等系列工具的不斷問(wèn)世,更極大地促進(jìn)了引文分析研究活動(dòng)的大規模開(kāi)展。
作為傳統文獻計量學(xué)和科學(xué)計量學(xué)中一種獨具特色的研究方法,自20世紀60年代以后,引文分析方法逐漸發(fā)展成熟,并形成比較完備的研究體系,在指標設置、工具開(kāi)發(fā)和應用實(shí)踐等方面也都取得了豐碩成果。1997年,丹麥學(xué)者T.C.Almind和P.Ingwersen首次提出“網(wǎng)絡(luò )信息計量學(xué)(Webometfics)”這一概念。隨后各種面向網(wǎng)絡(luò )信息的計量分析研究活動(dòng)迅速展開(kāi),引文分析的思想和方法在新興的網(wǎng)絡(luò )信息計量學(xué)領(lǐng)域獲得了進(jìn)一步的發(fā)展,并取得了一系列新的理論和應用進(jìn)展。本文嘗試從3個(gè)不同方面對引文分析方法的網(wǎng)絡(luò )化拓展及應用進(jìn)行分析和論述。
2、新研究領(lǐng)域的開(kāi)拓——網(wǎng)絡(luò )鏈接分析
網(wǎng)絡(luò )鏈接不僅是互聯(lián)網(wǎng)的基本構成要素,也是其最顯著(zhù)的特征。由于網(wǎng)絡(luò )鏈接關(guān)系普遍存在于網(wǎng)站與網(wǎng)站、網(wǎng)站與網(wǎng)頁(yè)、網(wǎng)頁(yè)與網(wǎng)頁(yè)等之間,它們與傳統學(xué)術(shù)期刊文獻之間的引用關(guān)系具有一種天然的相似性,于是,研究人員便從這種天然的相似性出發(fā),將引文分析方法廣泛應用在網(wǎng)絡(luò )信息計量研究中,并由此開(kāi)創(chuàng )、形成了網(wǎng)絡(luò )信息計量學(xué)的一個(gè)特色研究領(lǐng)域——網(wǎng)絡(luò )鏈接分析(Web link analysis)。
10年來(lái)的研究實(shí)踐證明,在成功借鑒引文分析方法的一系列基本思想、概念、指標等基礎上,網(wǎng)絡(luò )鏈接分析已成為促進(jìn)網(wǎng)絡(luò )信息計量學(xué)不斷深入發(fā)展的重要動(dòng)力。目前,國內外大量的網(wǎng)絡(luò )鏈接分析研究活動(dòng),都帶有鮮明的“引文分析”烙印。
首先從計量指標的設計和使用上來(lái)看。早在1996年,美國員G.Mckieman就根據引文分析中“citation”概念的含義,提出使用“sition”一詞來(lái)描述網(wǎng)站(site)之間相互鏈接的行為,即sitation=citedsites。此后,“sitation”一詞逐漸在研究同行中得到使用。1998年,P.Ingwemen受引文分析中“期刊影響因子”概念的啟發(fā),提出了“網(wǎng)絡(luò )影響因子(Web ImpactFactor)”的概念,用它來(lái)分析一定時(shí)期內某特定網(wǎng)站或網(wǎng)頁(yè)的平均鏈接強度,并以此來(lái)評價(jià)網(wǎng)站在網(wǎng)絡(luò )中的影響力。隨后,以“文獻耦合”、“共引”、“自引”等引文分析的重要概念為基礎,“Web coupling”、“Co-sitati-on”、“Co-link”、“Co-authorship”、“Co-usage”、“Self-linking”、“Self-linked”等網(wǎng)絡(luò )計量概念和指標也陸續被提出。
其次從網(wǎng)絡(luò )鏈接分析領(lǐng)域開(kāi)展的主要研究工作上觀(guān)察,“引文分析”的烙印也是清晰可見(jiàn)。目前,網(wǎng)絡(luò )鏈接分析的研究進(jìn)展主要集中在以下幾方面”。:網(wǎng)絡(luò )鏈接分析與引文分析的理論比較;網(wǎng)絡(luò )鏈接目的、類(lèi)型及其特殊性分析;學(xué)術(shù)性網(wǎng)站與期刊的網(wǎng)絡(luò )影響因子研究;核心網(wǎng)站的測定;網(wǎng)絡(luò )鏈接分析的工具開(kāi)發(fā);基于網(wǎng)絡(luò )計量的學(xué)術(shù)性機構科研能力評價(jià);搜索引擎檢索質(zhì)量的改進(jìn)①等。從中不難看出,除搜索引擎議題外,其他廣受關(guān)注的網(wǎng)絡(luò )鏈接研究選題與傳統的引文分析研究呈現出了較大的相似性。
應該說(shuō),傳統的引文分析思想為網(wǎng)絡(luò )環(huán)境下鏈接分析研究工作的開(kāi)展奠定了必要的學(xué)術(shù)基礎,并發(fā)揮了重要的影響力。尤其是把引文聚類(lèi)分析等方法應用到網(wǎng)站或網(wǎng)頁(yè)的鏈接分析中,以此觀(guān)察Web網(wǎng)頁(yè)與網(wǎng)站內容之間的關(guān)系,對探討、解決網(wǎng)絡(luò )空間(cyber-space)的知識結構以及識別相關(guān)站點(diǎn)群落等都具有很大的價(jià)值。不過(guò),從目前的研究現狀來(lái)看,由于傳統引文分析思想的局限性及網(wǎng)絡(luò )鏈接自身的特殊性和復雜性,網(wǎng)絡(luò )鏈接分析的深入研究還面臨著(zhù)很多難題。例如,對搜索引擎的過(guò)分依賴(lài),缺乏適用的專(zhuān)門(mén)工具;由于(動(dòng)態(tài))網(wǎng)頁(yè)開(kāi)發(fā)不斷增多,鏈接信息的解析與數據獲取越來(lái)越復雜;指標設計和研究方法不夠完善,無(wú)法完全滿(mǎn)足網(wǎng)絡(luò )信息計量和鏈接分析的需要;研究思路不夠開(kāi)闊,選題過(guò)分局限于教育、科研等學(xué)術(shù)性領(lǐng)域,難以應對當前網(wǎng)絡(luò )發(fā)展對的全方位影響和滲透局面。
3、基于網(wǎng)頁(yè)鏈接分析的搜索排序算法
如果把網(wǎng)絡(luò )鏈接分析看作是引文分析思想在網(wǎng)絡(luò )環(huán)境下的一種理論創(chuàng )新和發(fā)展,那么,已在搜索引擎中得到廣泛使用的各種基于網(wǎng)頁(yè)鏈接分析的搜索排序算法的研制,則可以看作是引文分析方法的一種新型網(wǎng)絡(luò )應用。
由于網(wǎng)絡(luò )搜索技術(shù)的局限性,搜索結果排序算法一直是各類(lèi)搜索引擎關(guān)注的核心問(wèn)題。受傳統引文分析研究思想的影響和啟發(fā),目前在搜索結果排序方面已產(chǎn)生了一系列基于網(wǎng)頁(yè)鏈接分析的有效而成功的算法,其中尤以搜索引擎Google1998年開(kāi)發(fā)的PageRank算法最具影響力。
傳統的搜索結果排序算法主要建立在網(wǎng)頁(yè)內容與用戶(hù)搜索請求相關(guān)性判斷的基礎上,這種方法深受網(wǎng)頁(yè)關(guān)鍵詞作弊的危害。作為一種新型的排序算法,PageRank的研制直接受到了傳統文獻計量學(xué)引文分析研究思想的影響和啟發(fā),兩者具有明顯的相似之處。
引文分析研究的基本前提假設之一是:一篇文獻的學(xué)術(shù)水平、(或質(zhì)量)可由它被其他文獻引用的次數來(lái)評定,被引用的次數越多,則它的學(xué)術(shù)水平(或質(zhì)量)就越高。于是,PageRank算法將這種思想推廣、應用到了網(wǎng)頁(yè)鏈接分析中。PageRank的基本算法思想可以概括為以下三點(diǎn):①如果一個(gè)頁(yè)面被多次引用(或鏈接),那么這個(gè)頁(yè)面很可能是重要的;②如果一個(gè)頁(yè)面盡管沒(méi)有被多次引用,但卻被一個(gè)重要的頁(yè)面引用,那么這個(gè)頁(yè)面很可能是重要的;③一個(gè)頁(yè)面的重要性被均分,并傳遞到它所引用(或鏈接)的頁(yè)面。據此,對網(wǎng)絡(luò )中每個(gè)Web頁(yè)面的鏈接狀況進(jìn)行全面分析并賦予它們不同的PageRank值(即重要性值),便可以應用于網(wǎng)頁(yè)搜索的結果排序。
由于這種排序思想主要建立在網(wǎng)頁(yè)鏈接分析的基礎上,不僅獨立于網(wǎng)頁(yè)的和內容,而且不需要人工干預就能自動(dòng)發(fā)現Web上的重要資源,因而提供了一種衡量網(wǎng)頁(yè)質(zhì)量的有效方法。
PageRank算法的研制和應用不僅為Coogle贏(yíng)得了巨大的成功,而且迅速催生了一系列類(lèi)似的排序算法,例如用于博客搜索結果的PeopleRank算法、在網(wǎng)絡(luò )自由分類(lèi)法使用過(guò)程中的UserRank算法、TagRank算法和FolkRank算法等。其中,PeopleRank算法主要基于博客用戶(hù)之間的聯(lián)系(具體聯(lián)系方式包括好友鏈接或朋友列表、博文閱讀、回復與評論等)來(lái)自動(dòng)發(fā)現重要的博客用戶(hù),并依此作為博客搜索結果排序的一個(gè)重要因素;UserRank算法的提出,主要用在基于自由分類(lèi)法的檢索結果顯示時(shí),要求按照提出被認可標簽的數量多少對用戶(hù)進(jìn)行排序;而TagRank算法則是基于UserRank的標簽排序;至于FolkRank算法的排序機制,則又整合了UserRank和TagRank,認為由重要用戶(hù)標注的重要標簽下的資源是重要的(且用戶(hù)和標簽擁有同等地位),并以此作為自由分類(lèi)法檢索結果的排序依據。所有這些衍生的排序算法,其基本思想(或出發(fā)點(diǎn))都與PageRank算法是一致的,只不過(guò)應用場(chǎng)合不同,鏈接分析的對象也由網(wǎng)頁(yè)換成了博客用戶(hù)、標簽用戶(hù)、標簽等。
4、網(wǎng)絡(luò )引文索引工具的研制與使用
隨著(zhù)學(xué)術(shù)研究、信息交流與等活動(dòng)的日益網(wǎng)絡(luò )化,傳統的引文索引工具已無(wú)法適應e-Science時(shí)代引文分析的研究需求。為此,各種網(wǎng)絡(luò )化引文索引工具的編制逐漸被提到議事日程,并在當前的引文分析研究工作中逐步獲得應用。
1998年,第一個(gè)網(wǎng)絡(luò )引文索引CiteSeer開(kāi)始研制,并于1999年正式投入使用。2004年,CiteSeer更名為CiteSeer.IST。作為一個(gè)主要面向和信息科學(xué)領(lǐng)域學(xué)術(shù)資源的網(wǎng)絡(luò )引文索引與檢索工具,CiteSeer主要基于自動(dòng)引文索引(Autonomous Citation Indefing,簡(jiǎn)稱(chēng)ACI)技術(shù)編制而成。其主要編制步驟是:①使用多個(gè)搜索引擎,基于關(guān)鍵詞對網(wǎng)絡(luò )中的學(xué)術(shù)性文獻資源(主要是PostScript和PDF 2種格式的學(xué)術(shù)論文)進(jìn)行自動(dòng)搜索和下載,并通過(guò)檢查是否存在參考文獻或書(shū)目來(lái)確認其是否為學(xué)術(shù)性文獻;如是學(xué)術(shù)性文獻,則對其進(jìn)行文本轉換和識別,建立全文索引。②從文獻中自動(dòng)識別、抽取引文信息,包括引文(即上下文)、引文子字段等,特別是對以不同格式標注的相同引文進(jìn)行歸類(lèi)處理。③采用多種文獻相似性測度方法,對相關(guān)文獻和相似文獻進(jìn)行自動(dòng)識別。在運用ACI先進(jìn)技術(shù)的過(guò)程中,CiteSeer的編制還充分借鑒、結合了傳統引文分析研究中對文獻之間引用和被引用關(guān)系的揭示方法,因此在為網(wǎng)絡(luò )用戶(hù)提供訪(fǎng)問(wèn)和檢索使用時(shí),CiteSeer不僅能夠返回一個(gè)與檢索請求相匹配的結果文獻列表,而且對列表文獻中包含的引證與被引證關(guān)系建立了全面的關(guān)聯(lián)鏈接,以方便用戶(hù)對檢索結果以及文獻引用與被引用數據的查看和跟蹤。
針對網(wǎng)絡(luò )學(xué)術(shù)論文的特點(diǎn),CiteSeer主要提供以下3項特色的文獻引文服務(wù)功能:①引文上下文(con-text)信息顯示,把文獻中引文出現位置前后的若干詞組或句子以粗體字標注出來(lái),使用戶(hù)不需閱讀原文就能直接獲知引文被引用的上下文環(huán)境。②相關(guān)文獻揭示,具體包括基于語(yǔ)句分析的相似文獻、基于文本分析的相似文獻、動(dòng)態(tài)相關(guān)文獻書(shū)目(Active Bibliogra.phy)和基于共引關(guān)系的相關(guān)文獻(Related Documentsfrom Co-citation)等不同方式。③引文圖,以圖形方式直觀(guān)地顯示文獻被引用的時(shí)間分布狀況。
目前,CiteSeer可在線(xiàn)查詢(xún)和獲取的學(xué)術(shù)資源數量已接近100萬(wàn)。與SCI、SSCI等傳統引文索引數據庫相比,CiteSeer在全文可獲得性、全面性、及時(shí)性、費用等方面都具有明顯優(yōu)勢。例如,一旦有學(xué)術(shù)性文獻在網(wǎng)絡(luò )上出現,就能自動(dòng)進(jìn)行搜索和索引,并把包括預印本、技術(shù)報告、會(huì )議錄等不同類(lèi)型學(xué)術(shù)文獻的引證關(guān)系考慮進(jìn)來(lái);提供免費的網(wǎng)上服務(wù),極大地發(fā)揮了引文索引的文獻檢索和評價(jià)功能;一些附加的網(wǎng)絡(luò )服務(wù)(如論文修正(correet)鏈接功能等)可以鏈接到討論區,及時(shí)查看相關(guān)的評論、綜述以及新的研究成果等。
除了秉承E,Garfield博士引文分析思想編制的CiteSeer引文索引工具外,2004年由著(zhù)名搜索引擎Coode推出的學(xué)術(shù)搜索服務(wù)——Coogle Scholar,也成功引入了引文分析方法。其中,它提供的一大功能亮點(diǎn)——引文鏈接服務(wù),就主要建立在引文分析基礎上:通過(guò)自動(dòng)分析和摘錄學(xué)術(shù)文獻的引文信息,并將它們作為搜索結果的一部分單獨組織;當用戶(hù)查看搜索結果中的相關(guān)文獻記錄時(shí),點(diǎn)擊“Cited by”功能即可搜索到其所有的引用文獻信息,而且這些引用文獻信息不僅來(lái)自各種數據庫的存儲內容,還包含了在圖書(shū)和各類(lèi)非聯(lián)機出版物中的引用文獻信息。
與傳統的引文索引數據庫系統(SCI、SSCI等)相比,Coogle Scholar在多個(gè)方面擁有創(chuàng )新性功能。首先,在收錄范圍與文獻類(lèi)型方面,它不僅收錄普通網(wǎng)頁(yè)中的學(xué)術(shù)論文,還廣泛包括來(lái)自學(xué)術(shù)出版商、專(zhuān)業(yè)學(xué)會(huì )網(wǎng)站、預印本庫、機構庫等提供的同行評議論文、學(xué)位論文、圖書(shū)、預印本、文摘、技術(shù)報告等多種文獻,內容覆蓋、學(xué)、學(xué)、計算機科學(xué)等多個(gè)學(xué)術(shù)領(lǐng)域。此外,Open Archives Initiative中OAIster所包含的上百萬(wàn)篇論文也可通過(guò)Google,SiC Scholar進(jìn)行查詢(xún),并可提供CrossRef鏈接服務(wù)。其次,在學(xué)術(shù)文獻引用與被引用關(guān)系的揭示方面,Google Scholar不僅能反映學(xué)術(shù)期刊文獻之間的相互引用關(guān)系,還能廣泛反映學(xué)術(shù)期刊、書(shū)籍、預印本庫、機構庫、各類(lèi)非聯(lián)機出版物等多種類(lèi)型文獻之間的相互引用關(guān)系,使得文獻相互引用關(guān)系網(wǎng)絡(luò )覆蓋的范圍大大拓展。
通過(guò)上述對CiteSeer和Google Scholar的分析不難看出,在當前的網(wǎng)絡(luò )化數字科研時(shí)代,傳統的引文分析研究工作急需突破和拓展,相應地,傳統的引文分析工具也亟待完善。根據國內學(xué)者以Web of Science(SCI、SSCI和A&HCI的集成系統)和Google Scholar分別作為引文分析工具進(jìn)行的實(shí)證研究和結果對照,未來(lái)的引文分析研究再單純依賴(lài)傳統的Web of Science等工具,將越來(lái)越難以獲得全面、真實(shí)的引文數據,并會(huì )導致引文分析結果的嚴重偏差。特別是,隨著(zhù)網(wǎng)絡(luò )環(huán)境下學(xué)術(shù)交流渠道的日益多樣化和開(kāi)放訪(fǎng)問(wèn)運動(dòng)的蓬勃發(fā)展,這樣的偏差將會(huì )越來(lái)越大。因此,可以說(shuō),當前以CiteSeer和Google Scholar為代表的新型引文分析工具的出現,一方面可看作是傳統引文分析思想的網(wǎng)絡(luò )化實(shí)踐與應用;另一方面它們也為未來(lái)引文分析研究工作的開(kāi)展提供了新的思路和工具基礎。不過(guò),在目前的狀態(tài)下,不論是CiteSeer還是Google Scholar,要完全取代Web of Science,或者作為一種權威性的引文分析工具來(lái)使用,都還為時(shí)尚早。它們面臨的困難或障礙主要有:①收錄范圍不明確;②覆蓋的學(xué)術(shù)資源領(lǐng)域受限;③回溯年代短;④各學(xué)科開(kāi)放訪(fǎng)問(wèn)運動(dòng)發(fā)展的不平衡;⑤ACI技術(shù)與網(wǎng)絡(luò )搜索技術(shù)的缺陷等。所有這些困難和問(wèn)題,都需假以時(shí)日不斷克服或予以解決。
5、結語(yǔ)
本文主要從三個(gè)方面分析討論傳統引文分析方法的網(wǎng)絡(luò )化發(fā)展和應用。這些發(fā)展和應用成果不僅充分體現了引文分析思想的研究?jì)r(jià)值,也為未來(lái)引文分析工作的深入開(kāi)展提供了新的探索方向和工具基礎。作為一種獨具特色的研究方法,期望網(wǎng)絡(luò )環(huán)境下的引文分析能夠日益完善,并不斷獲得理論上的創(chuàng )新和應用中的突破。
【談?wù)撘姆治龇椒ǖ木W(wǎng)絡(luò )化發(fā)展和應用】相關(guān)文章:
論文的引文格式和修正版12-03
新型建筑材料的應用和發(fā)展論文11-16
公司股票估值方法的實(shí)際應用分析03-22
談?wù)撲摾w維混凝土的性能及其應用03-02
論工業(yè)以太網(wǎng)技術(shù)的應用和發(fā)展03-18