- 相關(guān)推薦
地理信息更新主題爬蟲(chóng)論述論文
1系統結構
本文提出基于鏈接回溯的地理信息更新主題爬蟲(chóng)方法,以廣度優(yōu)先通用爬蟲(chóng)方法為基礎,針對現有主題爬蟲(chóng)算法在實(shí)際應用中的缺陷,引入回溯的思想,根據新聞網(wǎng)站的結構特點(diǎn),計算出最有可能包含主題相關(guān)信息的鏈接方向,從而大幅提高爬取效率,獲取更多與主題相關(guān)的信息。系統整體流程分為兩個(gè)階段,如圖1所示:第一階段以初始種子鏈接為基礎,使用基于SVM分類(lèi)的加權爬取算法,先指定某一層的鏈接為父鏈接組,然后以廣度優(yōu)先的方式進(jìn)行網(wǎng)頁(yè)爬取,在這個(gè)過(guò)程中使用SVM分類(lèi)模型,逐條驗證鏈接信息,找出分類(lèi)準確的鏈接在之前指定層數的父鏈接,令該父鏈接權值增加,整個(gè)過(guò)程完成后,統計權值較高的父鏈接作為優(yōu)化種子鏈接;第二階段以?xún)?yōu)化種子鏈接為基礎,利用基于知識庫判別的爬取算法以廣度優(yōu)先的方式進(jìn)行網(wǎng)頁(yè)爬取,使用知識庫逐條驗證鏈接信息,判斷并確定地理信息更新內容的主題,最后將優(yōu)化種子鏈接和主題相關(guān)網(wǎng)頁(yè)文檔存入數據庫,作為今后爬取的經(jīng)驗參考。
2算法介紹
2.1基于SVM分類(lèi)的加權爬取算法
2.1.1SVM分類(lèi)模型
支持向量機(SupportVectorMachine,SVM)是目前分類(lèi)性能最好的模型之一,本文采用支持向量機進(jìn)行事件類(lèi)型判斷。從地理信息變化要素知識庫(詳見(jiàn)3.2.1節)中選擇幾種最常見(jiàn)的特征詞匯作為類(lèi)型關(guān)鍵詞,以這些特征詞匯及其對應的典型要素為基礎收集樣本文檔,使用支持向量機方法進(jìn)行樣本機器學(xué)習,以特征詞匯和典型要素作為觸發(fā)詞,在不影響分類(lèi)精度的情況下提高分類(lèi)效率,最終通過(guò)機器學(xué)習得到一個(gè)分類(lèi)模型。當判斷一條鏈接包含的消息是否屬于主題相關(guān)的范疇時(shí),由于標題往往是一個(gè)文檔包含信息最好的總結,故先判斷這條標題中是否含有之前選擇的特征詞匯之一,如果包含,則對這條鏈接的正文部分使用SVM分類(lèi)模型進(jìn)行分類(lèi),如果分類(lèi)得出的結果與標題中包含的特征詞匯一致,則證明了這條鏈接中確實(shí)包含該特征詞匯所代表的主題相關(guān)內容。這種基于機器學(xué)習和觸發(fā)詞的分類(lèi)方法相比于單純的字符匹配,可以避免字符一致但語(yǔ)意出現歧義的現象,并且有較高的準確率,是一種快速有效的主題相關(guān)度判別方法。系統第一階段是對網(wǎng)站所包含主題信息位置的一種試探,由于SVM分類(lèi)性能有限,只能判斷一篇文本是否屬于某一特征詞匯所代表地理信息范疇,無(wú)法最終確定以特征詞匯和對應典型要素作為主題的內容,所以只選擇幾種最常見(jiàn)的特征詞匯作為分類(lèi)關(guān)鍵詞,作為是否對父鏈接加權的依據。
2.1.2算法描述
爬取過(guò)程采用廣度優(yōu)先的爬取策略,處理中的鏈接分為兩個(gè)隊列:待爬取隊列(Uncrawled)和已爬取隊列(Crawled);首先將種子鏈接集(Seed)加入待爬取隊列,然后解析待爬取隊列中鏈接的源代碼,獲得下一層超鏈接組,對下一層超鏈接組進(jìn)行去重并去除已爬取過(guò)的鏈接,接著(zhù)將待爬取隊列加入已爬取隊列中,下一層超鏈接組加入待爬取隊列中,最后再次解析待爬取隊列,重復上述過(guò)程,直至達到指定條件。廣度優(yōu)先爬蟲(chóng)從種子鏈接出發(fā),以層數為單位進(jìn)行爬取。加權算法思想是將第S層鏈接指定為父鏈接組,其中每條鏈接初始權值為0,F為最大爬取層數;在網(wǎng)頁(yè)爬取的過(guò)程中,對第S+1層至第F層的鏈接調用3.1.1節中提到的SVM分類(lèi)模型進(jìn)行驗證,如果分類(lèi)結果正確,則證明這條鏈接包含一定程度的主題相關(guān)信息,那么其父鏈接所指向的方向,就有可能包含更多與主題相關(guān)的信息,所以找到這條鏈接在S層的父鏈接,令其權值加1;爬取過(guò)程結束后,統計第S層所有父鏈接的權值,選擇權值最大的K條鏈接作為優(yōu)化種子鏈接。這些鏈接相比于初始種子鏈接,指向主題相關(guān)內容的可能性更大,從而提高了整體爬取效率和準確性。S、F、K的取值可以根據實(shí)際網(wǎng)站規模和結構進(jìn)行調整。本算法的偽代碼如算法1所示。
2.2基于知識庫判別的爬取算法
2.2.1知識庫判別方法
本文的應用方向是針對地理信息變化的檢測,在參考《GBT13923-2006基礎地理信息要素分類(lèi)與代碼》中分類(lèi)標準的基礎上,對各類(lèi)別的特征詞匯和典型要素進(jìn)行了總結,形成一個(gè)特征詞匯對應多個(gè)典型要素的地理信息變化要素知識庫;表達形式以特征詞匯和典型要素兩個(gè)關(guān)鍵詞的組合來(lái)表示,例如:路+拓寬,路+通車(chē),河+截流等,以此判斷一個(gè)文本的內容是否屬于地理信息范疇,并確定該文本的主題。具體步驟如下:(1)將待處理的網(wǎng)絡(luò )文本進(jìn)行分句并編號;(2)利用ICTCLAS分詞軟件對所有句子進(jìn)行分詞;(3)從第一句開(kāi)始,檢查被標記為動(dòng)詞的詞匯是否屬于特征詞匯集,如果匹配,則以該動(dòng)詞為中心,以詞匯距離從近到遠的順序遍歷所有被標記為名詞的詞匯,參照知識庫中的特征詞匯和典型要素匹配關(guān)系,如果配對成功,將該名詞和動(dòng)詞作為組合抽取并記錄;(4)遍歷所有句子,找出所有滿(mǎn)足條件的組合。其中,步驟(3)中的提到的關(guān)鍵詞匹配方法,過(guò)程例如圖2所示。需要處理的語(yǔ)句是“鄭州彩虹橋隧道5月通車(chē)將成北區新交通樞紐”,后綴為“/n”代表名詞,“/v”代表動(dòng)詞,首先找到動(dòng)詞“通車(chē)/v”并與知識庫中的典型要素進(jìn)行匹配,成功后以“通車(chē)/v”為中心,以詞匯距離從近到遠的原則分別向左右兩個(gè)方向尋找名詞,向右找到名詞“區/n”后,將“區+通車(chē)”與知識庫進(jìn)行匹配后失敗,向左找到名詞“隧道/n”后,將“隧道+通車(chē)”與知識庫進(jìn)行匹配后成功,因此停止尋找并抽取出“隧道+通車(chē)”的關(guān)鍵詞組合作為這一句話(huà)的主題內容。
2.2.2算法描述
爬取算法依然采用廣度優(yōu)先的爬取策略,對爬取到的每條鏈接使用3.2.1節中的知識庫判別方法,確定相關(guān)信息的主題內容,保存網(wǎng)頁(yè)文檔。
3實(shí)驗測試與性能分析
利用前文介紹的方法,使用適合網(wǎng)絡(luò )編程的Java語(yǔ)言實(shí)現了基礎地理信息更新檢測原型系統,以新浪、網(wǎng)易和騰訊等主流新聞網(wǎng)站作為初始種子鏈接進(jìn)行測試。分詞工具使用中科院設計開(kāi)發(fā)的ICTCLAS分詞軟件,機器學(xué)習使用目前最廣泛應用的LIBSVM工具,由于實(shí)驗設備和網(wǎng)絡(luò )條件有限,回溯過(guò)程中設置初始層S=1,爬取最大層數F=4,回溯后取權值最大的K=2條鏈接作為優(yōu)化種子鏈接。圖3展示了兩種爬蟲(chóng)在爬取相同數量(10000條)鏈接的情況下的整體效率,因為回溯之后再爬取是一個(gè)重復的過(guò)程,也就是為了計算出優(yōu)化種子鏈接而付出的代價(jià),所以比較兩種爬蟲(chóng)的整體效率是為了檢測這個(gè)重復過(guò)程對于整體效率的影響。從圖3可以看出由于回溯過(guò)程,系統整體效率確實(shí)受到了一定的影響,但依舊好于通用的方法,并且在找出一個(gè)網(wǎng)站的優(yōu)化種子鏈接后,今后對于該網(wǎng)站的爬取就可以直接使用優(yōu)化種子鏈接,不再需要進(jìn)行回溯的過(guò)程,所以從總體上來(lái)看,回溯方法造成的效率影響是可以接受的。同樣在爬取相同數量(10000條)鏈接的情況下,正如之前所說(shuō)的,如果不是第一次對某網(wǎng)站進(jìn)行爬取,那么可以直接使用通過(guò)回溯后得到的優(yōu)化種子鏈接為基礎,如圖4所示,這樣找到的主題相關(guān)信息明顯多于通用方法;結合圖3和圖4的實(shí)驗結果可以證明通過(guò)本文提出的回溯方法,確實(shí)可以分析出一個(gè)網(wǎng)站中最有可能包含主題相關(guān)信息的鏈接方向,從而大大提高爬取效率,減少低效率的爬取過(guò)程,從實(shí)驗結果可以看出該方法在各類(lèi)新聞網(wǎng)站中都具有廣泛的可用性,在其他主題方向也具有一定的推廣性。
4結束語(yǔ)
主題網(wǎng)絡(luò )爬蟲(chóng)能夠針對用戶(hù)需求,有效地進(jìn)行特定主題的信息檢索。本文在現有爬取策略和主題相關(guān)度算法的基礎上,提出一種基于鏈接回溯的地理信息更新主題爬蟲(chóng)方法,通過(guò)實(shí)驗證明了本方法確實(shí)可以提高爬取效率,設計并實(shí)現了基礎地理信息更新檢測原型系統,該系統適合于在新聞類(lèi)網(wǎng)站中尋找地理信息更新的消息,后續研究可以考慮在其他主題方向的應用,以及減少回溯過(guò)程的代價(jià)來(lái)提升效率的方法。
【地理信息更新主題爬蟲(chóng)論述論文】相關(guān)文章:
gps在地理信息數據采集和更新方面的應用08-17
電力營(yíng)銷(xiāo)服務(wù)管理問(wèn)題論述的論文10-15
柴油過(guò)濾材料復合方式論述的論文08-15
通信管道設計及規劃論述論文09-25
地理信息系統論文06-22
成本管理觀(guān)念的更新與成本控制新思路論文08-11
論述畢業(yè)論文答辯的目的和意義10-21
國內文化與藝術(shù)設計論述論文10-25