- 相關(guān)推薦
搜索引擎抓取原理
搜索引擎的處理對象是互聯(lián)網(wǎng)網(wǎng)頁(yè),日前網(wǎng)頁(yè)數量以百億計,所以搜索引擎首先面臨的問(wèn)題就是:如何能夠設計出高效的下載系統,以將如此海量的網(wǎng)頁(yè)數據傳送到本地,在本地形成互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏡像備份。下面是YJBYS小編整理的搜索引擎抓取原理,希望對你有幫助!
搜索引擎工作的第一大特點(diǎn)就是爬行抓取,就是盡可能的把需要抓取的信息都抓取回來(lái)進(jìn)行處理分析,因此爬行抓取的的工作方式也是搜索引擎正常高效工作方式的第一步,爬行抓取的成功也是所有網(wǎng)絡(luò )資源能夠有效正常展示給訪(fǎng)客的前提,所以這一步如果出現異常,那么將導致搜索引擎后續的工作都無(wú)法進(jìn)行展開(kāi)。
大家可以回憶一下我們在想要搜索一個(gè)東西時(shí),首先會(huì )在百度搜索框輸入我們要找的關(guān)鍵詞,而結果頁(yè)會(huì )出現眾多與關(guān)鍵詞有關(guān)信息,而在這個(gè)從搜索到展現的過(guò)程是以秒為單位來(lái)進(jìn)行計算的。舉這個(gè)例子大家是否已經(jīng)明白,搜索引擎能在1秒鐘之內把所查詢(xún)的與關(guān)鍵詞有關(guān)的信息從豐富的互聯(lián)網(wǎng)中逐一抓取一遍,能有如此高的工作效率,還還是歸結為搜索引擎在事先都已經(jīng)處理好了這部分數據的原因。
再例如我們平時(shí)上網(wǎng)隨便打開(kāi)一個(gè)網(wǎng)頁(yè)也是在1秒鐘之內打開(kāi),這雖然僅僅是打開(kāi)一個(gè)網(wǎng)頁(yè)的時(shí)間,但是搜索引擎在以秒計算的情況并不可能把互聯(lián)網(wǎng)上的所有信息都查詢(xún)一遍,這不僅費時(shí)費力也費錢(qián)。 因此我們不難發(fā)現現在的搜索引擎都是事先已經(jīng)處理好了所要抓取的網(wǎng)頁(yè)。而搜索引擎在搜集信息的工作中也都是按照一定的規律來(lái)進(jìn)行的,簡(jiǎn)單的我們可以總結以下兩種特點(diǎn)。
第一、批量收集:對互聯(lián)網(wǎng)上所有的存在鏈接的網(wǎng)頁(yè)信息都收集一遍,在這個(gè)收集的過(guò)程中可能會(huì )耗很長(cháng)一段時(shí)間,同時(shí)也會(huì )增加不少額外的帶寬消耗,時(shí)效性也大大降低,但是這作為搜索引擎的重要的一步,還是一如既往的正常的去收集。
第二、增量收集:這可以簡(jiǎn)單的理解是批量收集的一個(gè)高潔階段,最大可能的彌補了批量收集的短處和缺點(diǎn)。在批量搜集的基礎上搜集新增加的網(wǎng)頁(yè)內容信息,再變更上次收集之后產(chǎn)生過(guò)改變的頁(yè)面,刪除收集重復和不存在的網(wǎng)頁(yè)。
【搜索引擎抓取原理】相關(guān)文章:
搜索引擎原理詳解06-11
淺析搜索引擎投票優(yōu)化方式原理10-26
淺談搜索引擎收錄的三大原理08-08
php如何抓取https的內容的代碼08-06
網(wǎng)站如何吸引蜘蛛對頁(yè)面的抓取?07-17
蜘蛛抓取網(wǎng)站如何提高網(wǎng)站權重09-26
提高百度蜘蛛抓取量的方法08-15
吸引百度蜘蛛對網(wǎng)站抓取的技巧10-06
百度蜘蛛對文章抓取的喜好分析05-07