阿里巴巴筆試考點(diǎn)
C++:1.關(guān)于DOM的描述;2.網(wǎng)絡(luò )蜘蛛系統;3.UTF-8;4.數據庫檢索:查準率和查全率;5.索引壓縮;6.設計cralwer;7.Trie樹(shù)查詢(xún);8.HTML&HTTP協(xié)議;9.信息檢索模型;10.分布式通信協(xié)議;11.分布式搜索引擎;12.雙向循環(huán)鏈表;13.快速排序;14.32位系統。
關(guān)于DOM的描述:
javascrip里面的dom(文檔對象模型)它是一種模型,將格式化文檔對象化處理。在xml和html 的處理中廣泛應用。 //dom是定義超文本結構的對象及方法,分層次的,有容器類(lèi)的對象,也有基本元素對象,而這些對象,都包含有相應的屬性和對應的操作方法(接口)。
//一般而言,DOM結構準確地反映了HTML文檔所包含的內容,也就是說(shuō),每個(gè)HTML標記表現為一個(gè)標記節點(diǎn)(tag node),每個(gè)文本項內容表現為一個(gè)文本項節點(diǎn)(text node)。//是W3C組織推薦的處理可擴展置標語(yǔ)言的標準編程接口。
2. 網(wǎng)絡(luò )蜘蛛系統
網(wǎng)絡(luò )蜘蛛即Web Spider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來(lái)爬去的蜘蛛。網(wǎng)絡(luò )蜘蛛是通過(guò)網(wǎng)頁(yè)的.鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò )蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。
對于搜索引擎來(lái)說(shuō),要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)幾乎是不可能的,從目前公布的數據來(lái)看,容量最大的搜索引擎也不過(guò)是抓取了整個(gè)網(wǎng)頁(yè)數量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸,無(wú)法遍歷所有的網(wǎng)頁(yè),有許多網(wǎng)頁(yè)無(wú)法從其它網(wǎng)頁(yè)的鏈接中找到;另一個(gè)原因是存儲技術(shù)和處理技術(shù)的問(wèn)題,
在抓取網(wǎng)頁(yè)的時(shí)候,網(wǎng)絡(luò )蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先(如下圖所示)。廣度優(yōu)先是指網(wǎng)絡(luò )蜘蛛會(huì )先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。這是最常用的方式,因為這個(gè)方法可以讓網(wǎng)絡(luò )蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò )蜘蛛會(huì )從起始頁(yè)開(kāi)始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線(xiàn)路之后再轉入下一個(gè)起始頁(yè),繼續跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò )蜘蛛在設計的時(shí)候比較容易。兩種策略的區別,下圖的說(shuō)明會(huì )更加明確。
在網(wǎng)絡(luò )蜘蛛機器人系統里面,真正起指揮作用的是人工管理系統制定的規則和檢索索引數據庫。它可以決定什么樣的網(wǎng)站抓的勤一點(diǎn),或者干脆不抓.
3. UTF-8
使用UTF-8編碼唯一的好處是,國外的用戶(hù)如果使用Windows XP英文版,瀏覽UTF-8編碼的任何網(wǎng)頁(yè),無(wú)論是中文、還是日文、韓文、阿拉伯文,都可以正常顯示,UTF-8是世界通用的語(yǔ)言編碼,UTF-8的推廣要歸功于Google的應用,以及Blog開(kāi)發(fā)者。而如果用Windows XP英文版的IE6.0瀏覽gb2312語(yǔ)言編碼的網(wǎng)頁(yè),則會(huì )提示是否安裝語(yǔ)言包。因此,可能會(huì )失去很多的國外瀏覽者。 使用gb2312編碼的好處是,因為程序產(chǎn)生的網(wǎng)頁(yè)文本使用ANSI編碼格式,會(huì )比UTF-8文本編碼節省一些體積,訪(fǎng)問(wèn)速度會(huì )稍微快一點(diǎn)點(diǎn),大約是30:38的比例,也就是30K的ANSI編碼,轉為UTF-8編碼是38K,當然,這個(gè)比例并不準確,是會(huì )隨Unicode字符集區域的不同而變化的。
【阿里巴巴筆試考點(diǎn)】相關(guān)文章:
阿里巴巴Java筆試題11-09
阿里巴巴程序筆試題01-16
阿里巴巴軟件測試常見(jiàn)筆試題10-27
哈爾濱阿里巴巴經(jīng)典筆試題目10-16
阿里巴巴筆試題練習題07-20
阿里巴巴2016校招筆試題11-02
阿里巴巴校園招聘筆試題目分享12-07
2017阿里巴巴實(shí)習生筆試題07-22
阿里巴巴招募實(shí)習生筆試題目12-17