激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

淺析搜索引擎的原理及發(fā)展前景

  • 相關(guān)推薦

淺析搜索引擎的原理及發(fā)展前景

淺析搜索引擎的原理及發(fā)展前景 文章簡(jiǎn)述搜索引擎定義和服務(wù)方式,及搜索引擎的發(fā)展、工作原理和性能指標,分析了搜索引擎面臨的挑戰,并對特色搜索引擎進(jìn)行了簡(jiǎn)要的闡述。
搜索引擎;信息檢索

信息技術(shù)的不斷發(fā)展,特別是互聯(lián)網(wǎng)應用的迅速普及,深入到了人們生活的各個(gè)方面,改變了人們生活方式和思維方式,方便了全球信息資源共享。全球目前的網(wǎng)頁(yè)超過(guò)100億,每天新增加數百萬(wàn)網(wǎng)頁(yè),電子信息爆炸似的豐富起來(lái)。要在如此浩瀚的海洋里尋找信息,就像“大海撈針”一樣。能有一種工具使我們可以在不到1秒鐘的時(shí)間就迅速找到我們想要的內容嗎?答案是“有”,這就是搜索引擎。今天,搜索引擎已成為人們在網(wǎng)絡(luò )信息海洋中自如沖浪必不可少的利器。
搜索引擎(Search Engines)就是指在WWW(World Wide Web)環(huán)境中能夠響應用戶(hù)提交的搜索請求,返回相應的查詢(xún)結果信息的技術(shù)和系統,是互聯(lián)網(wǎng)上的可以查詢(xún)網(wǎng)站或網(wǎng)頁(yè)信息的工具。它包括信息搜集、信息整理和用戶(hù)查詢(xún)三部分。搜索引擎的服務(wù)方式分為兩種:目錄服務(wù)和關(guān)鍵字檢索服務(wù)。目錄服務(wù)是由分類(lèi)專(zhuān)家將網(wǎng)絡(luò )信息按照主題分成若干個(gè)大類(lèi),用戶(hù)可以根據分類(lèi)清晰地找到自己所需要的內容。關(guān)鍵字檢索服務(wù)可以查找包含一個(gè)或多個(gè)特定關(guān)鍵字或詞組的WWW站點(diǎn)。搜索引擎是互聯(lián)網(wǎng)的第二大核心技術(shù),涉及到信息檢索、人工智能、計算機網(wǎng)絡(luò )、分布式處理、數據庫、數據挖掘、數字圖書(shū)館、自然語(yǔ)言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰性。
1搜索引擎的發(fā)展
1990年以前,沒(méi)有任何人能實(shí)現搜索互聯(lián)網(wǎng)的功能;ヂ(lián)網(wǎng)發(fā)展早期,信息量較少,互聯(lián)網(wǎng)用戶(hù)多為專(zhuān)業(yè)人士,那時(shí)查找信息要相對容易。伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò )用戶(hù)想找到所需的資料簡(jiǎn)直如同大海撈針,這時(shí)為滿(mǎn)足大眾信息檢索需求的搜索引擎便應運而生了。所有搜索引擎的祖先,都可以追溯到1990年由蒙特利爾McGill大學(xué)學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明的Archie(Archie FAQ)。雖然當時(shí)World Wide Web還未出現,但因為當時(shí)網(wǎng)絡(luò )的主要用途是傳輸文件,網(wǎng)絡(luò )中的文件傳輸還是相當頻繁。由于大量的文件散布在各個(gè)分散的FTP主機中,查詢(xún)起來(lái)非常不便,因此Alan Emtage想到了開(kāi)發(fā)一個(gè)可以以文件名查找文件的系統,于是便有了Archie。
1993年,美國內華達System Computing Services大學(xué)開(kāi)發(fā)了一個(gè)與Archie非常相似的搜索工具,這個(gè)搜索工具既能夠檢索文件也能夠檢索網(wǎng)頁(yè)。
1994年4月,斯坦福(Stanford)大學(xué)的兩名博士生,David Filo和美籍華人楊致遠(Gerry Yang)共同創(chuàng )辦了超級目錄索引Yahoo,并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。
1998 年,斯坦福大學(xué)的兩位博士生 Larry Page 和 Sergey Brin 開(kāi)發(fā)出了現在世界上最大的搜索引擎——Google。通過(guò)對 20 多億網(wǎng)頁(yè)進(jìn)行整理,Google 可為世界各地的用戶(hù)提供適需的搜索結果,而且搜索時(shí)間通常不到半秒,F在,Google 每天需要為世界各國用戶(hù)提供 1.5 億次查詢(xún)服務(wù)。
1997年10月29日,北大天網(wǎng)正式在CERNET上向廣大Internet用戶(hù)提供Web信息導航服務(wù),它是由北大計算機系網(wǎng)絡(luò )與分布式系統研究室開(kāi)發(fā)的國家“九五”重點(diǎn)科技攻關(guān)項目“中文編碼和分布式中英文信息發(fā)現”的研究成果,受到學(xué)術(shù)界廣泛好評。
2000年1月,兩位北大校友,前Infoseek資深工程師李彥宏與加州大學(xué)伯克利分校博士后徐勇在北京中關(guān)村創(chuàng )立了百度(Baidu)公司。歷經(jīng)5年的高速發(fā)展后,在近兩年時(shí)間里,百度高居全球網(wǎng)站流量前八名的位置,已經(jīng)成為全球十大網(wǎng)站之一。百度每天接受著(zhù)超過(guò)一億人次來(lái)自各個(gè)方面的內容檢索請求,中國9400萬(wàn)網(wǎng)民幾乎每天使用1次百度!坝袉(wèn)題百度一下”已經(jīng)成為中國網(wǎng)絡(luò )流行語(yǔ)之一。
2002年,中國搜索(原慧聰搜索)正式進(jìn)入中文搜索引擎市場(chǎng)。在一年多的時(shí)間里,就發(fā)展為全球著(zhù)名的中文搜索引擎服務(wù)商,為新浪、搜狐、網(wǎng)易、TOM等知名門(mén)戶(hù)網(wǎng)站提供搜索引擎技術(shù);勐斔阉饕娴膬(yōu)勢是從人工審核網(wǎng)站信息源和設置禁查詞兩個(gè)方面入手,有效地過(guò)濾了不良信息,降低了垃圾信息的含量。在互聯(lián)網(wǎng)實(shí)時(shí)新聞搜索方面,慧聰也實(shí)現了網(wǎng)絡(luò )新聞的實(shí)時(shí)檢索。
2 搜索引擎的工作原理
簡(jiǎn)單的說(shuō),搜索引擎是通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息來(lái)建立數據庫,檢索與用戶(hù)查詢(xún)條件匹配的相關(guān)記錄,然后按一定的排列順序將結果返回給用戶(hù)。
根據搜索引擎提取數據的方法,可將搜索引擎系統可以分為三大類(lèi):
2.1目錄式搜索引擎:是一種網(wǎng)站級搜索引擎。目錄式搜索引擎由分類(lèi)專(zhuān)家將網(wǎng)絡(luò )信息按照主題分成若干個(gè)大類(lèi),每個(gè)大類(lèi)再分為若干個(gè)小類(lèi),依次細分,一般的搜索引擎分類(lèi)體系有五六層,有的甚至十幾層。先由程序自動(dòng)搜集信息,然后由編輯員查看信息,人工形成信息摘要,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。由于目錄式搜索引擎的信息分類(lèi)和信息搜集有人的參與,因此其搜索的準確度是相當高的,缺點(diǎn)是需要人工介入、維護量大、信息量少、信息更新不夠及時(shí)。Yahoo就是這類(lèi)搜索引擎的代表。
2.2機器人搜索引擎:Robot(機器人)一詞大家并不陌生,Computer Robot是指某個(gè)能以人類(lèi)無(wú)法達到的速度不斷重復執行某項任務(wù)的自動(dòng)程序。由于專(zhuān)門(mén)用于檢索信息的Robot程序象蜘蛛(spider)一樣在網(wǎng)絡(luò )間爬來(lái)爬去,因此,搜索引擎的Robot程序被稱(chēng)為spider程序。搜索引擎主動(dòng)派出稱(chēng)為蜘蛛(Spider)的機器人程序定期搜索(比如Google一般是28天),對一定IP地址范圍內的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現新的網(wǎng)站,它會(huì )自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數據庫。該類(lèi)搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預,缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶(hù)必須從結果中進(jìn)行篩選。Google、北大天網(wǎng)、百度(Baidu)就是這類(lèi)搜索引擎的代表。
2.3元搜索引擎:這類(lèi)搜索引擎沒(méi)有自己的數據,而是將用戶(hù)的查詢(xún)請求同時(shí)向多個(gè)預先選定的獨立搜索引擎遞交,將返回的結果進(jìn)行重復排除、重新排序等處理后,作為自己的結果返回給用戶(hù)。優(yōu)點(diǎn)是返回結果的信息量更大、更全,缺點(diǎn)是用戶(hù)需要做更多的篩選。第一個(gè)元搜索引擎,是美國華盛頓大學(xué)碩士生Eric Selberg 和 Oren Etzioni 開(kāi)發(fā)的 Metacrawler。元搜索引擎的搜索效果始終不理想,所以沒(méi)有哪個(gè)元搜索引擎有過(guò)強勢地位。ByteSearch(http://)、Mamma(http://)、Profusion(http://)就是這類(lèi)搜索引擎的代表。
3 搜索引擎的性能指標
搜索引擎的目標就是在非常短的時(shí)間內搜索的信息全面并且準確。傳統信息檢索系統的性能參數——召回率和精度同樣也可以衡量一個(gè)搜索引擎的性能。
召回率是檢索出的相關(guān)文檔數和文檔庫中所有的相關(guān)文檔數的比率,衡量的是檢索系統(搜索引擎)的查全率;精度是檢索出的相關(guān)文檔數與檢索出的文檔總數的比率,衡量的是檢索系統(搜索引擎)的查準率。對于一個(gè)檢索系統來(lái)講,召回率和精度不可能兩全其美:召回率高時(shí),精度低;精度高時(shí),召回率低。因為沒(méi)有一個(gè)搜索引擎系統能夠搜集到所有的WEB網(wǎng)頁(yè),所以召回率很難計算。對于網(wǎng)民來(lái)說(shuō),互聯(lián)網(wǎng)上的信息不是不夠,而是“過(guò)!,如何精確查找到信息是大家所關(guān)心的問(wèn)題。因此,目前的搜索引擎系統都非常關(guān)心精度。
4 搜索引擎面臨的挑戰
目前搜索引擎是網(wǎng)絡(luò )上被使用頻率最高的服務(wù)項目之一。隨著(zhù)Internet的強勢發(fā)展,網(wǎng)上龐大的數字化信息和人們獲取所需信息能力之間的矛盾日益突出。國際數據公司(IDC)曾公布的一份報告表明,被大肆宣傳為“使用簡(jiǎn)便易用,搜索結果豐富”的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因為大多數搜索系統的表現與用戶(hù)的期望值相差太大,諸如數據量高速增長(cháng)的視頻、音頻等多媒體信息的檢索,現在仍然是無(wú)法突破的難題。搜索引擎越來(lái)越不能滿(mǎn)足挑剔的網(wǎng)民們的各種信息需求,這表現在以下幾個(gè)方面:
收集的網(wǎng)頁(yè)數量和其數據庫的更新速度存在著(zhù)不可調和的矛盾。用戶(hù)經(jīng)常無(wú)法打開(kāi)查詢(xún)的結果。網(wǎng)絡(luò )信息時(shí)刻變動(dòng),實(shí)時(shí)搜索幾乎不可能。就是剛剛瀏覽過(guò)的網(wǎng)頁(yè),也隨時(shí)都有更新、過(guò)期、刪除的可能。網(wǎng)絡(luò )信息收集與整理是搜索引擎工作的重要一部分。搜索引擎需要定期不斷地訪(fǎng)問(wèn)網(wǎng)絡(luò )資源。目前網(wǎng)絡(luò )帶寬不足,網(wǎng)絡(luò )速度不夠理想,遍歷如此龐雜的網(wǎng)絡(luò )時(shí)間花費是非常龐大的,這就是不能實(shí)時(shí)搜索的原因。

下一頁(yè)

【淺析搜索引擎的原理及發(fā)展前景】相關(guān)文章:

淺析數據通信的發(fā)展前景03-22

淺析鋼結構防火涂料防火原理03-19

鋼結構防火涂料防火原理淺析03-04

淺析旋挖樁工藝在蘇州地區的應用和發(fā)展前景03-18

淺析運用藝術(shù)學(xué)原理談呼吸在歌唱中的作用12-05

淺析高!秶H貿易原理課》雙語(yǔ)教學(xué)模式探析03-18

搜索引擎技術(shù)及趨勢11-21

淺析基于應用型人才培養的單片機原理教學(xué)改革研究03-01

CPM搜索引擎的設計與實(shí)現03-08

激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频