激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

VFP技術(shù)在網(wǎng)頁(yè)數據采集中開(kāi)發(fā)的方向分析

時(shí)間:2024-06-03 03:25:11 論文范文 我要投稿

VFP技術(shù)在網(wǎng)頁(yè)數據采集中開(kāi)發(fā)的方向分析

  隨著(zhù)信息技術(shù)對高校教育發(fā)展的變革,數字化資源建設在高校學(xué)習資源建設,構建學(xué)習型組織中扮演著(zhù)重要角色。數字資源建設是滿(mǎn)足現代化教學(xué)所需的一項重要教學(xué)基礎資源,是學(xué)校、教師和學(xué)生進(jìn)行學(xué)習,交流,分享,創(chuàng )新的重要原動(dòng)力。各高校都把數字化資源建設當作重點(diǎn)工作開(kāi)展。然而不少高校面臨著(zhù)數字資源建設經(jīng)費不足,除了購置外部資源外,同時(shí)也要內部開(kāi)發(fā)一些數字資源。對于數字資源的建設,各高校的數字資源建設有共性需求,也有個(gè)性的需求,并非外部采購能夠解決。在這樣的前提下,筆者嘗試運用Visual FoxPro(以下簡(jiǎn)稱(chēng)VFP)技術(shù)構建可采集網(wǎng)頁(yè)數據的系統,用以采集無(wú)版權問(wèn)題的在線(xiàn)學(xué)習資源,將不同來(lái)源的學(xué)習資源匯聚于同一數據庫,來(lái)構建主題數字資源庫。

  1、高校數字化資源采集需要VFP技術(shù)

  1.1 滿(mǎn)足基礎服務(wù)需求的角度選型

  從提供基礎服務(wù)角度看,選用何種技術(shù)進(jìn)行開(kāi)發(fā)首先是從需求出發(fā),是否能滿(mǎn)足實(shí)際工作需要,系統是否能運行穩定、高效。而不僅僅是追求先進(jìn)性。并非最先進(jìn)的就是最能滿(mǎn)足需要的。筆者進(jìn)行的數據采集只是數字資源建設前期的數據整理階段的階段性的工具,在時(shí)間節點(diǎn)范圍能能夠滿(mǎn)足高校對數據的抓取工作。因此,在需求明確導向前提下,用最經(jīng)濟的手段來(lái)實(shí)現基礎服務(wù)的穩定和高效運行是最合理的。VFP兼有開(kāi)發(fā)工具和數據庫兩方面特征,能夠做到與操作與數據的無(wú)縫銜接,在前期的數據采集與整理上完全能夠滿(mǎn)足用戶(hù)需求。

  1.2 存量用戶(hù)與技術(shù)衍生性

  VFP數據庫在過(guò)去十年中在高校的普及應用率較高,不少教學(xué)服務(wù)部門(mén)的管理系統都是基于VFP開(kāi)發(fā)的,如不少高校的教務(wù)系統,學(xué)工系統都是基于VFP開(kāi)發(fā)等。因此,高校中的VFP存量用戶(hù)較多,在新系統建設中,首先要考慮的系統對接的兼容性,后續增加的系統最好能和之前的系統能夠無(wú)縫對接。而且,由于VFP的簡(jiǎn)單易學(xué),在系統使用和維護中,不少老師也逐漸摸索、學(xué)習,逐漸掌握了 VFP的基礎開(kāi)發(fā)技能。因此,VFP來(lái)開(kāi)發(fā)數據采集系統是一個(gè)可以被應用環(huán)境接受和用戶(hù)認可的工具。

  1.3 VFP自身的技術(shù)優(yōu)勢

  VFP是開(kāi)發(fā)工具同時(shí)其本身也是數據庫。VFP數據庫發(fā)展到現在已經(jīng)相當成熟,VFP系統小巧,相比Oracle等數據庫,其不會(huì )占用太多的存儲空間。相比其他數據庫,VFP的應用程序開(kāi)發(fā)的效率較高,相比一些開(kāi)發(fā)語(yǔ)言,VFP本身強大的查詢(xún)功能。所以VFP是集開(kāi)發(fā)和數據庫的綜合體,簡(jiǎn)單易學(xué),操作靈活。同時(shí),VFP互操作性和對網(wǎng)絡(luò )支持性較強。

  2、網(wǎng)頁(yè)數據采集系統設計

  2.1 VFP技術(shù)介紹

  VFP是Microsoft公司推出的數據庫開(kāi)發(fā)軟件,提供多種可視化編程工具,最突出的是面向對象編程。支持結構化查詢(xún)語(yǔ)言(SQL)命令和函數。由于其函數豐富、靈活方便、問(wèn)世較早,在國內一段時(shí)期廣為流行。目前最新的版本是9.0。時(shí)至今日,由于其穩定高效、易學(xué)易用,仍有大批高校將其作為小型數據庫使用,不少網(wǎng)絡(luò )教學(xué)管理系統前臺軟件也選用VFP開(kāi)發(fā)。

  2.2 系統設計目標

  我們將VFP開(kāi)發(fā)的網(wǎng)頁(yè)數據采集系統應用于學(xué)校數字化資源建設子項目——開(kāi)源版權的學(xué)習視頻內容的采集,具體來(lái)說(shuō),是針對國外多所名校提供的開(kāi)源版權視頻源網(wǎng)址進(jìn)行分析和數據爬取,最終將開(kāi)源版權的文字和視頻數據提取、索引并保存入學(xué)校的資源庫。

  2.3 系統功能結構

  VFP開(kāi)發(fā)的網(wǎng)頁(yè)數據采集系統采用了模塊化的設計,它由一些核部件和插件模塊構成。核心部件可以配置,系統部件由管理控制臺、抓取順序控制器、中央控制器、流控制處理器、多線(xiàn)程控制組成。管理控制臺允許操作者進(jìn)行參數設置和任務(wù)管理。抓取順序控制器控制爬取活動(dòng)的排序和相關(guān)屬性。抓取任務(wù)通過(guò)排序后將任務(wù)信息傳遞給中央控制器進(jìn)行初始化。中央控制器吞吐隊列的URL信息和完成的URL 信息,并將任務(wù)指令傳遞給采集工作的核心工作區——流控制處理器。核流控制處理器的任務(wù)處理是呈流式運作的,包括預讀、提取和寫(xiě)入三個(gè)部分。流控制處理器的工作是多線(xiàn)程了,保證了整個(gè)采集的高效率。

  在采集的核心工作區——在流控制處理器中,工作的流程是這樣的:首先在接到中心控制器傳送來(lái)的隊列URL后,開(kāi)始預讀,預讀主要是做一些預處理工作,對處理進(jìn)行延遲和重新處理。接著(zhù),進(jìn)行提取工作,提取主要是獲得http資源,進(jìn)行ip轉換,發(fā)出http頭請求和接收響應,進(jìn)而抽取目標HTML的標簽。最后進(jìn)行寫(xiě)入,寫(xiě)入的工作是存儲爬取日志,返回爬取到的內容和抽取特性,過(guò)濾并作寫(xiě)存儲的動(dòng)作。這一流程完成后,流控制處理器會(huì )提交完成的URL給中央控制器,做最后的維護。

  3、系統實(shí)現

  3.1 程序運行的硬件環(huán)境

  操作系統為Microsoft Windows XP或更高,內存為1G或更高,硬盤(pán)占用約230MB,數據爬取采用4MB ADSL寬帶。

  3.2 核心程序節錄

  3.3 實(shí)驗結論

  我們將VFP開(kāi)發(fā)的網(wǎng)頁(yè)數據采集系統應用于學(xué)校數字化資源建設子項目——開(kāi)源版權的學(xué)習視頻內容的采集,針對國外多所名校提供的開(kāi)源版權視頻源網(wǎng)址進(jìn)行分析和數據爬取,并測試VFP開(kāi)發(fā)的網(wǎng)頁(yè)數據采集系統的性能,為后續的改進(jìn)提供測試。我們確立四個(gè)指標,從數據采集的正確率、召回率、覆蓋率和程序效率四個(gè)方面進(jìn)行測試。正確率是指VFP開(kāi)發(fā)的網(wǎng)頁(yè)數據采集系統能否正確的提取URL,正確率越高,爬取的效果越好;召回率是指程序爬蟲(chóng)探測到的數據與能夠爬取回來(lái)的數據的比值,召回率越高,爬蟲(chóng)的效果越好。覆蓋率是指對指定網(wǎng)站采集的覆蓋率,覆蓋率要全;程序的效率是說(shuō)VFP開(kāi)發(fā)的網(wǎng)頁(yè)數據采集系統采集的速度和穩定性。經(jīng)過(guò)全天24小時(shí)無(wú)故障,不間斷的運行,累計采集網(wǎng)頁(yè)數據300多萬(wàn)頁(yè)。數據采集的正確率、召回率、覆蓋率和程序效率均得到理想的效果。

  4、結束語(yǔ)

  本文闡述了一個(gè)基于VFP技術(shù)的網(wǎng)頁(yè)數據采集爬蟲(chóng)的一種工作流程和爬行算法,從鏈接和網(wǎng)頁(yè)內容的分析和提取進(jìn)行爬行控制,給出了具體實(shí)施的核心程序,測試結果比較滿(mǎn)意;赩FP技術(shù)的網(wǎng)頁(yè)數據采集系統本身雖然屬于輕量級,但針對高校數字化資源建設的需求現狀,本文提出解決方案經(jīng)過(guò)證明,能夠高效的完成網(wǎng)頁(yè)數據采集,是一種經(jīng)濟、實(shí)用、穩定和高效的網(wǎng)頁(yè)數據采集方案。其對高校的數字化資源建設起重要作用。但是本系統的性能仍需提高,尤其在URL的優(yōu)先權選擇上需要進(jìn)一步改進(jìn)。

  參考文獻:

  [1]張敏,孫敏.基于Heritrix限定爬蟲(chóng)的設計與實(shí)現[J].計算機應用與軟件,2013,30(4):33-35.

  [2]王永國,張士江,謝倩.基于Visual FoxPro環(huán)境ACCESS數據庫操作的實(shí)現[J].計算機技術(shù)與發(fā)展,2011,21(1):95-99.

  [3]孫庚,馮艷紅,于紅,史鵬輝.一種基于Heritrix的網(wǎng)絡(luò )定題爬蟲(chóng)算法——以漁業(yè)信息網(wǎng)絡(luò )為例[J].軟件導刊,2010,9(5):47-49.

  [4]王映,于滿(mǎn)泉,李盛韜,王斌,余智華.JavaScript引擎在動(dòng)態(tài)網(wǎng)頁(yè)采集技術(shù)中的應用[J].計算機應用,2004,24(2):33-36.

  [5]馬愛(ài)芳,仲少云.基于VFP的資料室圖書(shū)管理系統的設計[J].現代情報,2004,(3):104-108.

【VFP技術(shù)在網(wǎng)頁(yè)數據采集中開(kāi)發(fā)的方向分析】相關(guān)文章:

大數據技術(shù)在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的策略研究論文01-23

員工培訓與開(kāi)發(fā)方向開(kāi)題報告05-04

XML技術(shù)在網(wǎng)絡(luò )招生中的應用03-29

試論基于數據挖掘技術(shù)的保護設備故障信息管理與分析系統12-05

市場(chǎng)營(yíng)銷(xiāo)在網(wǎng)絡(luò )經(jīng)濟中的研究分析12-11

企業(yè)能耗數據采集軟件的設計與開(kāi)發(fā)論文02-21

數據挖掘與客戶(hù)關(guān)系管理分析02-28

數據挖掘技術(shù)在高校學(xué)生成績(jì)分析中的應用研究論文03-15

改進(jìn)標號法在網(wǎng)絡(luò )計劃技術(shù)中的應用的論文03-17

  • 相關(guān)推薦
激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频