激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

Web結構挖掘在電子商務(wù)網(wǎng)站結構優(yōu)化中的應用

時(shí)間:2024-06-20 09:04:18 電子商務(wù)畢業(yè)論文 我要投稿
  • 相關(guān)推薦

Web結構挖掘在電子商務(wù)網(wǎng)站結構優(yōu)化中的應用

[摘要] 本文概述了Web結構挖掘技術(shù)并描述了其常見(jiàn)算法。針對Web結構挖掘算法,提出了進(jìn)步網(wǎng)站結構公道性的對策。使用戶(hù)通過(guò)優(yōu)化網(wǎng)站結構來(lái)獲取更多有效客戶(hù),擴大網(wǎng)站影響力,從而提升網(wǎng)站價(jià)值。
  [關(guān)鍵詞] Web結構挖掘 網(wǎng)站結構 超鏈接 PageRank HITS
  
  一、前言
  網(wǎng)站的推廣對電子商務(wù)網(wǎng)站而言尤為重要。網(wǎng)站在常用搜索引擎上的排名會(huì )直接影響到網(wǎng)站的推廣和網(wǎng)站的運營(yíng)效果。因網(wǎng)站的結構不同,即使內容相同,外觀(guān)相同的網(wǎng)站,在常用搜索引擎中的排名也會(huì )不同。網(wǎng)站結構是否公道會(huì )影響到搜索引擎在網(wǎng)站頁(yè)面上抓取的結果,從而影響到網(wǎng)站的排名。在實(shí)際應用中,常使用PR(Page Rank)值來(lái)判定網(wǎng)站結構是否公道, PR值越高說(shuō)明網(wǎng)站結構越公道,搜索引擎就會(huì )收錄該網(wǎng)站更多的頁(yè)面,為網(wǎng)站帶來(lái)更多的流量。因此,進(jìn)步網(wǎng)站結構的公道性,獲取更高的PR值就顯得尤為重要。只有用網(wǎng)站結構優(yōu)化的理念往設計網(wǎng)站,才有可能設計一個(gè)成功的網(wǎng)站;赪eb的數據挖掘技術(shù)中的Web結構挖掘( Web Structure Mining)則是判定網(wǎng)站結構是否公道的一個(gè)有效方法。使用Web結構挖掘方法可以進(jìn)步網(wǎng)站結構的公道性,增加網(wǎng)站的PR值,擴大網(wǎng)站的流量。
  二、Web結構挖掘的概念
  基于Web的數據挖掘是指使用數據挖掘技術(shù)在Web數據中發(fā)現潛伏的、有用的模式或信息;赪eb的數據挖掘一般可以分為三類(lèi):Web內容挖掘(Web Content Mining)、 Web結構挖掘( Web Structure Mining)及 Web 用法挖掘(Web Usage Mining)。其中Web 結構挖掘是對Web 的鏈接結構進(jìn)行分析, 以對超鏈接分析來(lái)評估Web 資源, 從而發(fā)現有用模式, 進(jìn)步搜索質(zhì)量及進(jìn)步網(wǎng)站被抓取的可能性。Web結構包括不同網(wǎng)頁(yè)之間的超鏈接結構和網(wǎng)頁(yè)內部用HTML,XML表示的樹(shù)形結構,以及文檔URL中的目錄路徑結構等。Web頁(yè)面之間的鏈接結構中包含了很多有用的信息,Web結構挖掘是從Web結構中推導知識,即對Web文檔的結構進(jìn)行挖掘,挖掘Web潛伏的鏈接結構模式,通過(guò)分析網(wǎng)頁(yè)間鏈接數目及對象來(lái)建立網(wǎng)站自身的鏈接結構模式。
  Web結構挖掘的基本思想是將Web看成是一個(gè)巨大的以Web頁(yè)面為節點(diǎn)、頁(yè)面之間超鏈接為有向邊所構成的一個(gè)網(wǎng)狀結構的有向圖,然后利用圖論對Web的拓撲結構進(jìn)行分析,從而確定其網(wǎng)站結構的公道性。
  Web結構挖掘的算法一般可分為查詢(xún)相關(guān)算法和查詢(xún)無(wú)關(guān)算法兩類(lèi)。HITS( Hypertext Induced Topic Search)和PageRank分別是查詢(xún)相關(guān)算法和查詢(xún)無(wú)關(guān)算法的代表。這些算法已經(jīng)在實(shí)際的系統中實(shí)現和使用,并且取得了良好的效果。
  三、Web結構挖掘算法描述
  基于超鏈接分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其他一些學(xué)者也相繼提出了另外的鏈接分析算法,如SALSA,PHITS,Bayesian等算法。對超鏈接進(jìn)行挖掘的兩個(gè)典型的算法是:PageRank算法及HITS算法。
  1.PageRank算法
  PageRank算法是Web超鏈接結構分析中最成功的代表之一,該算法是評價(jià)網(wǎng)頁(yè)權威性的一種重要工具。Google、Yahoo、Baidu等都是基于該算法的搜索引擎。PageRank算法基于2個(gè)條件,一是若網(wǎng)頁(yè)A被多次引用,則A重要;若 A被重要網(wǎng)頁(yè)B引用,則A重要;B的重要性被均勻的傳遞到它所引用的網(wǎng)頁(yè)。二是若用戶(hù)訪(fǎng)問(wèn)網(wǎng)頁(yè)A,然后跟隨A的導出鏈接向后瀏覽網(wǎng)頁(yè)B而不退回A,那么瀏覽B的概率就是B的PageRank值。
  PageRank在具體實(shí)現時(shí)會(huì )忽略掉頁(yè)面的文本和其他內容,只考慮頁(yè)面間的超鏈接。但由于網(wǎng)頁(yè)的鏈接范圍領(lǐng)域很廣,鏈接的頁(yè)面價(jià)值參差不齊,所以?xún)H以簡(jiǎn)單的鏈接數目來(lái)判定網(wǎng)頁(yè)的重要性是不真實(shí)客觀(guān)的,所以其他研究者對PageRank算法提出了改進(jìn)。改進(jìn)的PageRank算法不僅考慮了網(wǎng)頁(yè)引用數目,還根據頁(yè)面的導進(jìn)鏈接的權重來(lái)計算頁(yè)面的重要性。頁(yè)面導進(jìn)鏈接的權重由鏈接提供頁(yè)面的重要性所決定,即當前頁(yè)面的重要性主要由其他頁(yè)面的重要性來(lái)決定,PageRank算法就是從鏈接結構中獲取網(wǎng)頁(yè)的重要性。
  簡(jiǎn)單PageRank算法描述如下:
  PR(A) = (1-d) / N d (PR(T1)/C(T1) ... PR(Tn)/C(Tn))
  其中:PR(A):頁(yè)面A的PR值,
  PR(Ti):頁(yè)面Ti的PR值,頁(yè)面Ti鏈向頁(yè)面A
  C(Ti):頁(yè)面Ti鏈出的鏈接數目
  d:阻尼系數,取值在0-1之間
  N:互聯(lián)網(wǎng)上所有網(wǎng)頁(yè)的數目
  由此可見(jiàn),PageRank算法不以站點(diǎn)排序,頁(yè)面PR值由獨立的頁(yè)面決定。頁(yè)面的PR值由鏈向它的頁(yè)面的PR值決定,但每個(gè)鏈進(jìn)頁(yè)面的貢獻值是不同的。假如Ti頁(yè)面中鏈出越多,它對當前頁(yè)面A的貢獻就越小。A的鏈進(jìn)頁(yè)面越多,其PR值也越高。阻尼系數的使用,減少了其他頁(yè)面對當前頁(yè)面A的排序貢獻。所有頁(yè)面的PR值形成了一個(gè)概率分布,所有頁(yè)面的PR值之和為1。
  簡(jiǎn)單PageRank算法也可以用矩陣來(lái)描述,設T為一個(gè)矩陣,T的行和列對應頁(yè)面集的頁(yè)面。PageRank的算法是將T的行和列互換后得到的矩陣A。為了將各列矢量的總和變成1(全概率),把各個(gè)列矢量除以各自的鏈接數(非零要素數), 即假如網(wǎng)頁(yè)i有指向網(wǎng)頁(yè)j的一個(gè)鏈接,則Aij=1/Ni,否則Aij=0,就形成了一個(gè) “推移概率行列”,各個(gè)行矢量表示頁(yè)面間的推移概率。由T顛倒得到A的理由是,PageRank 并非重視“鏈接到多少地方”而是重視“被多少地方鏈接”。PR值的計算,就是求屬于這個(gè)推移概率行列最大特性值的固有矢量。
  2.HITS算法
  HITS算法綜合權衡了查詢(xún)內容與頁(yè)面鏈接的關(guān)系。HITS算法以為網(wǎng)頁(yè)的重要性依靠于用戶(hù)提出的查詢(xún)請求。HITS算法通過(guò)兩個(gè)評價(jià)權值——內容權威度(Authority)和鏈接權威度(Hub)來(lái)對網(wǎng)頁(yè)質(zhì)量進(jìn)行評估。內容權威度與網(wǎng)頁(yè)自身直接提供內容信息的質(zhì)量相關(guān),被越多網(wǎng)頁(yè)所引用的網(wǎng)頁(yè),其內容權威度越高;鏈接權威度與網(wǎng)頁(yè)提供的超鏈接頁(yè)面的質(zhì)量相關(guān),引用越多高質(zhì)量頁(yè)面的網(wǎng)頁(yè),其鏈接權威度越高。HITS算法以為對每一個(gè)網(wǎng)頁(yè)應該將其內容權威度和鏈接權威度分開(kāi)來(lái)考慮,在對網(wǎng)頁(yè)內容權威度做出評價(jià)的基礎上再對頁(yè)面的鏈接權威度進(jìn)行評價(jià),然后給出該頁(yè)面的綜合評價(jià)。
  HITS算法是一個(gè)“迭代—收斂”的過(guò)程,在獲取了一個(gè)與查詢(xún)主題相關(guān)的返回頁(yè)面根集合(Root Set)S后,根據S中的頁(yè)面的鏈接關(guān)系再向集合S中擴充與S中頁(yè)面相鏈接的頁(yè)面, 將S擴展成一個(gè)更大的基礎集合(Base Set)T?蓪看作一個(gè)二分有向圖SG=(V1,V2,E),其中:頂點(diǎn)集Vl:T中的Hub網(wǎng)頁(yè)集;頂點(diǎn)集V2:T中的Authority網(wǎng)頁(yè)集;邊集E: Vl中的網(wǎng)頁(yè)到V2中的網(wǎng)頁(yè)的超鏈接。對V1中的任一個(gè)頂點(diǎn)v,用h(v)表示網(wǎng)頁(yè)v的Hub值,對V2中的頂點(diǎn)u,用a(u)表示網(wǎng)頁(yè)的Authority值。開(kāi)始時(shí)h(v)=a(u)=1,對u執行I操縱修改它的a(u),對v執行O操縱修改它的h(v),然后規范化a(u),h(v),如此不斷的重復計算下面的操縱I,O,直到a(u),h(v)收斂。
  I 操縱:(1)
  O操縱:(2)
  每次迭代后需要對a(u),h(v)進(jìn)行規范化處理:
  
  式(1)反映了若一個(gè)網(wǎng)頁(yè)由很多好的Hub指向,則其權威值會(huì )相應增加(即權威值增加為所有指向它的網(wǎng)頁(yè)的現有Hub值之和)。式(2)反映了若一個(gè)網(wǎng)頁(yè)指向很多好的權威頁(yè),則Hub值也會(huì )相應增加(即Hub值增加為該網(wǎng)頁(yè)鏈接的所有網(wǎng)頁(yè)的權威值之和)。HITS算法輸出一組具有較大Hub值的網(wǎng)頁(yè)和具有較大權威值的網(wǎng)頁(yè)。
  HITS算法存在的主要題目:
  (1)實(shí)際應用中,由S天生T的時(shí)間開(kāi)銷(xiāo)很昂貴;
  (2)站點(diǎn)內部網(wǎng)頁(yè)在權威度數值上可相互加強;
  (3)網(wǎng)頁(yè)中一些無(wú)關(guān)的鏈接影響A,H值的計算;
  (4)存在與查詢(xún)主題無(wú)關(guān)的網(wǎng)頁(yè)即主題漂移現象。

【Web結構挖掘在電子商務(wù)網(wǎng)站結構優(yōu)化中的應用】相關(guān)文章:

Web數據挖掘在電子商務(wù)中的應用.03-21

Web數據挖掘在電子商務(wù)中的應用研究03-07

Web。玻凹夹g(shù)在電子商務(wù)中的應用03-21

數據挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應用03-28

論資本結構優(yōu)化目標與資本結構優(yōu)化03-01

Web挖掘在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的應用研究03-23

優(yōu)化課堂結構03-19

利用Web挖掘技術(shù)加強電子商務(wù)中的知識治理03-22

ERP實(shí)施中企業(yè)組織結構優(yōu)化問(wèn)題03-18

激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频