- 相關(guān)推薦
電子商務(wù)網(wǎng)站營(yíng)銷(xiāo)數據分析技術(shù)初探
論文關(guān)鍵詞:日志數據 信息技術(shù) 數據倉庫 聯(lián)機分析處理
論文摘要:電子商務(wù)(EC)在現代商務(wù)企業(yè)的發(fā)展中占有越來(lái)越重要的地位。如何利用信息技術(shù)掌握更多的商務(wù)信息已備受商家們的關(guān)注,站點(diǎn)分析技術(shù)正是為商家和網(wǎng)站提供了這樣一種有效的分析工具。
本文討論了一些站點(diǎn)分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數據倉庫的相關(guān)理論知識。并對站點(diǎn)日志數據進(jìn)行了實(shí)例分析,并指出了站點(diǎn)分析技術(shù)發(fā)展的方向。
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟帶來(lái)新的革命,從而也影響著(zhù)人們的生活;ヂ(lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對廣大網(wǎng)民的信息載體,企業(yè)通過(guò)這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線(xiàn)發(fā)布。
電子商務(wù)就是網(wǎng)上實(shí)行各種商務(wù)活動(dòng)的總包裝,種種所謂電子商務(wù)解決方案,實(shí)際上就是實(shí)現各種網(wǎng)上商務(wù)活動(dòng)的硬件與軟件系統。它將影響到每一個(gè)人、每一個(gè)企業(yè)。電子商務(wù)的主體是我們每一個(gè)人、每一個(gè)企業(yè),電子商務(wù)發(fā)展的過(guò)程就是對人們的生活、企業(yè)的運行的一種模式的一個(gè)巨大改變的過(guò)程。對于進(jìn)入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點(diǎn)的訪(fǎng)問(wèn)率絕對不僅僅是一個(gè)數字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò )中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng )造更多商機。
電子商務(wù)站點(diǎn)用戶(hù)行為的分析這一問(wèn)題也因此成為現如今的熱門(mén)話(huà)題,被人們普遍關(guān)心起來(lái),尤其是被眾商家所重視。Web站點(diǎn)的日志數據正以每天數十兆的速度增長(cháng)。如何分析這些數據,如何從這些大量數據中發(fā)現有用的、重要的知識(包括模式、規則、可視化結構等)也成為現在人們最關(guān)注的信息。
在此情況下,站點(diǎn)用戶(hù)行為分析就可為網(wǎng)站或商家提供出大量有價(jià)值的信息,包括站點(diǎn)的受歡迎度的對比、商業(yè)廣告點(diǎn)擊情況總括、產(chǎn)品的反饋信息、站點(diǎn)各種信息的點(diǎn)擊情況等等。另外,還可根據不同的頁(yè)面內容來(lái)分類(lèi)瀏覽者,以便做出更合理的頁(yè)面分類(lèi),促使網(wǎng)站逐步向個(gè)性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對互聯(lián)網(wǎng)的發(fā)展壯大有著(zhù)不可忽視的巨大作用,它的發(fā)展對信息技術(shù)亦將產(chǎn)生深遠的影響。
在電子商務(wù)早期階段時(shí),Web站點(diǎn)數據流分析通常是在主頁(yè)上安裝計數器以及在一個(gè)外部日志文件上運行簡(jiǎn)單的統計程序記錄點(diǎn)擊率。但是,簡(jiǎn)單的點(diǎn)擊計數既不準確也遠未達到營(yíng)銷(xiāo)目的所需的詳細程度。因此,各公司開(kāi)始尋找更先進(jìn)的分析工具,這類(lèi)工具可以提供誰(shuí)在訪(fǎng)問(wèn)公司W(wǎng)eb站點(diǎn)以及訪(fǎng)問(wèn)者一旦進(jìn)入站點(diǎn)后將做些什么的全面信息。站點(diǎn)開(kāi)始分析的地方是Web服務(wù)器的訪(fǎng)問(wèn)日志。每當用戶(hù)在站點(diǎn)上請求一個(gè)網(wǎng)頁(yè)時(shí),這個(gè)請求就被記錄在訪(fǎng)問(wèn)日志中。如:目前有多少用戶(hù)正在訪(fǎng)問(wèn)站點(diǎn)、他們正在看哪些網(wǎng)頁(yè)以及他們在站點(diǎn)中呆了多長(cháng)時(shí)間。顯然,日志分析和行為概況的正確組合可以對Web站點(diǎn)的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實(shí)世界中捕獲到的,但這些信息卻可以較容易地在線(xiàn)收集到。Web數據流分析工具的這些最新進(jìn)展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶(hù)和他們習慣的詳細報告。
二、站點(diǎn)信息統計方法
Web頁(yè)面數據主要是半結構化數據,計算機網(wǎng)絡(luò )技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結構化數據呈現日益繁榮的趨勢。半結構化數據,是一種介于模式固定的結構化數據,和完全沒(méi)有模式的無(wú)序數據之間,在查詢(xún)前無(wú)法預先確定其具體的類(lèi)型和格式;同時(shí)它們相應的數據結構是不固定、不完全或不規則的,即這些數據有的本身就沒(méi)有結構,有的只有十分松散的結構,有的數據的結構是隱含的,需要從數據中進(jìn)行抽取。而有時(shí),盡管數據本身是有精確結構的,但為了一定的目的,而故意忽視它的結構。半結構化數據具有以下五方面的
主要特點(diǎn):
1.結構是不規則的。包含異構數據、相同的數據信息用不同類(lèi)型或不同的結構表示。
2.結構是隱含的。如電子文檔SGML格式。
3.結構是部分的,有時(shí)部分數據根本無(wú)結構,而部分數據只有粗略的結構。
4.指示性結構與約束性結構。傳統的數據庫使用嚴格的分類(lèi)策略來(lái)保護數據。而指示性數據結構是對結構的一種非精確的描述。它可接受所有新數據,代價(jià)是要頻繁修改結構。
5.半結構化數據通常在數據存在之后才能通過(guò)當前數據歸納出其結構,稱(chēng)之為事后模式引導。模式有時(shí)可被忽略,同時(shí)數據與數據模式間的區別逐漸消除。
三、數據分析的方法
Web頁(yè)面的數據通常是利用統計模型和數學(xué)模型來(lái)分析的。使用的模型有線(xiàn)性分析和非線(xiàn)性分析;連續回歸分析和邏輯回歸分析;單變量和多變量分析以及時(shí)間序列分析等。這些統計分析工具能提供可視化功能和分析功能來(lái)尋找數據間關(guān)系、構造模型來(lái)分析、解釋數據。并通過(guò)交互式過(guò)程和迭代過(guò)程用來(lái)求精模型,最終開(kāi)發(fā)出最具適應性的模型來(lái)將數據轉化為有價(jià)值的信息。
知識發(fā)現是從數據倉庫的大量數據中篩取信息,尋找經(jīng)常出現的模式,檢查趨勢并發(fā)掘實(shí)施。它是分析Web頁(yè)面數據的重要方法。知識發(fā)現與模式識別的算法有以下幾種:
1.依賴(lài)性分析
依賴(lài)性分析算法搜索數據倉庫的條目和對象,從中尋找重復出現概率很高的模式。它展示了數據間未知的依賴(lài)關(guān)系。利用依賴(lài)性分析算法可以從某一數據對象的信息來(lái)推斷另一數據對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經(jīng)過(guò)依賴(lài)性分析,商店認為:很大一部分買(mǎi)飲料的顧客如果在取飲料的路上看到椒鹽餅干的話(huà)就會(huì )購買(mǎi),因而此種分析影響了商店布局。
2.聚類(lèi)和分類(lèi)
在某些情況下,無(wú)法界定要分析的數據類(lèi),用聚類(lèi)算法發(fā)現一些不知道的數據類(lèi)或懷疑的數據類(lèi)。聚類(lèi)的過(guò)程是以某一特定時(shí)間為依據,找出一個(gè)共享一些公共類(lèi)別的群體,它稱(chēng)為無(wú)監督學(xué)習。分類(lèi)過(guò)程,這是發(fā)現一些規定某些商品或時(shí)間是否屬于某一特定數據子集的規則。這些數據類(lèi)很少在關(guān)系數據庫中進(jìn)行定義,因而規范的數據模型中沒(méi)有它們的位置。最典型的例子是信用卡核準過(guò)程,可確定能否按商品價(jià)格和其它標準把某一購買(mǎi)者歸入可接受的那一類(lèi)中。分類(lèi)又稱(chēng)為有監督學(xué)習。
3.神經(jīng)網(wǎng)絡(luò )
神經(jīng)網(wǎng)絡(luò )通過(guò)學(xué)習待分析數據中的模式來(lái)構造模型。它對隱式類(lèi)型進(jìn)行分類(lèi)。圖像分析是神經(jīng)網(wǎng)絡(luò )最成功的應用之一。神經(jīng)網(wǎng)絡(luò )用于模型化非線(xiàn)性的、復雜的或噪聲高的數據。一般神經(jīng)模型由三個(gè)層次組成:數據倉庫數據輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當的數據庫示例來(lái)訓練和學(xué)習、校正預測的模型,提高預測結果的準確性。
4.數據挖掘中的關(guān)聯(lián)規則
關(guān)聯(lián)規則是數據挖掘的一個(gè)重要內容,通常關(guān)聯(lián)規則反映的是數據間的定性關(guān)聯(lián)關(guān)系。如一個(gè)商品交易數據庫,一條記錄表示用戶(hù)一次購買(mǎi)的商品種類(lèi),每個(gè)屬性(A、B……)代表一種商品,每個(gè)屬性都是布爾類(lèi)型的。一條關(guān)聯(lián)規則的例子是:{A、B}→{D}[2%][60%],規則的含義是“如果用戶(hù)購買(mǎi)商品A和B,那么也可能購買(mǎi)商品D,因為同時(shí)購買(mǎi)商品A、B和D的交易記錄占總交易數的2%而購買(mǎi)A和B的交易中,有60%的交易也包含D”。規則中60%是規則的信任度,2%是規則的支持度。數據挖掘就是要發(fā)現所有滿(mǎn)足用戶(hù)定義的最小信任度和支持度閥值限制的關(guān)聯(lián)規則。數據只是定性地描述一個(gè)交易是否包含某商品,而對交易量沒(méi)有定量描述,這種布爾類(lèi)型數據間的關(guān)聯(lián)規則被稱(chēng)為定性關(guān)聯(lián)規則。但數據記錄的屬性往往是數值型或字符型的,這些數據間也存在對決策有幫助的關(guān)聯(lián)規則,相對于定性關(guān)聯(lián)規則,這些規則被稱(chēng)為定量關(guān)聯(lián)規則。
另外,數據挖掘目前仍面臨著(zhù)數據質(zhì)量的問(wèn)題。由于數據倉庫中的數據來(lái)自多個(gè)數據源,而在合并中存在很多障礙,如:沒(méi)有建立合并視圖所需的公共關(guān)鍵字;數據值相互抵觸;元數據的說(shuō)明不完備或丟失;數據值的不潔凈等等。數據挖掘是在標準化的數據基礎上進(jìn)行的,因而這些都會(huì )嚴重破壞數據的準確性,導致最終決策的失誤。所有這些問(wèn)題都在等待著(zhù)人們去發(fā)掘更好的解決方法。
參考資料
1.周斌,吳泉源,高洪奎:“用戶(hù)訪(fǎng)問(wèn)模式數據挖掘的模型與算法研究”,《計算機研究與發(fā)展》,1999 vol.36 No.7 P.870-875;
2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;
3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;
4.Inmon,William H,Building the DataWarehouse(2nd ed.).Wiley.NewYork(1996);
5.BrinS,MotwaniR,UllmanJD,Dynamicitemset counting and implication rules formarket basket data。In peckl1am J ed.Proceedingof the ACMSIGMOD Conferenceon Management of Data.ACM Press,Tucson,Arizona,USA,1997.P255-264;
6.程巖,盧濤,黃梯云:“在數據庫中挖掘定量關(guān)聯(lián)規則的方法研究”,《管理科學(xué)學(xué)報》,2001-8。
【電子商務(wù)網(wǎng)站營(yíng)銷(xiāo)數據分析技術(shù)初探】相關(guān)文章:
數據挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應用03-28
基于數據挖掘技術(shù)的交叉銷(xiāo)售分析12-08
用JSP訪(fǎng)問(wèn)電子商務(wù)網(wǎng)站數據庫03-21
數據挖掘技術(shù)在飯店營(yíng)銷(xiāo)中的運用03-28
談數據挖掘技術(shù)在電子商務(wù)中的應用03-21
基于愛(ài)好的電子商務(wù)數據挖掘技術(shù)的研究12-08
電商網(wǎng)站設計中網(wǎng)絡(luò )數據挖掘技術(shù)的運用11-15
鐵路營(yíng)銷(xiāo)初探03-22