- 相關(guān)推薦
基于愛(ài)好的電子商務(wù)數據挖掘技術(shù)的研究
[摘要] 本文對電子商務(wù)Web頁(yè)數據挖掘技術(shù)做了全面分析,對于個(gè)性化電子商務(wù)網(wǎng)站中難以發(fā)現用戶(hù)愛(ài)好行為特征題目,給出了Web頁(yè)面關(guān)聯(lián)算法。利用數據倉庫技術(shù)可有效挖掘用戶(hù)愛(ài)好特征,從而指導電子商務(wù)網(wǎng)站資源的組織和分配,為商務(wù)型網(wǎng)站的投資者和建立者提供正確的盈利導向。[關(guān)鍵詞] 電子商務(wù)數據挖掘愛(ài)好特征
數據挖掘技術(shù)是隨著(zhù)數據庫技術(shù)和人工智能技術(shù)發(fā)展起來(lái)的一種新型的交叉信息技術(shù)。無(wú)論是B2B、B2C還是B2G電子商務(wù)模式,商品的采購者都需要通過(guò)Web方式與商品的供給商及其合作者之間建立信息流的交互,面向電子商務(wù)的數據挖掘的特點(diǎn)就是從Web數據庫中,運用關(guān)聯(lián)、分類(lèi)、聚類(lèi)等技術(shù)手段,從中提取出可以指導市場(chǎng)策略的有用數據。它基于“消費者過(guò)往的行為預示著(zhù)其今后的消費傾向”的原理,通過(guò)收集、分析和處理從網(wǎng)上獲取的有關(guān)消費者消費行為的數據,從潛伏的、隱含的、事先不知的狀態(tài),經(jīng)過(guò)提取、洗滌、加工變?yōu)闈摿薮蟮膬r(jià)值信息,從而實(shí)現網(wǎng)絡(luò )營(yíng)銷(xiāo)的目的,確定特定消費群體或個(gè)體的消費習慣、愛(ài)好、傾向,進(jìn)而預示出消費者下一步的消費行為,有針對性地提供服務(wù)。
一、電子商務(wù)Web數據挖掘技術(shù)
1.電子商務(wù)Web數據挖掘技術(shù)的分類(lèi)
電子商務(wù)Web數據挖掘一般可分為三個(gè)部分:內容挖掘、結構挖掘、用法挖掘。Web內容挖掘有兩種策略:直接挖掘文檔內容和在其他檢索工具搜索的基礎上進(jìn)行改進(jìn)。Web結構挖掘是從WWW上的組織結構和鏈接關(guān)系中推導知識。Web用法挖掘的主要目標是從Web的訪(fǎng)問(wèn)記錄中抽取感愛(ài)好的模式。大多數基于數據庫的數據挖掘方法均可作用于電子商務(wù)Web數據挖掘。
在研究以電子商務(wù)網(wǎng)上購物為應用背景的工作時(shí)發(fā)現。商家在Web上建立自己的在線(xiàn)商品目錄,顧客(即用戶(hù))通過(guò)瀏覽器可以瀏覽商品目錄、實(shí)現網(wǎng)上訂購甚至網(wǎng)上支付等。用戶(hù)與商家的Web服務(wù)器間交互的過(guò)程信息(包括用戶(hù)的登錄信息、用戶(hù)的瀏覽記錄)以及用戶(hù)的個(gè)人扼要信息等,都能以日志文件或顧客數據庫的形式存在,從中找出規律性,對商家的市場(chǎng)銷(xiāo)售是至關(guān)重要的;從大量顧客數據及日志數據中,應用到計算機并行處理、神經(jīng)元網(wǎng)絡(luò )、模型化算法和其他信息處理技術(shù)手段,挖掘出有意義的用戶(hù)訪(fǎng)問(wèn)模式及相關(guān)的潛伏顧客群,從中可得到商家用于向特定消費群體或個(gè)體進(jìn)行定向營(yíng)銷(xiāo)的決策信息。同時(shí)有效地對這些Web日志進(jìn)行定量分析,揭示其中的關(guān)聯(lián)關(guān)系、時(shí)序關(guān)系、頁(yè)面類(lèi)屬關(guān)系、客戶(hù)類(lèi)屬關(guān)系和頻繁訪(fǎng)問(wèn)路徑、頻繁訪(fǎng)問(wèn)頁(yè)面等,不但可為優(yōu)化Web站點(diǎn)拓撲結構提供參考,而且還可為企業(yè)更有效地確認目標市場(chǎng)、改進(jìn)決策獲得更大的競爭上風(fēng)提供幫助。
2.電子商務(wù)Web數據挖掘模型構建和基本流程
電子商務(wù)Web服務(wù)器自動(dòng)收集客戶(hù)瀏覽信息并保存在訪(fǎng)問(wèn)日志、引用日志和代理日志中。典型的電子商務(wù)Web服務(wù)器日志文件包括以下信息:IP地址,請求時(shí)間,方法(如get),被請求文件的URL,HTTP版本號,返回碼,傳輸字節數,引用頁(yè)的URL和代理。
電子商務(wù)Web挖掘,首先對日志文件進(jìn)行預處理,預處理主要由兩部分構成:數據清洗(data cleaning)和事務(wù)識別(transaction identification)。包括對Web日志進(jìn)行清洗、過(guò)濾和轉換以及無(wú)關(guān)記錄的剔除,判定是否有重要的訪(fǎng)問(wèn)沒(méi)有被記錄,并從中抽取感愛(ài)好的數據;并將URL、資源的類(lèi)型、大小、請求的時(shí)間、在資源上停留的時(shí)間、請求者的Internet域名、用戶(hù)、服務(wù)器狀態(tài)作為數據cube的維數變量;再將對模塊、頁(yè)面和文件請求次數,來(lái)自不同Internet域請求次數、事件、會(huì )話(huà)、帶寬、錯誤次數、不同瀏覽器種類(lèi)、用戶(hù)所在組織作為度量變量建立data cube;而將文件、圖像腳本及多媒體等其他文件轉換成可用于Web使用挖掘的數據格式,從而可將數據挖掘技術(shù)用于Web流量分析、典型的事件序列分析和用戶(hù)行為模式分析及事務(wù)分析。
定義函數log={ip,uid,url,time}表示電子商務(wù)Web服務(wù)器日志。其中,ip,uid,url,time分別標識客戶(hù)ip、客戶(hù)id、客戶(hù)請求的url和瀏覽時(shí)間。
在經(jīng)過(guò)數據預處理階段后,即可針對電子商務(wù)中不同的挖掘目標可以采用不同的數據挖掘方法,選擇數據挖掘模式,如統計分析、關(guān)聯(lián)規則、時(shí)序模式、路徑分析(path analysis)及聚類(lèi)、分類(lèi)技術(shù)。
進(jìn)行實(shí)際的挖掘操縱的要點(diǎn)有:首先決定如何產(chǎn)生假設;選擇合適的工具;發(fā)掘知識的操縱;證實(shí)發(fā)現的知識。
【基于愛(ài)好的電子商務(wù)數據挖掘技術(shù)的研究】相關(guān)文章:
基于數據挖掘技術(shù)的交叉銷(xiāo)售分析12-08
基于數據挖掘的網(wǎng)絡(luò )入侵檢測技術(shù)11-23
基于數據挖掘技術(shù)的保險行業(yè)決策分析研究03-09
基于數據挖掘技術(shù)的現代物流管理03-25
談數據挖掘技術(shù)在電子商務(wù)中的應用03-21
基于聚類(lèi)分析的數據挖掘方法03-08