- 相關(guān)推薦
網(wǎng)絡(luò )信息挖掘系統評價(jià)初探
【正文】
隨著(zhù)電子商務(wù)的蓬勃興起,許多企業(yè)已經(jīng)開(kāi)始意識到其所擁有的豐富的信息資源在商業(yè)決策中具有潛在的巨大商業(yè)價(jià)值。更好的決策支持需求和企業(yè)電子商務(wù)的開(kāi)展正推動(dòng)著(zhù)網(wǎng)絡(luò )信息挖掘系統的研究與開(kāi)發(fā)。
鑒于網(wǎng)絡(luò )信息挖掘是在數據挖掘的基礎上發(fā)展起來(lái)的,因此對于網(wǎng)絡(luò )信息挖掘系統的基本問(wèn)題,本文仍將利用數據挖掘系統的基本理論來(lái)描述。
目前,由于網(wǎng)絡(luò )信息挖掘系統的發(fā)展正在起步階段,因此它的分類(lèi)還無(wú)法達到數據挖掘系統分類(lèi)那樣細致。具體而言,對網(wǎng)絡(luò )信息挖掘系統分類(lèi)可以從商業(yè)能力、挖掘數據類(lèi)型、挖掘功能、數據分析方法和應用領(lǐng)域角度進(jìn)行。其中商業(yè)能力角度的分類(lèi)與數據挖掘系統的商業(yè)能力分類(lèi)完全相同,即分為商業(yè)產(chǎn)品和研究原型。而從另外幾個(gè)角度看,網(wǎng)絡(luò )信息挖掘系統的類(lèi)型具有自身一些特點(diǎn),例如從應用領(lǐng)域角度看,網(wǎng)絡(luò )信息挖掘系統可以分為面向電子商務(wù)型、面向遠程教育型、面向旅游型、面向廣告業(yè)型等。隨著(zhù)網(wǎng)絡(luò )信息挖掘技術(shù)的進(jìn)一步發(fā)展,將出現更加豐富的網(wǎng)絡(luò )信息挖掘系統類(lèi)型。
1 系統評價(jià)現狀調查
據調查,目前國內外還沒(méi)有出現完全針對網(wǎng)絡(luò )信息挖掘系統的評價(jià)成果,因而對網(wǎng)絡(luò )信息挖掘系統的評價(jià)具有一定的創(chuàng )新性。筆者認為,對網(wǎng)絡(luò )信息挖掘系統的評價(jià)可以充分地借鑒數據挖掘系統的評價(jià)方法。應該說(shuō)這兩類(lèi)系統在很多評價(jià)指標上都有重合。
從國外來(lái)講,1998年前后已經(jīng)有一些研究人員和機構對數據挖掘系統進(jìn)行了一定的評價(jià)研究。他們所采用的評價(jià)體系各有特點(diǎn),以下是一些簡(jiǎn)要介紹。
1)J.F.Elder等人主要對17種數據挖掘系統進(jìn)行了評價(jià)[1],其中包括了著(zhù)名的Clementine、IntelligentMiner系統。這些系統具有以下共同的特點(diǎn):?jiǎn)纹脚_(StandAlone)、多用途、支持多種模式和分類(lèi)算法,并支持模式構建中的項目階段。他們主要從6大方面對這些系統進(jìn)行比較,除此之外,他們還單獨從用戶(hù)端角度對數據挖掘系統性能進(jìn)行評價(jià)。他們認為并非支持的算法越多越好,各種算法面對不同的問(wèn)題其解決能力也是不同的,它們具有自身的優(yōu)點(diǎn)與缺點(diǎn)。在文章的最后,還對這17種產(chǎn)品的優(yōu)勢/劣勢作了總體的描述性評價(jià)。
2)M.A.King等人針對14種桌面型數據挖掘系統[2],重點(diǎn)對各個(gè)系統的特征和性能進(jìn)行比較。他們選用了20個(gè)評價(jià)指標,并設計了一個(gè)標準的評價(jià)過(guò)程——6分制評分標準來(lái)評價(jià)各種軟件工具的優(yōu)點(diǎn)和缺點(diǎn)。他們評價(jià)的特色在于針對4種算法的產(chǎn)品分別評價(jià),并采用4類(lèi)數據集測試系統的性能。他們認為網(wǎng)絡(luò )法(PolynomialandNeural)要比分割法(TreesandRules)更精確,另外也提出可以加入計算機環(huán)境、數據庫連接性、提供商的穩定性等指標進(jìn)一步評價(jià)。
3)D.W.Abbott等人主要針對高端型(High-end)用于欺詐甄別的數據挖掘系統進(jìn)行了評價(jià)[3]。盡管僅選擇了5個(gè)系統(Clementine、IntelligentMinerforMata、Darwin、En-terpriseMiner、PatternRecognitionWorkbench)進(jìn)行評價(jià),但是他們針對這5個(gè)專(zhuān)門(mén)應用于欺詐甄別的系統進(jìn)行了細致的比較。
4)M.Goebel等人將數據庫中知識發(fā)現(KDD)與數據挖掘結合到一起評價(jià)[4]。他們在介紹一般知識發(fā)現任務(wù)以及解決這些任務(wù)的方法基礎上,主要調查了43種提供這類(lèi)功能的軟件工具。這些工具既包括研究的原型系統,也包括已經(jīng)商業(yè)化的產(chǎn)品。其中有較為著(zhù)名的Clementine、DBMiner、IntelligentMiner系統。他們采用了一個(gè)系統特征分類(lèi)體系對上述產(chǎn)品進(jìn)行比較,并提出一些尚待解決的問(wèn)題:如不同技術(shù)的集成、可擴展性、與數據庫的無(wú)縫集成、對正在變化中的數據進(jìn)行管理以及非標準的數據類(lèi)型等問(wèn)題。
5)J.Hah博士沒(méi)有針對個(gè)別的數據挖掘系統具體評價(jià),但他認為評價(jià)一個(gè)數據挖掘系統應包括如下幾個(gè)方面[5]:數據類(lèi)型、系統問(wèn)題、數據源、數據控制的功能與方法、數據挖掘系統和數據庫或數據倉庫系統的結合、可伸縮性、可視化工具、數據挖掘查詢(xún)語(yǔ)言和圖形用戶(hù)接口。
6)A.Berson等認為數據挖掘軟件產(chǎn)品因為不同的目標用戶(hù)和不同類(lèi)型的解決問(wèn)題而具有不同的重點(diǎn)[6]。主要可以分為目標解決方案、商業(yè)工具、商業(yè)分析工具、研究分析工具4類(lèi)。另外,從目前整個(gè)數據挖掘市場(chǎng)看也可以分成3個(gè)主要組成部分:通用的工具、綜合DSS/OLAP/數據挖掘工具和快速成長(cháng)的面向特定應用的工具。他們還進(jìn)一步提供了一套專(zhuān)門(mén)用于數據挖掘工具評價(jià)的屬性和方法,對11種具體的工具進(jìn)行了評價(jià),其中包括Clementine、IntelligentMiner等著(zhù)名的工具。
從國內來(lái)看,數據挖掘系統的評價(jià)研究不如國外活躍,這與數據挖掘系統在國內的應用仍處于初步階段有直接關(guān)系。目前這方面的研究狀況如下。
朱愛(ài)群提出了一種高級記分卡系統[7],采用該記分系統有助于商業(yè)用戶(hù)更好地比較不同的數據挖掘技術(shù),并以此作出正確的選擇。該系統共有3種不同的記分卡:商業(yè)記分卡、算法記分卡、應用記分卡。
從上述文獻的調查看,國內外數據挖掘系統評價(jià)普遍具有的特點(diǎn)是:
1)重視系統算法能力的評價(jià)。在7個(gè)調查對象中,其中6個(gè)都明確采用了算法評價(jià)指標,特別是J.F.Elder、D.W.Abbott、朱愛(ài)群等人,對算法指標的分析尤為細致。
2)突出或者具有從商業(yè)能力角度的評價(jià)。朱愛(ài)群和A.Berson都明確提出采用商業(yè)能力指標,而其他研究者提供的從用戶(hù)端角度對系統易用性的評價(jià)實(shí)際上可以作為系統商業(yè)能力評價(jià)的一部分。
3)缺少對數據挖掘流程的評價(jià)。數據準備、數據預處理、數據建模、模型評估、模型應用等一系列步驟是幾乎每個(gè)數據挖掘系統所必須經(jīng)歷的,往往各種系統在每個(gè)階段表現的能力各有不同,因此有必要對過(guò)程中的每個(gè)階段進(jìn)行評價(jià)。
4)缺少從應用能力角度的評價(jià)。從所有的調查對象中看,僅有國內的一個(gè)評價(jià)提到了應用評價(jià),而且其具體的指標并不是直接針對如保險業(yè)、零售業(yè)、電子商務(wù)等實(shí)際應用領(lǐng)域的。
由此可見(jiàn),本文所要進(jìn)行的網(wǎng)絡(luò )信息挖掘系統的評價(jià)應當積極吸取已有數據挖掘系統評價(jià)的優(yōu)點(diǎn),同時(shí)結合網(wǎng)絡(luò )信息挖掘的特點(diǎn)來(lái)彌補評價(jià)中的不足。
2 評價(jià)系統的選擇
由于目前許多數據挖掘系統也同時(shí)提供網(wǎng)絡(luò )信息挖掘功能,因此本文所要評價(jià)的網(wǎng)絡(luò )信息挖掘系統,一方面從一些著(zhù)名的數據挖掘系統中選擇,一方面將參考KD-nuggets上有關(guān)網(wǎng)絡(luò )信息挖掘軟件的最新統計報道。
從文獻調查看[8],Int
【網(wǎng)絡(luò )信息挖掘系統評價(jià)初探】相關(guān)文章:
信息系統內部控制審計初探03-21
關(guān)于網(wǎng)絡(luò )教學(xué)評價(jià)要素初探02-23
網(wǎng)絡(luò )信息分類(lèi)系統的詞匯控制03-28
學(xué)科信息門(mén)戶(hù)中網(wǎng)絡(luò )信息導航系統的規范建設12-08
信息系統環(huán)境下內部控制評審內容和方法初探03-21
電力企業(yè)網(wǎng)絡(luò )和信息安全管理初探論文11-13
基于XBRL技術(shù)的財務(wù)信息挖掘系統構建探討11-14
信息成本核算初探03-25