激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

數據挖掘的讀書(shū)筆記

時(shí)間:2024-06-27 13:28:27 美云 讀書(shū)筆記 我要投稿
  • 相關(guān)推薦

數據挖掘的讀書(shū)筆記

  數據挖掘一般是指從大量的數據中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數據挖掘通常與計算機科學(xué)有關(guān),并通過(guò)統計、在線(xiàn)分析處理、情報檢索、機器學(xué)習、專(zhuān)家系統(依靠過(guò)去的經(jīng)驗法則)和模式識別等諸多方法來(lái)實(shí)現上述目標。目前喲普與大數據時(shí)代的到來(lái),數據挖掘在很多高等院校已經(jīng)成為一門(mén)獨立的學(xué)科。下面是數據挖掘的相關(guān)讀書(shū)筆記。歡迎大家閱讀。

數據挖掘的讀書(shū)筆記

  數據挖掘的讀書(shū)筆記 1

  一、數據挖掘概念(即什么是數據挖掘)

  我們生活在數據時(shí)代,各行各業(yè)每天都產(chǎn)生巨大的數據。數據的爆炸式增長(cháng)、廣泛可用和巨大數量使得我們的時(shí)代成為真正的數據時(shí)代。急需功能強大和通用的工具,以便從海量數據中發(fā)現有價(jià)值的信息,把這些數據轉換成有組織的、可利用的知識。這種需求導致了數據挖掘的誕生。

  數據挖掘實(shí)際上是從數據中挖掘知識,由以下步驟的迭代組成:

  (1)數據清理(消除噪聲和刪除不一致數據)

  (2)數據集成(多種數據源可以組合在一起)

  (3)數據選擇(從數據庫中提取與分析任務(wù)相關(guān)的數據)

  (4)數據變換(通過(guò)匯總或聚集操作,把數據變換和統一成適合挖掘的形式)

  (5)數據挖掘(基本步驟,使用智能方法提取數據模式)

  (6)模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)

  (7)知識表示(使用可視化和知識表示技術(shù),向用戶(hù)提供挖掘的知識) 關(guān)系數據庫是數據挖掘最常見(jiàn)、最豐富的信息源,因此它是我們數據挖掘研究研究的一種主要數據形式。

  二、數據挖掘技術(shù)(即怎樣進(jìn)行數據挖掘)

  1、可以挖掘什么類(lèi)型的模式 特征化與區分、頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘,分類(lèi)與回歸,聚類(lèi)分析,離群點(diǎn)分析。 數據挖掘可以被用來(lái)進(jìn)行市場(chǎng)分析和管理、風(fēng)險分析和管理、缺陷分析和管理等。

  2、使用什么技術(shù)

  1)首先要認識數據,一個(gè)數據對象代表一個(gè)實(shí)體,又稱(chēng)樣本、實(shí)例、數據點(diǎn)或對象。 屬性是一個(gè)數據字段,表示數據對象的一個(gè)特征,又稱(chēng)維、特征和變量。

  2)數據描述 中心趨勢度量:均值、中位數和眾數 度量數據散布:極差、四分位數、方差、標準差和四分位數極差 通過(guò)基于像素的可視化技術(shù)等清晰有效的表達數據

  3)進(jìn)行數據預處理,包括數據變換與數據離散化。 數據變換策略:光滑、屬性構造、聚集、規范化、離散化、由標稱(chēng)數據產(chǎn)生概念分層 數據離散化策略:分箱、直方圖分析、聚類(lèi)決策樹(shù)和相關(guān)分析

  4)然后需要建立數據倉庫進(jìn)行處理,數據倉庫:是一種數據庫,它允許將各種應用系統集成在一起,為統一的歷史數據分析提供堅實(shí)的平臺,對信息處理提供支持。數據倉庫的構建需要數據集成、數據清洗和數據統一。

  5)聯(lián)機分析處理可以,在使用多維數據模型的數據倉庫或數據集市上進(jìn)行,使用數據立方體結構,OLAP操作可以有效的實(shí)現。

  數據立方體計算的一般策略: 排序、散列和分組 同時(shí)聚集和緩存中間結果

  當存在多個(gè)子女方體時(shí),由最小的子女聚集 可以使用先驗剪枝方法有效的'計算冰山立方體

  數據立方體計算方法: 多路數組聚集,基于稀疏數組的、自底向上的、共享計算的物化整個(gè)數據立方體 BUC,通過(guò)探查有效的自頂向下計算次序和排序計算冰山立方體 Star-Cubing,使用星樹(shù)結構,集成自頂向下和自底向上計算,計算冰山立方體 外殼片段立方體,通過(guò)僅預計算劃分的立方體外殼片段,支持進(jìn)行高維OLAP

  6)挖掘頻繁模式和關(guān)聯(lián)規則 頻繁項集挖掘方法: Apriori算法(通過(guò)限制候選產(chǎn)生發(fā)現頻繁項集),由頻繁項集產(chǎn)生關(guān)聯(lián)規則,提高Apriori算法的效率,挖掘頻繁項集的模式增長(cháng)方法,使用垂直數據格式挖掘頻繁項集,挖掘閉模式和極大模式

  數據挖掘的讀書(shū)筆記 2

  1、數據挖掘要解決的問(wèn)題

  可伸縮(算法在處理各種規模的數據時(shí)都有很好的性能。隨著(zhù)數據的增大,效率不會(huì )下降很快。)

  高維性(簡(jiǎn)單的說(shuō)就是多維數據的意思。平時(shí)我們經(jīng)常接觸的是一維數據或者可以寫(xiě)成表形式的二維數據,高維數據也可以類(lèi)推,不過(guò)維數較高的時(shí)候,直觀(guān)表示很難。)

  異種數據和復雜數據

  數據的所有權與分布(分布式數據挖掘:應付分布式海量數據的現代方法)

  非傳統的分析(傳統方法:基于一種假設-檢驗模式;數據挖掘分析-時(shí)機性樣本,而不是隨機樣本)

  2、數據挖掘任務(wù)

  1)預測任務(wù)(目標變量/因變量:被預測的屬性;說(shuō)明變量/自變量:用來(lái)做預測的屬性)

  2)描述任務(wù)

  A預測建模:分類(lèi)-預測離散的.目標變量和回歸-預測連續的目標變量

  B關(guān)聯(lián)分析

  C聚類(lèi)分析

  D異常檢測(識別其特征顯著(zhù)不同于其他數據的觀(guān)測值。這樣的觀(guān)測值稱(chēng)為異常點(diǎn)或離群點(diǎn))

  3、屬性的四種類(lèi)型

  1)標稱(chēng)

  2)序數

  3)區間

  4)比率

 。ú紶栕兞浚築oolean Variable (布爾型變量) 是有兩種邏輯狀態(tài)的變量,它包含兩個(gè)值:真和假。如果在表達式中使用了布爾型變量,那么將根據變量值的真假而賦予整型值1或0。)

【數據挖掘的讀書(shū)筆記】相關(guān)文章:

數據挖掘理論在數據采集中的運用03-16

數據挖掘專(zhuān)業(yè)就業(yè)方向09-27

數據挖掘崗位職責05-14

數據挖掘與企業(yè)營(yíng)銷(xiāo)策略探究03-29

數據挖掘分析崗位職責04-20

數據挖掘在CRM中的應用分析03-22

數據挖掘技術(shù)在CRM中的應用03-22

基于聚類(lèi)分析的數據挖掘方法03-08

淺談反病毒數據庫的數據分類(lèi)挖掘論文02-19

數據挖掘論文參考文獻范文11-20

激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频