- 相關(guān)推薦
淺談數據集市技術(shù)在高校信息管理中的應用
論文關(guān)鍵詞:數據倉庫:數據集市;AnlaysisServices(分析服務(wù)工具);OLd(聯(lián)機分析處理)
論文摘要:高校各類(lèi)信息系統積累了大量的數據,亟待一種方法對其進(jìn)行整合以更大限度的發(fā)揮其作用,文章針對高校特點(diǎn)提出了自底向上先建立數據集市,再集成為數據倉庫的解決方案,并針對西華師范大學(xué)學(xué)院利用SQLcSver2000建立了數據集市。
1引言
計算機技術(shù)已經(jīng)在高校教學(xué)管理工作中廣泛應用,各種類(lèi)型的信息管理系統在高校各部門(mén)都已建立,如學(xué)生管理系統、教務(wù)管理系統、教師信息系統等等,它們的開(kāi)發(fā)和應用大大提高了工作效率。但是,各類(lèi)信息資源分散在各個(gè)不同的部門(mén),缺乏統一的管理和組織,雖然積累了大量的數據信息,可是功能只是局限于查詢(xún)等初級的應用,不能實(shí)現一些高級應用如:OLAP分析、數據挖掘等。對這些數據信息,巫待一種方法對其進(jìn)行整合以更大限度的發(fā)揮其作用,這種方法就是建立數據倉庫。
自頂向下開(kāi)發(fā)數據倉庫能最大限度地減少集成問(wèn)題,是很好的開(kāi)發(fā)方案。然而,數據倉庫項目龐大、結構復雜、物力投人大、開(kāi)發(fā)周期長(cháng),并且很難使整個(gè)組織的共同數據模型達到一致,從而缺乏靈活性。所以,高校數據倉庫的建設應該采取漸進(jìn)式、分階段、分步驟的策略一自底向上首先設計、開(kāi)發(fā)獨立的面向一個(gè)院、系、部門(mén)數據集市,待成功后再建立所有院、系、部門(mén)的數據集市,最后集成為數據倉庫。這種方式靈活性大、花費又低,并且能快速見(jiàn)效,更適合高校的實(shí)際情況。
2數據倉庫的建立
對高校數據倉庫建立我們設計如下實(shí)現步驟(圖1):
(1)定義一個(gè)高層次的整體數據模型,在不同的主題和可能的應用之間,提供全局范圍的、一致的、集成的數據視圖。無(wú)論數據集市提供何種功能,都是數據倉庫的組件,要保證數據的組織、格式和架構在整個(gè)數據倉庫內保持一致。表的設計、更新機制或維度的層次結構如果不一致,可能會(huì )使數據無(wú)法在整個(gè)數據倉庫內重新使用,并可能導致由相同的數據生成不一致的報表。
(2)基于上述相同的整體數據模型,并行地實(shí)現獨立的院、系、部門(mén)數據集市和校級部門(mén)數據集市。
(3)構造分布式數據集市,通過(guò)網(wǎng)絡(luò )中心服務(wù)器集成不同的數據集市。
(4)集成為一個(gè)多層數據倉庫,這里,多層數據倉庫是所有倉庫數據的唯一管理者,數據則分布在一些依賴(lài)的各院、系、部門(mén)數據集市中。
(5)建立C/S模式通過(guò)網(wǎng)絡(luò )中心服務(wù)器為廣大的教學(xué)管理人員、教師、學(xué)生提供服務(wù)。開(kāi)發(fā)OLAP分析和數據挖掘等高級的應用,為高校教學(xué)管理提供決策支持。
3數據集市實(shí)例設計
本文以西華師范大學(xué)計算機學(xué)院為研究對象,利用SQL Server 2000及Analysis Services構造了一個(gè)面向院、系、部門(mén)的數據集市。
3.1數據集市模型的設計
在決策分析時(shí),需要從多個(gè)方面來(lái)分析一個(gè)主題,這就要求數據集市以多維數據集的方式來(lái)組織數據,以簡(jiǎn)化OLAP分析,提高查詢(xún)性能。本文采用了雪花模型一將星型模型的維表進(jìn)行分解,分解成多個(gè)具有層次關(guān)系的維表,建立多維數據集。分解維表的過(guò)程也就是對維表進(jìn)一步標準化的過(guò)程。雪花模型是標準化的維表,粒度較低,增加了應用程序的靈活性,易于實(shí)現動(dòng)態(tài)SQL生成,便于以后進(jìn)行數據挖掘等高級應用(圖2)。
3.2建立數據準備區
數據準備區是數據中間存儲區,在這里從數據源中析取數據,將數據轉換為常用格式,檢查一致性和引用完整性,并裝人數據集市數據庫。使用獨立于數據源的數據準備區將原始數據同數據集市數據隔離開(kāi),可以提高數據集市的效率,保護數據集市的完整性,并且不影響數據集市執行支持客戶(hù)端訪(fǎng)問(wèn)等主要功能。本文為數據準備區創(chuàng )建單獨的數據庫,包含創(chuàng )建數據表、視圖、索引,還包含從源數據系統中析取數據的進(jìn)程,如數據轉換服務(wù)(DTS)包,以及關(guān)系數據庫中常用的其它元素。
3.3清理和轉換數據
對于構建數據集市或OLAP分析、數據挖掘等高級應用,都需要數據的正確性、一致性、完整性。而現有數據存在很多的問(wèn)題,如:濫用縮寫(xiě)詞、慣用語(yǔ)、數據輸入錯誤、重復記錄、丟失值等等。所以數據必須進(jìn)行清理及格式化,并轉換為數據集市架構。本文把數據駐留在數據準備區完成清理和轉換,并且驗證數據的一致性,將數據轉換成常用格式以及合并代理鍵。在實(shí)際轉換中很多的數據需要執行手工操作協(xié)調數據的不一致或解決二義性文本字段輸人項。每次需要手工操作時(shí),要試著(zhù)確定一種方法來(lái)消除在以后的數據轉換操作中的手工步驟。這樣能夠修改源數據系統以消除起因,或者能建立自動(dòng)化進(jìn)程將未解決的數據留待以后手工異常處理,從而,大批的數據就可以裝人數據集市而不會(huì )因手工干預而耽擱。典型的數據轉換如:將多個(gè)名稱(chēng)字段組合成一個(gè)字段;將日期字段劃分成單獨的年、月、日字段;將數據從一個(gè)表示法映射到另一個(gè),如從TRUE到1和F人LSE到0;創(chuàng )建并應用維度表記錄的代理鍵。SQL Server 2000中提供Transact一 SQL查詢(xún)、DTS包、ActiveX腳本等工具可以有效地協(xié)助轉換數據。
3.4 OLAP(聯(lián)機分析處理)
OLAP是實(shí)現對數據高效率訪(fǎng)問(wèn)分析的一種技術(shù)。它有很多優(yōu)點(diǎn),如:直觀(guān)的多維數據模型使用戶(hù)很容易就能選擇、瀏覽和研究數據;分析查詢(xún)?yōu)檠芯繌碗s的業(yè)務(wù)數據關(guān)系提供了強大功能;對頻繁查詢(xún)的數據預先進(jìn)行計算,可以非?斓仨憫厥獠樵(xún)。數據集市基于多維數據模型,該模型將數據看作數據立方體形式,進(jìn)行OLAP分析。數據立方體由維和事實(shí)定義,允許以多維的形式對數據建模和觀(guān)察。但是數據立方體由于可視化技術(shù)的限制,大多在理論上研究,很少有軟件能較好的實(shí)現。在A(yíng)nalysis Services使用了多維數據集的概念,代替數據立方體,在表現的形式上采用了嵌套表的形式以利于編程實(shí)現。多維數據集仍是把數據組織成多維,每維包含由概念分層定義的多個(gè)抽象層,緯度指分析的角度,度量值指分析的對象。利用Analysis Services的多維數據集瀏覽器,我們可以很方便的實(shí)現上卷、下鉆、切片和切塊、旋轉等OLAP操作(圖3)。
3.5多維數據集角色定義和權限分配
角色是Analysis Service。保護多維數據集內對象和數據安全的主要方法,它可以在多維數據集的不同粒度級別上定義安全性;谛枰,管理員可以在維度成員級別或數據單元級別上保護數據的安全,利用多維數據集角色定義哪些用戶(hù)或用戶(hù)組可以訪(fǎng)問(wèn)和查詢(xún)多維數據集內的數據,如限制學(xué)生只能查閱自己的成績(jì),不能查閱其他同學(xué)的成績(jì)。
3.6元數據的管理
元數據是關(guān)于數據屬性和數據結構的信息,也指用以界定對象(如多維數據集或維度)設計的信息。有了元數據,用戶(hù)就可以很快找到所需要數據或確認這些數據是否在數據集市中,從而更有效的利用數據集市。Analysis Services可以自動(dòng)生成元數據,并通過(guò)SQL Server2000 Meta Data Services對其進(jìn)行管理。
3.7在web上建立OLAP數據透視
向用戶(hù)提供數據訪(fǎng)問(wèn)能力的Web應用程序,客戶(hù)端可以使用Web瀏覽器,而不必安裝、配置和維護特殊的應用程序。我們通過(guò)FrontPage組件建立直接在web上的應用!安迦/組件/office數據透視表”,通過(guò)Microsoft OLE DB Provider for OLAP Services 8 .0可以創(chuàng )建對應于任何ODBC兼容數據源的。LAP數據透視表視圖,通過(guò)“MS FrontPage:業(yè)務(wù)分析模式”結合“數據透視表屬性工具箱”建立分析模式,用戶(hù)可以在Web瀏覽器上,調整字段列表、數據屬性、顯示格式,以便以最合適分析角度的方式進(jìn)行分析[’]。
3.8數據的更新
一些數據會(huì )不定時(shí)的更新,如經(jīng)費開(kāi)支,但是這些日常性的變化不需要存人數據集市,我們可以把數據更新的部分存人數據準備區。對于新生人校、學(xué)生畢業(yè)、的、教師的晉級等,一般每學(xué)期末才會(huì ),所以,我們的數據集市只需要在每學(xué)期末更新和整理一次。
4結論與展望
本文利用SQL Server 2000及Analysis Service建立了面向學(xué)院級的數據集市。通過(guò)運行,系統較好的解決了學(xué)院管理中的許多問(wèn)題,充分顯示出數據倉庫管理的靈活、便捷和穩定等特點(diǎn)。這種結合高校特點(diǎn),通過(guò)數據集市集成為數據倉庫的方法,最終可以發(fā)展成為高校管理決策支持的有力工具。
【淺談數據集市技術(shù)在高校信息管理中的應用】相關(guān)文章:
數據挖掘技術(shù)在CRM中的應用03-22
數據挖掘技術(shù)在企業(yè)知識管理中的應用03-19
研究數據融合技術(shù)及其在林業(yè)中的應用03-18
探析數據融合技術(shù)及其在林業(yè)中的應用03-18
淺析數據融合技術(shù)及其在林業(yè)中的應用03-19