統計數據專(zhuān)題庫的研究與設計分析
摘 要:著(zhù)眼統計領(lǐng)域信息的發(fā)展趨勢,從建設統計專(zhuān)題數據的必要性、基本思路出發(fā),對統計領(lǐng)域專(zhuān)題數據庫建設的步驟、方法、應用等進(jìn)行闡述,并對統計數據專(zhuān)題庫的應用等方面作了一些思考。
【關(guān)鍵詞】專(zhuān)題庫 統計 數據處理 數據應用
Abstract: Focus on the development trend of information in the field of statistics, the need to build statistical thematic data from the basic idea of view, the thematic areas of statistics database construction steps, methods, applications and so forth, and the application of statistical data, etc. for thematic library some thinking.
Key words Thematic library statistical data processing data application
1 統計專(zhuān)題庫建設的必要性
統計部門(mén)應用系統繁多,數據來(lái)源廣。在對數據進(jìn)行使用時(shí),一方面可能會(huì )出現不同系統中的相同指標數據矛盾的情況;另一方面,若涉及不同專(zhuān)業(yè),則需要協(xié)調的范圍、周期的難度都會(huì )明顯增大,數據的時(shí)效性和及時(shí)性都難以得到保障。而專(zhuān)題庫的建設將可有效的將歷史數據整合利用起來(lái),以專(zhuān)業(yè)為邊界切割海量數據,實(shí)現按專(zhuān)業(yè)的跨年度數據存儲,從而可進(jìn)行更深價(jià)值的挖掘。
2 專(zhuān)題庫建設的步驟和方法
2.1 確定專(zhuān)題范圍
專(zhuān)題庫建設時(shí),首先需要明確該專(zhuān)題的數據范圍,專(zhuān)題數據可來(lái)源于統計年鑒、專(zhuān)題匯報等文件以及聯(lián)網(wǎng)直報系統等應用,緊密?chē)@專(zhuān)題的業(yè)務(wù)本質(zhì)進(jìn)行設定,如能源專(zhuān)題庫則應該包括能源建設、能源生產(chǎn)、能源消費等內容。
2.2 建立數據模型
根據對統計領(lǐng)域已有系統和基礎數據的分析,建立專(zhuān)題庫的數據模型。其元數據主要包括13類(lèi),其中9類(lèi)為業(yè)務(wù)元數據(圖1)、4類(lèi)為管理元數據(圖2)。
專(zhuān)題庫中最直接的為數據,通過(guò)對9類(lèi)業(yè)務(wù)元數據的分析可得知指標與數據關(guān)聯(lián)最為緊密,其他元數據均可通過(guò)指標與數據進(jìn)行關(guān)聯(lián),通過(guò)分析和設計,可變?yōu)槿鐖D3所示的數據模型。
通過(guò)分析每個(gè)元數據本身的屬性,根據模型可得出每一數據應包括60多個(gè)屬性,考慮數據存儲及專(zhuān)題庫的價(jià)值,逐一評估后給出需冗余的屬性,如下:ID、值、報送單位_ID、期別_ID、指標_ID、目錄條目_ID、入庫時(shí)間戳、報送單位全稱(chēng)、期別_起、期別_訖、指標全稱(chēng)、目錄_ID、目錄條目名稱(chēng)、分組1條目_ID 、分組2條目_ID 、分組3條目_ID 、分組4條目_ID 、分組5條目_ID 、分組6條目_ID 、分組7條目_ID、地域1級_ID 、地域2級_ID 、地域3級_ID、計量單位_ID、數據釋意全文。
其中,5個(gè)必須字段為值、報送單位_ID、期別_ID、指標_ID、目錄條目_ID;2個(gè)管理字段為ID、入庫時(shí)間戳,以及18個(gè)冗余存儲字段。
2.3 確定數據來(lái)源
數據是專(zhuān)題庫的基礎,所有的數據處理和分析都是建立在及時(shí)、準確、全面的數據之上,專(zhuān)題數據的來(lái)源主要包括以下幾個(gè)方面:
(1)通過(guò)聯(lián)網(wǎng)直報系統由企業(yè)、地方統計部門(mén)等按照制度報送周期的要求進(jìn)行數據的報送;
(2)通過(guò)各專(zhuān)業(yè)司建立的信息上報系統,由相關(guān)的企業(yè)(如房地產(chǎn)企業(yè)等)進(jìn)行定期的數據報送;
(3)通過(guò)電子郵件、紙質(zhì)文件等由各部委辦局或地方統計局等將相關(guān)的數據進(jìn)行匯總報送;
專(zhuān)題庫的建設將支撐不同的數據來(lái)源、不同類(lèi)型數據的匯聚,并以統一的數據集合加以利用。
2.4 數據處理及存儲
當數據處理和存儲時(shí)需考慮數據的處理,包括輸入格式轉換、數據篩選、數據單位的轉化、數據的校驗、數據存儲等。
(1) 輸入格式轉換。不同的數據來(lái)源可能有不同的數據格式,系統將自動(dòng)解析來(lái)源數據的格式,并轉換為系統的統一數據格式。
(2) 數據篩選。由于專(zhuān)題庫的數據有著(zhù)多種數據來(lái)源,可能存在不同來(lái)源間的數據沖突,系統將建立數據沖突的處理機制,對數據進(jìn)行篩選,確定數據采集途徑的標準,確保數據的唯一性。
(3) 數據單位的轉化。在統計數據中,經(jīng)常會(huì )碰到以不同數量級的單位作統計的數據,如萬(wàn)噸和噸。針對這種情況,系統將自動(dòng)把不同數量級的單位轉換成標準單位存儲入庫。
(4) 數據的校驗。數據之間存在一定的關(guān)聯(lián)驗證關(guān)系,系統在進(jìn)行數據處理時(shí)將對數據的準確性進(jìn)行審核,如不同指標數據的交叉對比、歷史數據的對比等,通過(guò)系統審核可保障數據的準確性,對異常的數據進(jìn)行報警。
(5) 數據存儲。在存儲方面,專(zhuān)題庫的建設將采用分布式數據存儲,以提高海量數據的分析時(shí)效性,提升專(zhuān)題數據庫的服務(wù)能力。
3 專(zhuān)題庫的應用
3.1 多維的統計信息檢索服務(wù)
為滿(mǎn)足不同對象的信息需求,專(zhuān)題庫將建立多維的統計信息檢索服務(wù),以更快更準確的獲取所需信息。另一方面,專(zhuān)題庫將提供關(guān)鍵字檢索服務(wù),以支持用戶(hù)的模糊檢索需求,并提供檢索結果的歷史數據軌跡跟蹤服務(wù)。
3.2 可視化產(chǎn)品服務(wù)
通過(guò)對數據的匯總、統計、分析,結合空間和時(shí)間屬性,以專(zhuān)題地圖、柱狀圖、餅狀圖和曲線(xiàn)等多種形式展示數據,直觀(guān)地支持領(lǐng)導決策。
系統為各統計部門(mén)的業(yè)務(wù)提供GIS展示功能,使業(yè)務(wù)數據和地理空間數據融合,滿(mǎn)足統計部門(mén)使用系統的應用需求。如能源統計專(zhuān)題庫系統可以支持以下應用:某地區歷史能源消費動(dòng)態(tài)演示,各地區能源消費排名,各地區能源消費預測,發(fā)布各地區能源消費預警信息等。
3.3 專(zhuān)題數據供給服務(wù)
為了更好的利用專(zhuān)題數據庫資源,專(zhuān)題庫應該給其他部門(mén)提供數據服務(wù)。數據共享可以通過(guò)以下兩個(gè)途徑來(lái)實(shí)現:一、導出專(zhuān)題庫報表提供給相關(guān)部門(mén)使用;二、提供查詢(xún)調用接口給其它部門(mén),可通過(guò)網(wǎng)絡(luò )進(jìn)行數據的調閱。
4 統計專(zhuān)題庫的幾點(diǎn)思考
4.1 建設統計專(zhuān)業(yè)數據庫群
單個(gè)專(zhuān)題數據庫涉及的內容相對狹窄,僅適用于某些固定的對象和用途,所以可在專(zhuān)題庫建設的基礎上逐步拓展建立專(zhuān)題庫的統一平臺,可以接入各種專(zhuān)題庫,組成統計專(zhuān)業(yè)數據庫群,共享數據,互相補充,擴展專(zhuān)題庫的深度和廣度,為用戶(hù)提供更廣泛的數據服務(wù)。這樣才能更加發(fā)揮出專(zhuān)題庫的作用和優(yōu)勢,相應地也會(huì )促進(jìn)專(zhuān)題庫群的進(jìn)一步發(fā)展,形成良性循環(huán)。
4.2 建設面向不同用戶(hù)的專(zhuān)題庫
不同的用戶(hù)有不同的信息需求,一方面專(zhuān)題庫的內容要基于不同用戶(hù)的需求來(lái)建設,另一方面有些信息具有敏感性,對不同的用戶(hù)需要把信息分保密級別。因此針對不同的用戶(hù),需把專(zhuān)題數據分類(lèi)和分級,建設相關(guān)的數據權限。
4.3 統計專(zhuān)題庫的維護
統計專(zhuān)題庫的維護包含以下幾個(gè)方面:
(1)數據的備份和恢復:對專(zhuān)題庫的數據庫文件定期做物理備份,同時(shí)設置邏輯備份機制,以保證一旦發(fā)生故障能盡快的把數據庫恢復到某種一致的狀態(tài),并盡可能減少對數據完整性的破壞。
(2)數據的安全性控制:在系統運行過(guò)程中由于應用環(huán)境的變化,對安全性的要求也會(huì )發(fā)生變化,如有的數據原來(lái)是機密的但現在可以公開(kāi)查詢(xún)了;蛘呦到y某用戶(hù)的權限級別改變,也需要做相應的安全配置。
(3)數據庫性能監測:通過(guò)分析數據庫的系統指標,判斷當前系統運行狀態(tài)是否最佳,應做哪些改進(jìn)或者擴容等。
參考文獻
[1]李順,李京,張波,王利強,孫強,吳班. 國家環(huán)境數據中心建設研究[A].中國環(huán)境科學(xué)學(xué)會(huì ).2007中國環(huán)境科學(xué)學(xué)會(huì )學(xué)術(shù)年會(huì )優(yōu)秀論文集(下卷)[C].中國環(huán)境科學(xué)學(xué)會(huì ),2007(10).
[2]. 我國統計信息化建設的回顧與展望[J]. 電子政務(wù),2010(Z1):159-166.
[3]門(mén)鳳超,王會(huì )仙.淺談統計信息化建設[J].經(jīng)濟研究導刊,2009(11):248-249.
[4]黃鶯,李建陽(yáng).元數據質(zhì)量評估方法及模型研究[J].圖書(shū)館學(xué)研究,2013(12):52-56+51.
[5]陳智.中國統計信息化建設初探[J].經(jīng)濟研究導刊,2013(15):243-244.
【統計數據專(zhuān)題庫的研究與設計分析】相關(guān)文章:
網(wǎng)絡(luò )安全協(xié)議分析與設計研究03-28
腦卒中患者研究與分析12-10
統計數據質(zhì)量問(wèn)題的研究參考文獻11-14
淺析高職高專(zhuān)《建筑設計基礎》課程的教學(xué)大綱整合研究12-09
分析“鋼琴熱”現象研究12-05
- 相關(guān)推薦