碩士論文開(kāi)題報告模板4500字
一、課題來(lái)源:
本課題來(lái)源于作者在學(xué)習和實(shí)習中了解到的兩個(gè)事實(shí),屬于自擬課題。
其一,作者在2011年7月在XXX公司調研,了解到現如今各行業(yè)都面臨著(zhù)數據量劇增長(cháng),并由此帶來(lái)業(yè)務(wù)處理速度緩慢,數據維護困難等問(wèn)題。為了應對此挑戰,很多企業(yè)開(kāi)實(shí)施大數據發(fā)展戰略,F如今的大數據發(fā)展戰略可以概括為兩類(lèi),一類(lèi)是垂直擴展。即采用存儲容量更大,處理能力更強的設備,此種方式成本較大,過(guò)去很多大公司一直采用此種方法處理大數據。但自從2004年Google發(fā)布關(guān)于GFS,MapReduce和BigTable三篇技術(shù)論文之后,云計算開(kāi)始興起,2006年Apache Hadoop項目啟動(dòng)。隨后從2009年開(kāi)始,隨著(zhù)云計算和大數據的發(fā)展,Hadoop作為一種優(yōu)秀的數據分析、處理解決方案,開(kāi)始受到許多 IT企業(yè)的關(guān)注。相較于垂直擴張所需的昂貴成本,人們更鐘情于采用這種通過(guò)整合廉價(jià)計算資源的水平擴展方式。于是很多IT企業(yè)開(kāi)始探索采用Hadoop框架構建自己的大數據環(huán)境。
其二,作者自2013年4月在XXX實(shí)習過(guò)程中進(jìn)一步了解到,因為關(guān)系數據庫在存儲數據格式方面的局限,以及其Schema機制帶來(lái)的擴展性上的不便,目前在大部分的大數據應用環(huán)境中都采用非結構化的數據庫,如列式存儲的Hbase,文檔型存儲的MangoDB,圖數據庫neo4j等。這些非結構化數據庫因為可擴展性強、資源利用率高,高并發(fā)、響應速度快等優(yōu)勢,在大數據應用環(huán)境中得到了廣泛的應用。但此種應用只解決了前端的業(yè)務(wù)處理,要真正利用大數據實(shí)現商務(wù)智能,還需要為決策支持系統和聯(lián)機分析應用等提供一數據環(huán)境——數據倉庫。為此,導師指導本文作者擬此題目,研究基于Hadoop框架的數據倉庫解決方案。
二、研究目的和意義:
現如今,數據已經(jīng)滲透到每一個(gè)行業(yè),成為重要的生產(chǎn)因素。近年來(lái),由于歷史積累和和數據增長(cháng)速度加快,各行業(yè)都面臨著(zhù)大數據的難題。事實(shí)上,大數據既是機遇又時(shí)挑戰。合理、充分利用大數據,將其轉變?yōu)楹A、高增長(cháng)率和多樣化的信息資產(chǎn),將使得企業(yè)具有更強的決策力、洞察發(fā)現力和流程優(yōu)化等能力。因此,很多IT企業(yè)都將大數據作為其重要的發(fā)展戰略,如亞馬遜、FaceBook已布局大數據產(chǎn)業(yè),并取得了驕人的成績(jì)。事實(shí)上,不止谷歌、易趣網(wǎng)或亞馬遜這樣的大型互聯(lián)網(wǎng)企業(yè)需要發(fā)展大數據,任何規模的企業(yè)都有機會(huì )從大數據中獲得優(yōu)勢,并由此構建其未來(lái)業(yè)務(wù)分析的基礎,在與同行的競爭中,取得顯著(zhù)的優(yōu)勢。
相較于大型企業(yè),中小企業(yè)的大數據發(fā)展戰略不同。大公司可以憑借雄厚的資本和技術(shù)實(shí)力,從自身環(huán)境和業(yè)務(wù)出發(fā),開(kāi)發(fā)自己的軟件平臺。而中小企業(yè)沒(méi)有那樣的技術(shù)實(shí)力,也沒(méi)有那么龐大的資金投入,更傾向于選擇一個(gè)普遍的、相對廉價(jià)的解決方案。本文旨在分析大數據環(huán)境下數據庫的特點(diǎn),結合當下流行的Hadoop框架,提出了一種適用于大數據環(huán)境的數據倉庫的解決方案并實(shí)現。為中小企業(yè)在大數據環(huán)境中構建數據倉庫提供參考。其具體說(shuō)來(lái),主要有以下三方面意義:
首先,目前主流的數據庫如Oracle、SQL Server都有對應自己數據庫平臺的一整套的數據倉庫解決方案,對于其他的關(guān)系型數據庫如MySQL等,雖然沒(méi)有對應數據庫平臺的數據倉庫解決方案,但有很多整合的數據倉庫解決方案。而對于非結構化的數據庫,因其數據模型不同于關(guān)系型數據庫,需要新的解決方案,本文提出的基于Hive/Pentaho的數據倉庫實(shí)現方案可以為其提供一個(gè)參考。
其次,通過(guò)整合多源非結構化數據庫,生成一個(gè)面向主題、集成的數據倉庫,可為大數據平臺上的聯(lián)機事務(wù)處理、決策支持等提供數據環(huán)境,從而有效利用數據資源輔助管理決策。
再次,大數據是一個(gè)廣泛的概念,包括大數據存儲、大數據計算、大數據分析等各個(gè)層次的技術(shù)細節,本文提出的“大數據環(huán)境下的數據倉庫解決方案及實(shí)現“豐富了大數據應用技術(shù)的生態(tài)環(huán)境,為大數據環(huán)境下的數據分析、數據挖掘等提供支撐。
三、國內外研究現狀和發(fā)展趨勢的簡(jiǎn)要說(shuō)明:
本文研究的主體是數據倉庫,區別于傳統基于關(guān)系型數據庫的數據倉庫,本文聚焦大數據環(huán)境下基于非結構數據庫的數據倉庫的構建與實(shí)現。因此,有必要從數據倉庫和大數據環(huán)境下的數據庫兩方面進(jìn)行闡述。
(一) 數據倉庫國內外研究現狀
自從Bill Inmon 在1990年提出“數據倉庫”這一概念之后,數據倉庫技術(shù)開(kāi)始興起,并給社會(huì )帶來(lái)新的契機,逐漸成為一大技術(shù)熱點(diǎn)。目前,美國30%到40%的公司已經(jīng)或正在建造數據倉庫,F如今隨著(zhù)數據模型理論的完善,數據庫技術(shù)、應用開(kāi)發(fā)及挖掘技術(shù)的不斷進(jìn)步,數據倉庫技術(shù)不斷發(fā)展,并在實(shí)際應用中發(fā)揮了巨大的作用。以數據倉庫為基礎,以聯(lián)機分析處理和數據挖掘工具為手段的決策支持系統日漸成熟。與此同時(shí),使用數據倉庫所產(chǎn)生的巨大效益又刺激了對數據倉庫技術(shù)的需求,數據倉庫市場(chǎng)正以迅猛的勢頭向前發(fā)展。
我國企業(yè)信息化起步相對較晚,數據倉庫技術(shù)在國內的發(fā)展還處于積累經(jīng)驗階段。雖然近年來(lái),我國大中型企業(yè)逐步認識到利用數據倉庫技術(shù)的重要性,并已開(kāi)始建立自己的數據倉庫系統,如中國移動(dòng)、中國電信、中國聯(lián)通、上海證券交易所和中國石油等。但從整體上來(lái)看,我國數據倉庫市場(chǎng)還需要進(jìn)一步培育,數據倉庫技術(shù)同國外還有很大差距。為此,我國許多科技工作者已開(kāi)始對數據倉庫相關(guān)技術(shù)進(jìn)行深入研究,通過(guò)對國外技術(shù)的吸收和借鑒,在此基礎上提出適合國內需求的技術(shù)方案。
(二) 非結化數據庫國內外研究現狀
隨著(zhù)數據庫技術(shù)深入應用到各個(gè)領(lǐng)域,結構化數據庫逐漸顯露出一些弊端。如在生物、地理、氣候等領(lǐng)域,研究面對的數據結構并不是傳統上的關(guān)系數據結構。如果使用關(guān)系數據庫對其進(jìn)行存儲、展示,就必須將其從本身的數據結構強行轉換為關(guān)系數據結構。采用此種方式處理非結構數據,不能在整個(gè)生命周期內對非關(guān)系數據進(jìn)行管理,并且數據間的關(guān)系也無(wú)法完整的表示出來(lái)。在此背景下,非結構化數據庫應運而生。相較于關(guān)系數據庫,非結構數據庫的字段長(cháng)度可變,并且每個(gè)字段的記錄又可以由可重復或不可重復的子字段構成。如此,它不僅可以處理結構化數據,更能處理文本、圖象、聲音、影視、超媒體等非結構化數據。近年來(lái),隨著(zhù)大數據興起,非結構數據庫開(kāi)始廣泛應用,以支持大數據處理的多種結構數據。
目前,非結構化的數據庫種類(lèi)繁多,按其存儲數據類(lèi)型分,主要包含內存數據庫、列存儲型、文檔數據庫、圖數據庫等。其中,常見(jiàn)的內存數據庫有SQLite,Redis,Altibase等;列存儲數據庫有Hbase,Bigtable等;文檔數據庫有MangoDB,CouchDB,RavenDB等;圖數據庫有Neo4j等。近年來(lái),我國非結構數據庫也有一定發(fā)展,其中最具代表的是國信貝斯的iBASE數據庫?梢灶A見(jiàn)在不久的將來(lái),伴隨這大數據的應用,非結構數據庫將會(huì )得到長(cháng)足的發(fā)展和廣泛的應用。
四、主要研究?jì)热莺鸵筮_到的深度:
本文研究的方向是數據倉庫,并且是聚焦于大數據這一特定環(huán)境下的數據倉庫建設,其主要內容包括以下幾點(diǎn):
1. 非結構數據庫的數據倉庫解決方案:本文聚焦于大數據這一特定環(huán)境下的數據倉庫建設,因為大數據環(huán)境下的數據倉庫建設理論文獻很少,首先需要以研究關(guān)系數據庫型數據倉庫的解決方案為參考,然后對比關(guān)系數據庫和非結構數據庫的特點(diǎn),最后在參考方案的基礎上改進(jìn),以得到適合非結構數據庫環(huán)境的數據倉庫解決方案。
2. 非結構數據庫和關(guān)系數據庫間數據轉換:非結構數據庫是對關(guān)系數據庫的補充,很多非結構數據庫應用環(huán)境中都有關(guān)系數據庫的身影。因此,非結構數據庫和關(guān)系數據庫間數據轉換是建立非結構數據庫需要解決的一個(gè)關(guān)鍵問(wèn)題。
3. 基于非結構數據庫的數據倉庫構建:本文擬采用手禮網(wǎng)的數據,分析其具體的數據環(huán)境和需求,為其構建基于非結構數據庫的數據倉庫,主要包括非結構數據庫的數據抽取,Hive數據庫入庫操作和Pentaho前臺數據展現等。
五、研究工作的主要階段、進(jìn)度和完成時(shí)間:
結合研究需要和學(xué)校教務(wù)管理的安排,研究工作主要分以下四階段完成:
第一階段:論文提綱:20XX年6月——7月
第二階段:論文初稿 :20XX年8月——10月
第三階段:論文修改:20XX年11月——2014年3月
第四階段:最終定稿:20XX年4月
六、擬采用的研究方法、手段等及采取的措施:
在論文提綱階段,本文擬采用調查統計的方法,收集目前大數據環(huán)境下數據庫應用情況,著(zhù)重統計各類(lèi)型數據庫的應用比例。同時(shí)采用文獻分析和個(gè)案研究的方法研究數據倉庫構建的一般過(guò)程和對應的技術(shù)細節,并提出解決方案。在論文初稿和修改階段,本文擬通過(guò)實(shí)證研究,依據提綱階段在文獻分析中收集到的理論,基于特定的實(shí)踐環(huán)境,理論結合實(shí)踐,實(shí)現某一具體數據倉庫的構建。最后采用定性和定量相結合的方法,詳細介紹大數據環(huán)境下數據庫和數據倉庫的特點(diǎn),其數據倉庫實(shí)現的關(guān)鍵問(wèn)題及解決方案,以及數據倉庫個(gè)例實(shí)現的詳細過(guò)程。
七、可能遇見(jiàn)的困難、問(wèn)題及擬采取的解決辦法、措施:
基于本文的研究?jì)热莺吞攸c(diǎn)分析,本文在研究過(guò)程中最有可能遇到三個(gè)關(guān)鍵問(wèn)題。
其一,非結構數據庫種類(lèi)繁多,每類(lèi)數據庫又對應有不同的數據庫產(chǎn)品,由于當下非結構數據庫沒(méi)有統一標準,即便同類(lèi)數據庫下不同產(chǎn)品的操作都不盡相同,難以為所有非結構數據庫提出解決方案。針對此問(wèn)題,本文擬緊貼大數據這一背景,選擇當下大數據環(huán)境中應用最多的幾類(lèi)數據庫的代表性產(chǎn)品進(jìn)行實(shí)現。
其二,雖然經(jīng)過(guò)二十年的發(fā)展,數據倉庫的理論已日趨完善,但大數據是近幾年才發(fā)展起來(lái)的技術(shù)熱點(diǎn),大樹(shù)據環(huán)境下的數據倉庫建設理論文獻很少。針對此問(wèn)題,本文擬參考現有的成熟的關(guān)系數據庫環(huán)境下數據倉庫構建方案和非結構化數據倉庫理論,研究適合非結構數據庫的數據倉庫構建方案,請導師就方案進(jìn)行指導,然后再研究具體技術(shù)細節實(shí)現方案。
其三,基于大數據環(huán)境的數據倉庫實(shí)現是本文重要的組成部分,要完成此部分的工作需要企業(yè)提供數據支持,但現在數據在企業(yè)當中的保密級別都很高,一般企業(yè)都不會(huì )將自己的業(yè)務(wù)數據外傳。針對此問(wèn)題,本文擬采用企業(yè)非核心業(yè)務(wù)數據進(jìn)行數據倉庫實(shí)現。
八、大綱
本文的基本構想和思路,文章擬分為導論、大數據環(huán)境下的數據庫介紹、大數據下數據倉庫關(guān)鍵問(wèn)題研究、基于XX電子商務(wù)的大數據下數據倉庫實(shí)現、結論五部分。
導論
一、研究背景
二、國內外研究現狀述評
三、本文的主要內容與研究思路
第一章 大數據環(huán)境下的數據庫介紹
第一節 大數據對數據庫的要求
第二節 關(guān)系數據庫和非結構數據庫比較
第三節 大數據下常用非結構數據庫介紹
小結
第二章 大數據下數據倉庫關(guān)鍵問(wèn)題研究
第一節 非結構數據模型和關(guān)系數據模型的轉換
第二節 基于多源非結構數據庫的數據抽取
第三節 數據類(lèi)型轉換
第四節 數據倉庫前端展示
第三章 大數據下數據倉庫實(shí)現方案
第一節 大數據環(huán)境介紹
第二節 實(shí)現方案
第二節 Hive介紹
第三節 Pentaho介紹
第四章 基于XX電子商務(wù)的大數據下數據倉庫實(shí)現
第一節 需求分析
第二節 模型設計
第三節 概要設計
第四節 基于Hive的數據入庫操作實(shí)現
第五節 基于Pentaho的數據倉庫前端展示實(shí)現
結論
【碩士論文開(kāi)題報告】相關(guān)文章:
碩士論文開(kāi)題報告模板11-16
碩士論文開(kāi)題報告的格式11-17
工學(xué)碩士論文開(kāi)題報告05-25
碩士論文開(kāi)題報告的要求03-29
碩士論文開(kāi)題報告寫(xiě)作11-20
碩士論文開(kāi)題報告范文12-02
體育碩士論文開(kāi)題報告11-24
教育碩士論文開(kāi)題報告11-17
哲學(xué)碩士論文開(kāi)題報告11-23