- 相關(guān)推薦
IBM Watson的基本原理和大數據分析
作為IT業(yè)界的頂級公司,IBM通過(guò)其認證確定了產(chǎn)品專(zhuān)家的標準,可以說(shuō)IBM在業(yè)界的聲望和IBM產(chǎn)品的市場(chǎng)占有率提升了其認證工程師的含金量。下面是小編收集的關(guān)于IBM Watson的基本原理和大數據分析,希望大家認真閱讀!
第一個(gè)服務(wù)器是演示服務(wù)器。這里是你需要編寫(xiě)Java程序來(lái)支持提問(wèn)和回答的邏輯與思考過(guò)程的地方,我們可以稱(chēng)其為查詢(xún)面板。你會(huì )在查詢(xún)面板部署GUI,用來(lái)輸入你的問(wèn)題、處理問(wèn)題以及尋找答案。這也是你安裝OpenNLP的地方。OpenNLP是能“理解”寫(xiě)入查詢(xún)面板的問(wèn)題的應用。問(wèn)題的“答案”現在就能從NFS驅動(dòng)器里搜索。查詢(xún)面板是一個(gè)圖形用戶(hù)界面,用來(lái)輸入問(wèn)題和顯示答案。在這個(gè)界面之下它所做的是通過(guò)將問(wèn)題傳遞給一個(gè)安裝在此計算機上的叫做OpenNLP的應用來(lái)嘗試“理解”這個(gè)問(wèn)題。一旦問(wèn)題被理解了,它就會(huì )檢索答案。在輸入一個(gè)問(wèn)題之前,你需要告訴查詢(xún)面板從哪里來(lái)尋找答案。我們將會(huì )引導查詢(xún)面板從一個(gè)網(wǎng)絡(luò )文件系統驅動(dòng)器中尋找答案。這個(gè)驅動(dòng)器包含了來(lái)自其它服務(wù)器的從非結構化數據到結構化數據的轉換結果。在我們的這個(gè)原型體系中,所有被處理的數據都會(huì )被存儲在共享的NFS驅動(dòng)器里。
這是演示服務(wù)器的基本組件: Linux 64位; 最小8GB內存; 兼容64位CPU; 50GB硬盤(pán)空間; Java SDK; 查詢(xún)面板; OpenNLP; 可以訪(fǎng)問(wèn)NFS驅動(dòng)器; 已聯(lián)網(wǎng),可以訪(fǎng)問(wèn)內網(wǎng)和互聯(lián)網(wǎng)。
業(yè)務(wù)邏輯服務(wù)器就是你的“思考”或者說(shuō)分析計算機。對這個(gè)服務(wù)器里,你需要安裝Java SDK、Eclipse和UIMA SDK。創(chuàng )建UIMA應用可以將非結構化數據轉換為結構化數據,這些應用例如:類(lèi)型描述;注釋器;分析引擎描述符;通用分析結構(CAS);一些Java類(lèi);CAS數據處理控件。(這個(gè)服務(wù)器里還有)UIMA將要處理的以非結構化數據形式存在的內容。它的基本工作方式是——我們會(huì )用UIMA組件來(lái)從一個(gè)非結構化數據池中獲得數據,這是通過(guò)編寫(xiě)基于Java-UIMA的應用來(lái)設定我們需要的關(guān)鍵詞。這些UIMA組件會(huì )采集關(guān)鍵詞并將其放入CAS或者說(shuō)通用分析結構。這些采集完的項就是我們希望找到的基于某種條件的東西。一旦到了CAS,我們編寫(xiě)好的CAS處理控件就會(huì )將數據寫(xiě)為一個(gè)結構化的形式,例如數據庫、CSV平面文件或者是XML。你也將在此處創(chuàng )建你的UIMA應用,以建立你的采集處理引擎。這些應用是:類(lèi)型描述;注釋器;分析引擎描述符;通用分析結構(CAS);一些Java類(lèi);CAS數據處理控件。
這些是業(yè)務(wù)邏輯服務(wù)器的組件:Linux 64位;最小8GB內存;兼容64位CPU;50GB硬盤(pán)空間;Java SDK;UIMA SDK;使用了UIMA的一些Java程序;聯(lián)網(wǎng)的共享的NFS驅動(dòng)器;網(wǎng)絡(luò )連接,可訪(fǎng)問(wèn)內網(wǎng)和英特網(wǎng)。
第三臺機器是文件和數據庫服務(wù)器。在這個(gè)地方你將存儲被其它系統需要的文件,這里也是輸出的文件被存放的地方。你需要在這里安裝一個(gè)能被其它系統讀取和寫(xiě)入的NFS驅動(dòng)器。
這是一個(gè)包含Hadoop的文件與數據庫服務(wù)器的典型配置:Linux 64位;最小16GB內存;兼容64位CPU;120GB硬盤(pán)空間;Java SDK;IBM InfoSphere BigInsights快速入門(mén)版;DB2數據庫(或其它任何數據庫);Wget Utility;安裝好的NFS驅動(dòng)器;已聯(lián)網(wǎng),可以訪(fǎng)問(wèn)內網(wǎng)和互聯(lián)網(wǎng)。
總結:最終的服務(wù)器配置,包括了演示服務(wù)器、業(yè)務(wù)邏輯服務(wù)器以及數據庫(文件)服務(wù)器(Hadoop系統)的組件。在云環(huán)境中,也許可以只創(chuàng )建兩個(gè)服務(wù)器,而將業(yè)務(wù)邏輯和數據庫服務(wù)器組合到一個(gè)里。查詢(xún)面板是你要輸入你的問(wèn)題的地方,這里也是得到答案的地方。它所做的事情是,接收問(wèn)題并將問(wèn)題的處理交接給一個(gè)人工智能應用,例如OpenNLP或OpenCyc,來(lái)理解這個(gè)問(wèn)題。 在這個(gè)原型中,我們使用了OpenNLP。OpenNLP中有內建的程序,它們可以分析問(wèn)題的語(yǔ)法,對問(wèn)題分塊以及對問(wèn)題中的詞語(yǔ)進(jìn)行其它形式的處理和分類(lèi)。一旦理解了問(wèn)題,它就會(huì )調用一個(gè)程序來(lái)尋找答案。一個(gè)將非結構化數據轉換為結構化數據的應用(UIMA)已經(jīng)事先將答案所在的數據進(jìn)行了處理。然后查詢(xún)面板基于OpenNLP對問(wèn)題的理解來(lái)從這些數據集中尋找答案。一旦問(wèn)題被讀取后,答案會(huì )被顯示回查詢(xún)面板。
【IBM Watson的基本原理和大數據分析】相關(guān)文章:
IBM大數據分析07-09
IBM認證考試科目和題型07-26
個(gè)人理財有哪些基本原理和方法07-29
離子交換的基本原理和裝置運行方式09-25
IBM和Visa變?yōu)闈撛阡N(xiāo)售點(diǎn)06-26
IBM簡(jiǎn)介07-09
服裝設計形式美基本原理和法則02-19
瑜伽養生基本原理10-28