激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

<form id="6ex7j"></form>

基于自編碼神經(jīng)網(wǎng)絡(luò )建立的搜索信息模型

時(shí)間：2024-06-28 04:36:32 計算機網(wǎng)絡(luò )畢業(yè)論文我要投稿

相關(guān)推薦

基于自編碼神經(jīng)網(wǎng)絡(luò )建立的搜索信息模型

　　摘要：根據用戶(hù)搜索歷史，將用戶(hù)關(guān)注的信息按標題分類(lèi)，通過(guò)自編碼神經(jīng)網(wǎng)絡(luò )提取特征值。設定學(xué)習樣本標題最多為25個(gè)漢字，編碼方式采用漢字機內碼(GBK碼)。使用MATLAB工具進(jìn)行深度學(xué)習，將樣本在原空間的特征表示變換到一個(gè)新的特征空間。

　　關(guān)鍵字：文本特征;自編碼神經(jīng)網(wǎng)絡(luò );深度學(xué)習;Matlab

　　基于自編碼神經(jīng)網(wǎng)絡(luò )建立搜索信息模型的目的是根據用戶(hù)搜索信息的歷史，推斷出網(wǎng)頁(yè)中的內容是用戶(hù)關(guān)注的信息并即時(shí)顯示。首先將用戶(hù)關(guān)注的歷史信息按標題分類(lèi)，通過(guò)自編碼神經(jīng)網(wǎng)絡(luò )建立標題特征值數據庫。當自編碼神經(jīng)網(wǎng)絡(luò )搜索信息模型工作時(shí)，按照用戶(hù)提供的關(guān)鍵詞順序，打開(kāi)用戶(hù)經(jīng)常瀏覽的網(wǎng)頁(yè)，讀入標題文本，若具有數據庫中的標題特征，則將該標題的文本內容即時(shí)顯示。

　　直接解析網(wǎng)頁(yè)中的標題文本，面臨的基本問(wèn)題是文本的表示。如果把標題文本所有的詞都作為特征項，那么太多的特征向量維數導致計算量太大。例如50個(gè)標題，每個(gè)標題25個(gè)漢字，特征項將有50×25=1250個(gè)。如果將標題中的某個(gè)關(guān)鍵詞作為特征詞，將會(huì )有幾千個(gè)包含關(guān)鍵詞的標題，從而導致讀入分析量過(guò)于巨大。本文采用自編碼神經(jīng)網(wǎng)絡(luò )，用映射變換的方法把原始文本特征變換為較少的新特征，提高信息搜索效率。

　　1 自編碼神經(jīng)網(wǎng)絡(luò )

　　1.1 自編碼神經(jīng)網(wǎng)絡(luò )理論

　　Auto-Encoder(自編碼)[1]，自編碼算法是一種基于神經(jīng)網(wǎng)絡(luò )算法的無(wú)監督學(xué)習算法，與神經(jīng)網(wǎng)絡(luò )算法的不同之處是將輸入值作為輸出節點(diǎn)的輸出。自編碼算法的另一個(gè)特征是隱藏層節點(diǎn)的個(gè)數一般少于輸入輸出節點(diǎn)的個(gè)數。這樣的意義是將輸入的特征通過(guò)神經(jīng)網(wǎng)絡(luò )的非線(xiàn)性變換到節點(diǎn)數更少的隱藏層。因此，可以通過(guò)自編碼神經(jīng)網(wǎng)絡(luò )對給定的樣本進(jìn)行訓練學(xué)習，從而得到輸入數據降維后的特征，即為隱藏層的節點(diǎn)數，省去了人工特征提取的麻煩。

　　自編碼神經(jīng)網(wǎng)絡(luò )結構示意圖如圖1所示[2]。這是一種深度學(xué)習的神經(jīng)網(wǎng)絡(luò )，包含了多個(gè)隱含層，整個(gè)網(wǎng)絡(luò )是一種對稱(chēng)的結構，中心層的神經(jīng)元的個(gè)數最少。網(wǎng)絡(luò )通過(guò)對樣本的訓練可以得到一組權值系數，而輸入數據通過(guò)這組權值系數表達成低維形式，從而達到了用降維后的特征表示出輸入的數據。

　　圖1 自編碼神經(jīng)網(wǎng)絡(luò )的結構

　　Fig.1 The structure of auto-encoder neural network

　　1.1.1 預訓練

　　(1) 輸入參數的確定：標題是作者給出的提示文章內容的短語(yǔ)，標題一般都簡(jiǎn)練、醒目，有不少縮略語(yǔ)，與報道的主要內容有著(zhù)重要的聯(lián)系。如登陸我的鋼鐵網(wǎng)站，搜索鋼管熱點(diǎn)資訊，顯示的標題有“我國自主研制*****油管成功替代進(jìn)口”，學(xué)習樣本選擇50組標題，每個(gè)標題不超過(guò)25個(gè)漢字，如表1所示。

　　表1 學(xué)習樣本

　　Tab. 1 Learning samples

　　1

　　我國自主研制高端耐熱鋼無(wú)縫鋼管成功替代進(jìn)口

　　2

　　我國自主研制K55石油套管成功替代進(jìn)口

　　3

　　我國自主研制J55稠油熱采套管成功替代進(jìn)口

　　4

　　我國自主研制專(zhuān)用耐高溫防火船舶用套管成功替代進(jìn)口

　　5

　　我國自主研制20G高壓鍋爐管成功替代進(jìn)口

　　6

　　我國自主研制特殊用途低溫用管成功替代進(jìn)口

　　7

　　我國自主研制起重機臂架無(wú)縫鋼管成功替代進(jìn)口

　　8

　　我國自主研制精密合金4J36船用管材成功替代進(jìn)口

　　9

　　我國自主研制高強韌性高抗擠毀套管成功替代進(jìn)口

　　10

　　我國自主研制三種極限規格管線(xiàn)管成功替代進(jìn)口

　　…

　　……

　　50

　　我國自主研制醫藥化工用管成功替代進(jìn)口

　　(2) 語(yǔ)句預處理[3]：學(xué)習樣本句子進(jìn)行預處理是把句子中的每一個(gè)漢字變換成自編碼神經(jīng)網(wǎng)絡(luò )模型能接受的數字化形式。為了使神經(jīng)網(wǎng)絡(luò )能接受外部數據，首先要對句子中的漢字進(jìn)行編碼，編碼方式是采用漢字的計算機內碼(GBK碼)。每個(gè)漢字機內碼有16位二進(jìn)制，如：“我國自主研制”的二進(jìn)制碼為

　　1100111011010010 我(GBK碼)

　　1011100111111010 國(GBK碼)

　　1101011111010100 自(GBK碼)

　　1101011011110111 主(GBK碼)

　　1101000111010000 研(GBK碼)

　　1101011011000110 制(GBK碼)

　　將16位二進(jìn)制數轉換為十進(jìn)制數并進(jìn)行線(xiàn)性變換，映射到實(shí)數[0 1]之間，作為輸入神經(jīng)元初值。變換公式如下：

　　式中：maxi和mini;tmax和tmin分別為x(p)i，t(p)量程范圍的最大值和最小值。

　　(3)預訓練：幾個(gè)獨立的RBM構成“堆棧”構成了預訓練部分，而RBM是BM (boltzmannmachine)的一種特殊連接方式。圖2即為RBM的網(wǎng)絡(luò )構成。它是一種隱含層神經(jīng)元無(wú)連接，并且只有可見(jiàn)層和隱含層兩層神經(jīng)元。

　　圖2 RBM網(wǎng)絡(luò )構成

　　Fig. 2 Construction of restricted boltzmannmachine

　　BM的權值調整公式為[4]

　　(1)

　　式中：在第t步時(shí)神經(jīng)元i、j間的連接權值為wij(t);η為學(xué)習速率;T為網(wǎng)絡(luò )溫度;+、-分別為正向平均關(guān)聯(lián)和反向平均關(guān)聯(lián)。

　　在RBM中，可見(jiàn)層神經(jīng)元的輸出和隱含層神經(jīng)元輸出的乘積即為平均關(guān)聯(lián)。系數ε由η和T統一合并而成，迭代步長(cháng)即由權值調整公式ε表示。

　　圖3 RBM網(wǎng)絡(luò )結構圖

　　Fig. 3 RBM network structure diagram

　　(4)MATLAB實(shí)現：

　　本文建立的BP神經(jīng)網(wǎng)絡(luò )模型結構為

　　[25，15，25]，[15，12，15]，[12，10，12]，[10，8，10]，[8，5，8]

　　設定網(wǎng)絡(luò )隱含層的激活函數為雙曲正切S型函數tansig，輸出層的激活函數為線(xiàn)性激活函數purelin，網(wǎng)絡(luò )的訓練函數為L(cháng)evenberg-Marquardt算法訓練函數trainlm。因此對應的MATLAB神經(jīng)網(wǎng)絡(luò )工具箱的程序語(yǔ)句為

　　net=newff(minmax(P)，[25，25]，{‘tansig’，’purelin’}， ’trainlm’);

　　net=newff(minmax(P)，[15，15]，{‘tansig’，’purelin’}，’trainlm’);

　　net=newff(minmax(P)，[12，12]，{‘tansig’，’purelin’}，’trainlm’);

　　net=newff(minmax(P)，[10，10]，{‘tansig’，’purelin’}，’trainlm’);

　　net=newff(minmax(P)，[8，8]，{‘tansig’，’purelin’}，’trainlm’);

　　設定學(xué)習速率為0.01，最大訓練步數為300，目標誤差為0.00001。

　　(5)預訓練結果：

　　預訓練結果如表2所示。

　　表2 預訓練結果

　　Tab. 2 The results of pre training

　　誤差

　　學(xué)習速率

　　步長(cháng)

　　[25，15，25]

　　0.003248

　　0.01

　　150

　　[15，12，15]

　　0.0022809

　　0.01

　　125

　　[12，10，12]

　　0.0025866

　　0.01

　　100

　　[10，8，10]

　　0.0039575

　　0.01

　　75

　　[8，5，8]

　　0.013529

　　0.01

　　50

　　1.1.2 展開(kāi)

　　如圖4所示，將各個(gè)RBM連接，得到自編碼神經(jīng)網(wǎng)絡(luò )。預訓練所得到的權值，將作為整個(gè)自編碼神經(jīng)網(wǎng)絡(luò )的初始權值，參與整個(gè)網(wǎng)絡(luò )的微調訓練。

　　圖4 RBM展開(kāi)圖

　　Fig. 4 Development of RBM network structure

　　1.1.3 微調

　　微調訓練是在預訓練得到初始權值的基礎上，對權值進(jìn)一步調整。采用以交叉熵為目標函數[5]的BP算法完成網(wǎng)絡(luò )的微調訓練。交叉熵是用來(lái)度量?jì)蓚€(gè)概率分布間差異性的，它是一個(gè)非負數，兩個(gè)分布越相似，其越小。原始的交叉熵定義為

　　(4)

　　式中：x為隨機變量;q(x)為已知概率分布;p(x)為估計概率分布。

　　對于隨機變量x，當用q(x)估計p(x)時(shí)，通過(guò)調整受x影響的p(x)來(lái)最小化交叉熵D(p‖q)，用于自編碼神經(jīng)網(wǎng)絡(luò )權值調整的BP算法交叉熵函數形式為

　　(5)

　　式中：ti目標概率分布;yi實(shí)際概率分布。

　　整個(gè)網(wǎng)絡(luò )訓練的目的是調整權值以使交叉熵函數達到最小，權值調整公式為

　　根據上面的權值調整公式，可以完成網(wǎng)絡(luò )的微調訓練。訓練結果如表3所示。

　　表3 微調訓練結果

　　1.1.4 特征提取

　　50組標題(每個(gè)標題不超過(guò)25個(gè)漢字)的學(xué)習訓練，通過(guò)自編碼網(wǎng)絡(luò )的逐層特征變換，將樣本數據約1250(50×25)個(gè)漢字編碼，在原空間的特征表示變換到一個(gè)新特征空間。其中網(wǎng)絡(luò )最深隱含層的輸出值(5個(gè))和權值矩陣W6(5×8=40個(gè))，共計45個(gè)，為提取標題文本1250個(gè)漢字編碼的特征值。

　　2 實(shí) 例

　　本文選取10組標題文本見(jiàn)表4，分別輸入自編碼神經(jīng)網(wǎng)絡(luò )。預測結果表示基本符合要求。

　　表4 預測結果

　　Tab. 4 The prediction results

　　序號

　　樣本輸入

　　結果顯示

　　1

　　我國自主研制的蛟龍號深水探測器成功替代進(jìn)口

　　無(wú)

　　2

　　我國自主研制首臺3.6萬(wàn)噸垂直擠壓機擠合格鋼管成功替代進(jìn)口

　　我國自主研制首臺3.6萬(wàn)噸垂直擠壓機擠合格鋼管成功替代進(jìn)口

　　3

　　我國自主研制的超級計算機系統成功替代進(jìn)口

　　無(wú)

　　4

　　我國自主研發(fā)的1000MPa高壓共軌管成功替代進(jìn)口

　　我國自主研發(fā)的1000MPa高壓共軌管成功替代進(jìn)口

　　5

　　我國自主研制超臨界電站無(wú)縫鋼管T92、P92成功替代進(jìn)口

　　我國自主研制超臨界電站無(wú)縫鋼管T92、P92成功替代進(jìn)口

　　6

　　我國自主研制重載火車(chē)頭下線(xiàn)成功替代進(jìn)口

　　無(wú)

　　7

　　我國自主研制成功特高壓交、直流套管成功替代進(jìn)口

　　我國自主研制成功特高壓交、直流套管成功替代進(jìn)口

　　8

　　我國自主研制的Q355GNH系列耐候鋼成功替代進(jìn)口

　　我國自主研制的Q355GNH系列耐候鋼成功替代進(jìn)口

　　9

　　我國自主研制的渦槳支線(xiàn)飛機成功替代進(jìn)口

　　無(wú)

　　10

　　我國自主研制釩微合金L290管線(xiàn)鋼成功替代進(jìn)口

　　我國自主研制釩微合金L290管線(xiàn)鋼成功替代進(jìn)口

　　3 結語(yǔ)

　　本文按照標題文本分類(lèi)檢索信息，解決了直接按照關(guān)鍵詞搜索信息，網(wǎng)頁(yè)中經(jīng)常顯示幾千條包含關(guān)鍵詞內容的標題本文，從而導致讀入分析信息量過(guò)于巨大的問(wèn)題。通過(guò)自編碼神經(jīng)網(wǎng)絡(luò )提取文本特征，在不損傷文本核心信息的情況下盡量減少要處理的單詞數，以此來(lái)降低向量空間維數，簡(jiǎn)化計算，提高了文本處理的速度和效率。

　　參考文獻：

　　[2] 趙杜娟，劉高平，黃華，等.自編碼神經(jīng)網(wǎng)絡(luò )車(chē)牌字符識別研究[C]//多媒體學(xué)術(shù)會(huì )議(NCMT2009). 西安：清化大學(xué)出版社， 2009： 113-119.

　　[3] 吳芬芬. 信息抽取算法研究. 吉林大學(xué)碩士學(xué)位論文， 2006.

　　[4] 劉高平，趙杜娟，黃華.基于自編碼神經(jīng)網(wǎng)絡(luò )重構的車(chē)牌數字識別[J].電子激光， 2011， 22(1)： 144-148.LIU

　　[5] ZHANG Jian， FAN Xiaoping， et al. Research on characters segmentation and characters recognition in intelligent LPR system[C]//Proceedings of the 25th Chinese Control Conference. Harbi： Beihang University Press， 2006： 7-11.

　　[1]G.E.Hinton， R.R.Salakhutdinov. Reducing the Dimensio- nality of Data with Neural Networks， Science 313：504-507， 2006.

【基于自編碼神經(jīng)網(wǎng)絡(luò )建立的搜索信息模型】相關(guān)文章：

基于改進(jìn)BP的神經(jīng)網(wǎng)絡(luò )模型參考自適應控制03-21

基于社會(huì )網(wǎng)絡(luò )的信息傳播度量模型論文11-22

基于MapX的城市GIS的初步建立03-07

應對IT風(fēng)險-企業(yè)建立COBIT模型的探討02-26

基于LMBP神經(jīng)網(wǎng)絡(luò )的聲納圖像識別03-07

人工神經(jīng)網(wǎng)絡(luò )模型及其在優(yōu)化問(wèn)題中的應用03-07

基于戰略系統的審計風(fēng)險模型研究03-04

基于活動(dòng)的日活動(dòng)計劃模型研究11-22

基于顧客價(jià)值的共生營(yíng)銷(xiāo)模型研究03-22

最新推薦

激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

<form id="by8xq"></form>

<sub id="by8xq"></sub>

<td id="by8xq"></td>