激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

《數學(xué)之美》讀書(shū)筆記

時(shí)間:2021-04-16 09:30:09 讀書(shū)筆記 我要投稿

《數學(xué)之美》讀書(shū)筆記

  讀完一本名著(zhù)以后,大家一定對生活有了新的感悟和看法,是時(shí)候寫(xiě)一篇讀書(shū)筆記好好記錄一下了。想必許多人都在為如何寫(xiě)好讀書(shū)筆記而煩惱吧,下面是小編精心整理的《數學(xué)之美》讀書(shū)筆記,僅供參考,希望能夠幫助到大家。

《數學(xué)之美》讀書(shū)筆記

  《數學(xué)之美》讀書(shū)筆記1

  讀完本書(shū),第一感受:次奧!原來(lái)數學(xué)如此多的原理模型概念都可以用去解決各種IT技術(shù)問(wèn)題啊。特別是語(yǔ)言識別和自然語(yǔ)言處理這類(lèi)問(wèn)題完全就是建立在數學(xué)原理之上的?傊,這本書(shū)就是用非常深入淺出的話(huà)去說(shuō)明如何用數學(xué)方法去解決計算機的各種工程問(wèn)題。這是一本講道,而不是術(shù)的書(shū)。 要完全讀懂這本書(shū),我覺(jué)得至少需要掌握這三門(mén)課:高等數學(xué),離散數學(xué),還有概率論與數理統計。唉我當初數學(xué)學(xué)得太水了,還掛了高數啊。有好的概念沒(méi)看懂,以后有時(shí)間在好好看吧。如果想搞計算機研究的話(huà),數學(xué)基礎必不可少,別總在抱怨各種數學(xué)課上的東西一輩子都用不著(zhù)。

  發(fā)現作者對人類(lèi)自然發(fā)展的認識非常深,其從語(yǔ)言,文字,數學(xué)的產(chǎn)生發(fā)展,信息的傳播記錄得出了這個(gè)結論:信息的產(chǎn)生傳播接收反饋,和今天最先進(jìn)的通信在原理上沒(méi)有任何差別。就算是科學(xué)上最高深的技術(shù),那也是模擬我們生活中的一些基本原理。

  我們今天使用的十進(jìn)制,就是我們扳手指扳了十次,就進(jìn)一次位。而瑪雅文明他們數完了手指和腳指才開(kāi)始進(jìn)位,所以他們用的是二十進(jìn)制。實(shí)際上阿拉伯數字是古印度人發(fā)明的,只是歐洲人不知道這些數字的真正發(fā)明人是古印度,而就把這功勞該給了“二道販子”阿拉伯人。

  語(yǔ)言的數學(xué)本質(zhì)

  任何一種語(yǔ)言都是一種編碼方式,比如我們把一個(gè)要表達的意思,通過(guò)語(yǔ)言一句話(huà)表達出來(lái),就是利用編碼方式對頭腦中的信息做了一次編碼,編碼的結果就是一串文字,聽(tīng)者則用這語(yǔ)言的解碼方法獲得說(shuō)話(huà)者要表達的信息。

  自然語(yǔ)言處理模型

  計算機是很笨的,他們唯一會(huì )做的就是計算。自然語(yǔ)言處理在數學(xué)模型上是基于統計的,說(shuō)一個(gè)句子是否合理,就看看他出現的可能性大小如何,可能性就是用概率來(lái)衡量,比如一個(gè)句子,出現的概率為1/10^10,另一個(gè)句子出現的概率為1/10^20,那么我們就可以說(shuō)第一個(gè)句子比第二個(gè)句子更加合理。當然這要求有足夠的觀(guān)測值,他有大數定理在背后支持。

  最早的中文分詞方法

  這句話(huà):“同學(xué)們呆在圖書(shū)館看書(shū)”,如何分詞?應該是這樣:同學(xué)們/呆在/圖書(shū)館/看書(shū)。最先的方法是北航一老師提出的查字典方法,就是把句子從左道右掃描一遍,遇到字典里面出現的詞就標示出來(lái),遇到復合詞如(北京大學(xué))就按照最長(cháng)的分詞匹配,遇到不認識的字串就分割成單個(gè)字,于是中文的分詞就完成了。但是這只能解決78成的分詞問(wèn)題,但是“像發(fā)展中國家”這種短語(yǔ)它是分不出來(lái)的。后來(lái)大陸用基于統計語(yǔ)言模型方法才解決了。

  隱含馬可夫模型(沒(méi)這么看懂)

  一直被認為是解決打多數自然語(yǔ)言處理問(wèn)題最為快速有效的方法,大致意思是:隨機過(guò)程中各個(gè)狀態(tài)的概率分布,只與他的前一個(gè)狀態(tài)有關(guān)。比如對于天氣預報,我們只假設今天的氣溫只與昨天有關(guān)而與前天沒(méi)有關(guān)系,這雖然不完美,但是以前不好解決的問(wèn)題都可以給出近視值了。

  一個(gè)讓我印象深刻的觀(guān)點(diǎn):

  小學(xué)生和中學(xué)生其實(shí)沒(méi)有必要花那么多時(shí)間去讀書(shū),其覺(jué)得最主要的是孩子們的社會(huì )經(jīng)驗,生活能力,和那時(shí)候樹(shù)立起來(lái)的志向,這將幫助他們一生。而中學(xué)生階段花很多時(shí)間比同伴多讀的課程,在大學(xué)以后可以用非常短的時(shí)間就可以讀完。因為在大學(xué)階段,人的理解能力要強很多,比如中學(xué)要花500小時(shí)才能搞明白的內容,大學(xué)可能花100小時(shí)就搞定了。學(xué)習和教育是一個(gè)人一輩子的事情,很多中學(xué)成績(jì)好的人進(jìn)入大學(xué)后有些就表現不太好了,要有不斷學(xué)習的動(dòng)力才行。

  余弦定理和新聞分類(lèi)

  我在新浪干過(guò)一年多新聞,這篇認真看了一篇,很吃驚原理cos x與新聞分析也有關(guān)系啊。google的新聞服務(wù)是由計算機自動(dòng)整理分類(lèi)的。而傳統的媒體如門(mén)戶(hù)網(wǎng)站是讓編輯讀懂新聞,找到主題,再分類(lèi)分級別的,真苦逼啊。計算機自動(dòng)分類(lèi)原理是這樣:如一篇新聞?dòng)?0000個(gè)詞,組成一個(gè)萬(wàn)維向量,這個(gè)向量就代表這篇新聞,可以通過(guò)某種算法表達這個(gè)新聞主題的類(lèi)型,如果兩個(gè)向量的方向一致,說(shuō)明對應的新聞?dòng)迷~一致,方向可用夾角表示,夾角可用余弦定理表示,所以當夾角的余弦值接近于1時(shí),這兩篇新聞就可以歸為一類(lèi)了。

  沒(méi)看懂的東西:

  布爾代數:布爾代數把邏輯學(xué)和數學(xué)合二為一,給了我們一個(gè)全新的視角看世界。

  網(wǎng)絡(luò )爬蟲(chóng)的基本原來(lái)是利用了圖論的廣度優(yōu)先搜索和深度優(yōu)先搜索。

  搜索引擎的結果排名用了稀疏矩陣的計算。

  地圖最基本的計算是利用了有限狀態(tài)機和圖論的最短路徑。

  密碼學(xué)原理,最大熵模型,拼音輸入法的數學(xué)模型,布隆過(guò)濾器,貝葉斯網(wǎng)絡(luò )等等。

  任何事物都有它的發(fā)展規律,當我們認識了規律后,應當在生活工作中遵循規律,希望大家透過(guò)IT規律的認識,可 以舉一反三的總結學(xué)習認識規律,這樣有助于自己的境界提升一個(gè)層次。

  任何問(wèn)題總是能找到相應的準確數學(xué)模型,一個(gè)正確的數學(xué)模型在形式上應當是簡(jiǎn)單的,一個(gè)好的方法在形式上應當也是簡(jiǎn)單的。簡(jiǎn)單才是美。

  《數學(xué)之美》讀書(shū)筆記2

  最近看了這本《數學(xué)之美》,不得不感嘆一句,可惜早已身不在起點(diǎn)。

  我讀書(shū)的時(shí)候,數學(xué)成績(jì)一直都很好,雖然離開(kāi)學(xué)校已經(jīng)10多年,自覺(jué)當初的知識還是記得很多,6~7年前再考線(xiàn)性代數和概率論,還是得到了很高的分數。不過(guò)我也和大部分人一樣,覺(jué)得數學(xué)沒(méi)有太多用處,特別是高中和大學(xué)里面學(xué)的,那些三角函數,向量,大數定律,解析幾何,除了在考試的題目里面用一下,平時(shí)又有什么地方可以用呢?

  看了《數學(xué)之美》,驚嘆于數學(xué)的浩瀚和簡(jiǎn)單,說(shuō)它浩瀚,是因為它的分支涵蓋了科學(xué)的方方面面,是所有科學(xué)的理論基礎,說(shuō)它簡(jiǎn)單,無(wú)論多復雜的問(wèn)題,最后總結的數學(xué)公式都簡(jiǎn)單到只有區區幾個(gè)符號和字母。

  這本書(shū)介紹數學(xué)理論在互聯(lián)網(wǎng)上的運用,平時(shí)我們在使用互聯(lián)網(wǎng)搜索或者翻譯功能的時(shí)候,時(shí)常會(huì )感嘆電腦對自己的了解和它的聰明,其實(shí)背后的原理就是一個(gè)個(gè)精美的算法和大量數據的訓練。那些或者熟悉或者陌生的數學(xué)知識(聯(lián)合概率分布,維特比算法,期望最大化,貝葉斯網(wǎng)絡(luò ),隱形馬爾可夫鏈,余弦定律,etc),一步步構建了我們現在所賴(lài)以生存的網(wǎng)上世界。

  之所以覺(jué)得自己早已身不在起點(diǎn),是因為上面這些數學(xué)知識,早已經(jīng)不在我的知識框架之內,就算曾經(jīng)學(xué)過(guò),也不過(guò)是囫圇吞棗一樣的強記硬背,沒(méi)有領(lǐng)會(huì )過(guò)其中的真正意義。而今天想重頭在來(lái)學(xué)一次,其實(shí)已經(jīng)不可能了。且不說(shuō)要花費多少的精力和時(shí)間,還需要的是領(lǐng)悟力。而這一些,已經(jīng)不是我可以簡(jiǎn)單付出的。

  不像物理、化學(xué)需要復雜的實(shí)驗來(lái)驗證,很多數學(xué)的證明,幾乎只要有一顆聰明的頭腦和無(wú)數的草稿紙,可是光是這顆聰明的頭腦,就可以阻攔掉很多人。有人說(shuō)多讀書(shū)就會(huì )聰明,我不否認,書(shū)本的確會(huì )提供很多知識,可是不同的人讀同一本書(shū)也會(huì )有不同的收貨,這就限制于每個(gè)人的知識框架和認知水平。就如一個(gè)數學(xué)功底好過(guò)我的人,看這本書(shū),就會(huì )更容易理解里面的公式和推導出這些公式的其他運用點(diǎn),而我,只能站在數學(xué)的門(mén)口,感嘆一句,它真的好美吧。

  當然,我暫時(shí)無(wú)法在實(shí)際生活中運用這些數學(xué)公式,可是書(shū)中提到的一些方法論,還是很有幫助的

  1)一個(gè)產(chǎn)業(yè)的顛覆或者創(chuàng )新,大部分來(lái)自于外部的力量,比如用統計學(xué)原理做自然語(yǔ)言處理。

  2)基礎知識和基礎數據是很重要性,只有足夠多和足夠廣的數據,才可以提供有效的分析,和驗證分析方法的好壞。

  3)先幫用戶(hù)解決80%的問(wèn)題,在慢慢解決剩下的20%的問(wèn)題;

  4)不要等一個(gè)東西完美了,才發(fā)布;

  5)簡(jiǎn)單是美,堅持選擇簡(jiǎn)單的做法,這樣會(huì )容易解釋每一個(gè)步驟和方法背后的道理,也便于查錯。

  6)正確的模型也可能受噪音干擾,而顯得不準確;這時(shí)不應該用一種湊合的修正方法加以彌補,而是要找到噪音的根源,從根本上修正它。

  7)一個(gè)人想要在自己的領(lǐng)域做到世界一流,他的周?chē)仨氂蟹浅6嗟囊涣魅宋铩?/p>

  《數學(xué)之美》讀書(shū)筆記3

  《數學(xué)之美》是一本領(lǐng)域相關(guān)的數學(xué)概念書(shū),生動(dòng)形象地講解了關(guān)于數據挖掘、文本檢索等方面的基礎知識,可以作為數據挖掘、文本檢索的入門(mén)普及書(shū)。另外,就像作者吳軍老師提到的,關(guān)鍵是要從中學(xué)到道————解決問(wèn)題的方法,而不僅僅是術(shù)。書(shū)中也啟發(fā)式的引導讀者形成自己解決問(wèn)題的道。

  下面記錄一下自己讀這本書(shū)的一些感想:

  第一章《文字和語(yǔ)言vs數字和信息》:文字和語(yǔ)言中天然蘊藏著(zhù)一些數學(xué)思想,數學(xué)可能不僅僅的是一門(mén)非常理科的知識,也是一種藝術(shù)。另外,遇到一個(gè)復雜的問(wèn)題時(shí),可能生活中的一些常識,一些簡(jiǎn)單的思想會(huì )給你帶來(lái)解決問(wèn)題的靈感。

  第二章《自然語(yǔ)言處理————從規則到統計》:試圖模擬人腦處理語(yǔ)言的模式,基于語(yǔ)法規則,詞性等進(jìn)行語(yǔ)法分析、語(yǔ)義分析的自然語(yǔ)言處理有著(zhù)很大的復雜度,而基于統計的語(yǔ)言模型很好的解決了自然語(yǔ)言處理的諸多難題。人們認識這個(gè)過(guò)程,找到統計的方法經(jīng)歷了20多年,非常慶幸我們的前輩已經(jīng)幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說(shuō)明在發(fā)現真理的過(guò)程中是充滿(mǎn)坎坷的,感謝那些曾經(jīng)奉獻了青春的科學(xué)家。自己以后遇到問(wèn)題也不能輕易放棄,真正的成長(cháng)是在解決問(wèn)題的過(guò)程中。事情不可能一帆風(fēng)順的,這是自然界的普遍真理吧!

  第三章《統計語(yǔ)言模型》:自然語(yǔ)言的處理找到了一種合適的方法———基于統計的模型,概率論的知識開(kāi)始發(fā)揮作用。二元模型、三元模型、多元模型,模型元數越多,計算量越大,簡(jiǎn)單實(shí)用就是最好的。對于某些不出現或出現次數很少的詞,會(huì )有零概率問(wèn)題,這是就要找到一數學(xué)方法給它一個(gè)很小的概率。以前學(xué)概率論的時(shí)候覺(jué)的沒(méi)什么用,現在開(kāi)始發(fā)現這些知識可能就是你以后解決問(wèn)題的利器。最后引用作者本章的最后一句話(huà):數學(xué)的魅力就在于將復雜的問(wèn)題簡(jiǎn)單化。

  第四章《談?wù)勚形姆衷~》:中文分詞是將一句話(huà)分成一些詞,這是以后進(jìn)一步處理的基礎。從開(kāi)始的查字典到后來(lái)基于統計語(yǔ)言模型的分詞,如今的中文分詞算是一個(gè)已經(jīng)解決的問(wèn)題。然而,針對不同的系統、不同的要求,分詞的粒度和方法也不盡相同,還是針對具體的問(wèn)題,提出針對該問(wèn)題最好的方法。沒(méi)有什么是絕對的,掌握其中的道才是核心。

  第五章《隱馬爾科夫模型》:隱馬爾科夫模型和概率論里面的馬爾科夫鏈相似,就是該時(shí)刻的狀態(tài)僅與前面某幾個(gè)時(shí)刻的狀態(tài)有關(guān);诖罅繑祿柧毘鱿鄳碾[馬爾科夫模型,就可以解決好多機器學(xué)習的問(wèn)題,訓練中會(huì )涉及到一些經(jīng)典的算法(維特比算法等)。關(guān)于這個(gè)模型,沒(méi)有實(shí)際實(shí)現過(guò),所以感覺(jué)好陌生,只是知道了些概率論講過(guò)的原理而已。

  第六章《信息的度量和作用》:信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統的不確定性,同理自然語(yǔ)言處理的大量問(wèn)題就是找相關(guān)的信息。信息熵的物理含義是對一個(gè)信息系統不確定性的度量,這一點(diǎn)與熱力學(xué)中的熵概念相同,看似不同的學(xué)科之間也會(huì )有著(zhù)很強的相似性。事務(wù)之間是存在聯(lián)系的,要學(xué)會(huì )借鑒其他知識。

  第七章《賈里尼克和現代語(yǔ)言處理》:賈里尼克是為世界級的大師,不僅在于他的學(xué)術(shù)成就,更在于他的風(fēng)范。賈里尼克教授少年坎坷,也并非開(kāi)始就投身到自然語(yǔ)言方面的研究,關(guān)鍵是他的思想和他的道。賈里克尼教授治學(xué)嚴謹、用心對待自己的學(xué)生,對于學(xué)生的教導,教授告訴你最多的是“什么方法不好”,這很像聽(tīng)到的一句話(huà)“我不贊同你,但我支持你”。賈里克尼教授一生專(zhuān)注學(xué)習,最后在辦公桌前過(guò)世了。讀了這章我總結出的一句話(huà)是“思想決定一個(gè)人的高度”。

  在這章中對于少年時(shí)的教育,以下幾點(diǎn)值得借鑒:

  1、少年時(shí)期其實(shí)沒(méi)有必要花那么多時(shí)間讀書(shū),他們的社會(huì )經(jīng)驗、生活能力以及在那時(shí)樹(shù)立起的志向將幫助他們一生。

  2、中學(xué)時(shí)花大量時(shí)間學(xué)會(huì )的內容,在大學(xué)用非常短的時(shí)間就可以讀完,因為在大學(xué)階段,人的理解力要強很多。

  3、學(xué)習(和教育)是一個(gè)人一輩子的過(guò)程。

  4、書(shū)本的內容可以早學(xué),也可以晚學(xué),但是錯過(guò)了成長(cháng)階段卻是無(wú)法補回來(lái)的。

  第八章《簡(jiǎn)單之美————布爾代數和搜索引擎的索引》:布爾是19世紀英國的一位中學(xué)教師,但他的公開(kāi)身份是啤酒商,提出好的思想的人不一定是大師。簡(jiǎn)單的建立索引可以根據一個(gè)詞是否在一個(gè)網(wǎng)頁(yè)中出現而設置為0和1,為了適應索引訪(fǎng)問(wèn)的速度、附加的信息、更新要快速,改進(jìn)了索引的建立,但原理上依然簡(jiǎn)單,等價(jià)于布爾運算。牛頓的一句話(huà)“(人們)發(fā)覺(jué)真理在形式上從來(lái)是簡(jiǎn)單的,而不是復雜和含混的”。做好搜索,最基本的要求是每天分析10—20個(gè)不好的搜索結果,積累一段時(shí)間才有感覺(jué)。有時(shí)候,學(xué)習、處理問(wèn)題,可以從不好的方面入手,效果可能更好。

  第九章《圖論和網(wǎng)絡(luò )爬蟲(chóng)》:圖的遍歷分為“廣度優(yōu)先搜索(Breadth—FirstSearch,簡(jiǎn)稱(chēng)BFS)”和“深度優(yōu)先搜索(Depth—FirstSearch,簡(jiǎn)稱(chēng)DFS);ヂ(lián)網(wǎng)上有幾百億的網(wǎng)頁(yè),需要大量的服務(wù)器用來(lái)下載網(wǎng)頁(yè),需要協(xié)調這些服務(wù)器的任務(wù),這就是網(wǎng)絡(luò )設計和程序設計的藝術(shù)了。另外對于簡(jiǎn)單的網(wǎng)頁(yè),沒(méi)必要下載。還需要存儲一張哈希表來(lái)記錄哪些網(wǎng)頁(yè)已經(jīng)存儲過(guò)(如果記錄每個(gè)網(wǎng)頁(yè)的url,數量太多,這里可以用后面提到的信息指紋,只需要一個(gè)很多位的數字即可),避免重復下載。另外,在圖論出現的很長(cháng)一段時(shí)間里,實(shí)際需求的圖只有幾千個(gè)節點(diǎn),那時(shí)圖的遍歷很簡(jiǎn)單,人們都沒(méi)有怎么專(zhuān)門(mén)研究這個(gè)問(wèn)題,隨著(zhù)互聯(lián)網(wǎng)的出現,圖的遍歷一下子有了用武之地,很多數學(xué)方法就是這樣,看上去沒(méi)有什么用途,等到具體的應用出來(lái)了一下子開(kāi)始派上大用場(chǎng)了,這可能就是世界上很多人畢生研究數學(xué)的原因吧。一個(gè)系統看似整體簡(jiǎn)單,但里面的每個(gè)東西都可能是一個(gè)復雜的東西,需要很好的設計。

  第十章《PageRank————Google的民主表決式網(wǎng)頁(yè)排名技術(shù)》:搜索返回了成千上萬(wàn)條結果,如何為搜索結果排名?這取決與兩組信息:關(guān)于網(wǎng)頁(yè)的質(zhì)量信息以及這個(gè)查詢(xún)和每個(gè)網(wǎng)頁(yè)的相關(guān)性信息。PageRank算法來(lái)衡量一個(gè)網(wǎng)頁(yè)的質(zhì)量,該算法的思想是如果一個(gè)網(wǎng)頁(yè)被很多其他網(wǎng)頁(yè)所鏈接,說(shuō)明它收到普遍的承認和信賴(lài),那么它的排名就高。谷歌的創(chuàng )始人佩奇和布林提出了該算法并用迭代的方法解決了這個(gè)問(wèn)題。PageRank在Google所有的算法中依然是至關(guān)重要的。該算法并不難,可是當時(shí)只有佩奇和布林想到了,為什么呢?

  第十一章《如何確定網(wǎng)頁(yè)和查詢(xún)的相關(guān)性》:構建一個(gè)搜索引擎的四個(gè)方面:如何自動(dòng)下載網(wǎng)頁(yè)、如何建立索引、如何衡量網(wǎng)頁(yè)的質(zhì)量以及確定一個(gè)網(wǎng)頁(yè)和某個(gè)查詢(xún)的相關(guān)性。搜索關(guān)鍵詞權重的科學(xué)度量TF—IDF,TF衡量一個(gè)詞在一個(gè)網(wǎng)頁(yè)中的權重,即詞頻。IDF衡量一個(gè)詞本身的權重,對主題的預測能力。一個(gè)查詢(xún)和該網(wǎng)頁(yè)的相關(guān)性公式由詞頻的簡(jiǎn)單求和變成了加權求和,即TF1*IDF1+TF2*IDF2+。+TFN*IDFN?此茝碗s的搜索引擎,里面的原理竟是這么簡(jiǎn)單!

  第十二章《地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機和動(dòng)態(tài)規劃》:地址的解析依靠有限狀態(tài)機,當用戶(hù)輸入的地址不太標準或有錯別字時(shí),希望進(jìn)行模糊匹配,提出了一種基于概率的有限狀態(tài)機。通用的有限狀態(tài)機的程序不是很好寫(xiě),要求很高,建議直接采用開(kāi)源的代碼。圖論中的動(dòng)態(tài)規劃問(wèn)題可以用來(lái)解決兩點(diǎn)間的最短路徑問(wèn)題,可以將一個(gè)“尋找全程最短路線(xiàn)”的問(wèn)題,分解成一個(gè)個(gè)尋找局部最短路線(xiàn)的小問(wèn)題。有限狀態(tài)機和動(dòng)態(tài)規劃問(wèn)題需要看相關(guān)的算法講解,才能深入理解,目前對其并未完全理解。

  第十三章《GoogleAK—47的設計者——阿米特·辛格博士》:辛格堅持選擇簡(jiǎn)單方案的一個(gè)原因是容易解釋每一個(gè)步驟和方法背后的道理,這樣不僅便于出了問(wèn)題時(shí)查錯,而且容易找到今后改進(jìn)的目標。辛格要求對于搜索質(zhì)量的改進(jìn)方法都要能說(shuō)清楚理由,說(shuō)不清楚理由的改進(jìn)即使看上去有效也不會(huì )采用,因為這樣將來(lái)可能是個(gè)隱患。辛格非常鼓勵年輕人要不怕失敗,大膽嘗試。遵循簡(jiǎn)單的哲學(xué)。

  第十四章《余弦定理和新聞的分類(lèi)》:將新聞根據詞的TF—IDF值組成新聞的特征向量,然后根據向量之間的余弦距離衡量?jì)蓚(gè)特征之間的相似度,將新聞自動(dòng)聚類(lèi)。另外根據詞的不同位置,權重應該不同,比如標題的詞權重明顯應該大點(diǎn)。大數據量的余弦計算也要考慮很多簡(jiǎn)化算法。

  第十五章《矩陣運算和文本處理中的兩個(gè)分類(lèi)問(wèn)題》:將大量的文本表示成文本和詞匯的矩陣,然后對該矩陣進(jìn)行奇異值SVD分解,可以得到隱含在其中的一些信息。計算余弦相似度的一次迭代時(shí)間和奇異值分解的時(shí)間復雜度在一個(gè)數量級,但計算余弦相似度需要多次迭代。另外,奇異值分解的一個(gè)問(wèn)題是存儲量大,而余弦定理的聚類(lèi)則不需要。奇異值分解得到的結果略顯粗糙,實(shí)際工作中一般先進(jìn)行奇異值分解得到粗分類(lèi)結果,在利用余弦計算得到比較精確地結果。我覺(jué)得這章講的SVD有些地方不是很清楚,已向吳軍老師請教了,等待回信。

  第十六章《信息指紋及其應用》:信息指紋可以作為信息的唯一標識。有很多信息指紋的產(chǎn)生方法,互聯(lián)網(wǎng)加密要使用基于加密的偽隨機數產(chǎn)生器,常用的算法有MD5或者SHA—1等標準。信息指紋可以用來(lái)判定集合相同或基本相同。YouTobe就用信息指紋來(lái)反盜版。128位的指紋,1。8*10^19次才可能重復一次,所以重復的可能性幾乎為0。判定集合是否相同,從簡(jiǎn)單的逐個(gè)比對到利用信息指紋,復雜度降低了很多很多。啟發(fā)我們有時(shí)候要用變通的思想來(lái)解決問(wèn)題。

  第十七章《由電視劇《暗算》所想到的——談?wù)劽艽a學(xué)的數學(xué)原理》:RSA加密算法,有兩個(gè)完全不同的鑰匙,一個(gè)用于加密,一個(gè)用于解密。該算法里面蘊含著(zhù)簡(jiǎn)單但不好理解的數學(xué)思想。信息論在密碼設計中的應用:當密碼之間分布均勻并且統計獨立時(shí),提供的信息最少。均勻分布使得敵人無(wú)從統計,而統計獨立能保證敵人即使知道了加密算法,也不能破譯另一段密碼。

  第十八章《閃光的不一定是金子——談?wù)勊阉饕娣醋鞅讍?wèn)題》:把搜索反作弊看成是通信模型,作弊當做是加入的噪聲,解決噪聲的方法:從信息源出發(fā),增強排序算法的抗干擾能力;過(guò)濾掉噪聲,還原信息。只要噪聲不是完全隨機并且前后有相關(guān)性,就可以檢測到并消除。作弊者的方法不可能是隨機的,且不可能一天換一種方法,及作弊是時(shí)間相關(guān)的。因此在搜集一段時(shí)間的作弊信息后,就可以將作弊者抓出來(lái),還原原有的排名。一般作弊都是針對市場(chǎng)份額較大的搜索引擎做的,因此,一個(gè)小的搜索引擎作弊少,并不一定是它的反作弊技術(shù)好,而是到它那里作弊的`人少。

  第十九章《談?wù)剶祵W(xué)模型的重要性》:早期的行星運行模型用大圓套小圓的方法,精確地計算出了所有行星運行的軌跡。但其實(shí)模型就是簡(jiǎn)單的橢圓而已。一個(gè)正確的數學(xué)模型應該在形式上是簡(jiǎn)單的;一個(gè)正確的模型可能開(kāi)始還不如一個(gè)精雕細琢過(guò)的錯誤模型來(lái)的準確,但是,如果我們認定大方向是對的,就應該堅持下去;大量準備的數據對研發(fā)很重要;正確的模型可能受到噪聲干擾,而顯得不準確,這是不應該用一種湊合的修正方法來(lái)彌補它,要找到噪聲的根源,這也許能通往重大的發(fā)現。

  第二十章《不要把雞蛋放在一個(gè)籃子里——談?wù)勛畲箪啬P汀罚簩σ粋(gè)隨機事件預測時(shí),當各種情況概率相等時(shí),信息熵達到最大,不確定性最大,預測的風(fēng)險最小。最大熵模型的訓練非常復雜,需要時(shí)查看資料做進(jìn)一步的理解。

  第二十一章《拼音輸入法的數學(xué)原理》:輸入法經(jīng)歷了以自然音節編碼,到偏旁筆畫(huà)拆字輸入,再回歸自然音節輸入的過(guò)程。任何事物的發(fā)展,螺旋式的回歸不是簡(jiǎn)單的重復,而是一種升華。輸入法的速度取決于編碼的場(chǎng)地*尋找這個(gè)鍵的時(shí)間。傳統的雙拼,記住編碼太難,尋找每個(gè)鍵的時(shí)間太長(cháng),并且增加了編碼上的歧義。根據香農第一定理可以計算理論上每個(gè)漢字的平均最短碼長(cháng)。全拼不僅編碼平均長(cháng)度較少,而且根據上下文的語(yǔ)言模型可以很好的解決歧義問(wèn)題。利用統計語(yǔ)言模型可是實(shí)現拼音轉漢字的有效算法,而且可以轉換為動(dòng)態(tài)規劃求最短路徑問(wèn)題。如今各家輸入法的效率基本在一個(gè)量級,進(jìn)一步提升的關(guān)鍵就在于建立更好的語(yǔ)言模型?梢愿鶕總(gè)用戶(hù)建立個(gè)性化的語(yǔ)言模型。輸入的過(guò)程本身就是人和計算機的通信,好的輸入法會(huì )自覺(jué)或者不自覺(jué)的的遵循通信的數學(xué)模型。要做出最有效的輸入法,應該自覺(jué)使用信息論做指導。

  第二十二章《自然語(yǔ)言處理的教父馬庫斯和他的優(yōu)秀弟子們》:將自然語(yǔ)言處理從基于規則到基于統計,貢獻最大的兩個(gè)人,一個(gè)是前面介紹的賈里尼克教授,他是一個(gè)開(kāi)創(chuàng )性任務(wù);另一個(gè)是將這個(gè)方法發(fā)揚光大的米奇·馬庫斯。馬庫斯的貢獻在于建立了造福全世界研究者的賓夕法尼亞大學(xué)LDC語(yǔ)料庫以及他的眾多優(yōu)秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播出去的。馬庫斯教授有很多值得欽佩的地方:給予他的博士研究生自己感興趣的課題的自由,高屋建瓴,給學(xué)生關(guān)鍵的指導;寬松的管理方式,培養各有特點(diǎn)的年輕學(xué)者;是一個(gè)有著(zhù)遠見(jiàn)卓識的管理者。他的學(xué)生為人做事風(fēng)格迥異,但都年輕有為,例如追求完美的邁克爾·柯林斯和尋求簡(jiǎn)單美的艾克爾·布萊爾。大師之所以能成為大師,肯定有著(zhù)一些優(yōu)秀的品質(zhì)和追求。

  第二十三章《布隆過(guò)濾器》:判斷一個(gè)元素是否在一個(gè)集合當中時(shí),用到了布隆過(guò)濾器,存儲量小而且計算快速。其原理是:建立一個(gè)很長(cháng)的二進(jìn)制,將每個(gè)元素通過(guò)隨機數產(chǎn)生器產(chǎn)生一些信息指紋,再將這些信息指紋映射到一些自然數上,最后在建立的那個(gè)很長(cháng)的二進(jìn)制上把這些自然數的位置都置為1。布隆過(guò)濾器的不足之處是它可能把不在集合中的元素錯判成集合中的元素,但在某些條件下這個(gè)概率是很小的,補救措施是可以建立一個(gè)小的白名單,存儲那些可能誤判的元素。布隆過(guò)濾器背后的數學(xué)原理在于完全隨機的數字其沖突的可能性很小,可以用很少的空間存儲大量的信息,并且由于只進(jìn)行簡(jiǎn)單的算術(shù)運算,因此速度非?!毒幊讨榄^》中第一章的那個(gè)例子就是布隆過(guò)濾器的思想。開(kāi)闊思維,尋找更好更簡(jiǎn)單的方法。

  第二十四章《馬爾科夫鏈的擴展——貝葉斯網(wǎng)絡(luò )》:貝葉斯網(wǎng)絡(luò )是馬爾科夫鏈的擴展,由簡(jiǎn)單的線(xiàn)性鏈式關(guān)系擴展為網(wǎng)絡(luò )的關(guān)系,但貝葉斯網(wǎng)絡(luò )仍然假設每一個(gè)狀態(tài)只與它直接相連的狀態(tài)相關(guān)。確定貝葉斯網(wǎng)絡(luò )的拓撲結構和各個(gè)狀態(tài)之間相關(guān)的概率也需要訓練。在詞分類(lèi)中,可以建立文章、主題和關(guān)鍵詞的貝葉斯網(wǎng)絡(luò ),用來(lái)得到詞的分類(lèi)。貝葉斯網(wǎng)絡(luò )的訓練包括確定拓撲結構和轉移概率,比較復雜,后者可以參考最大熵訓練的方法。貝葉斯網(wǎng)絡(luò )導出的模型是非常復雜的。

  第二十五章《條件隨機場(chǎng)和句法分析》:句法分析是分析出一個(gè)句子的句子結構,對于不規則的句子,對其進(jìn)行深入的分析是很復雜的,而淺層的句法分析在很多時(shí)候已經(jīng)可以滿(mǎn)足要求了。條件隨機場(chǎng)就是進(jìn)行淺層句法分析的有效的數學(xué)模型。條件隨機場(chǎng)與貝葉斯網(wǎng)絡(luò )很像,不用之處在于,條件隨機場(chǎng)是無(wú)向圖,而貝葉斯網(wǎng)絡(luò )是有向圖。條件隨機場(chǎng)的訓練很復雜,簡(jiǎn)化之后可以參考最大熵訓練的方法。對于條件隨機場(chǎng)的詳細參數及原理還不理解。

  第二十六章《維特比和他的維特比算法》:維特比算法是一個(gè)動(dòng)態(tài)規劃算法,凡是使用隱馬爾科夫模型描述的問(wèn)題都可以用它來(lái)解碼。維特比算法采用逐步漸進(jìn)的方法,計算到每步的最短距離,到下步的最短距離只用接著(zhù)本步的計算即可,相比窮舉法,大大縮短了計算的時(shí)間,并且基本可以實(shí)現實(shí)時(shí)的輸出,這看似簡(jiǎn)單,但在當時(shí)確是很了不起的。維特比并不滿(mǎn)足停留在算法本身,他將算法推廣出去,并應用到了實(shí)際中,創(chuàng )立了高通公司,成為了世界上第二富有的數學(xué)家。高通公司在第二代移動(dòng)通信中并不占很強的市場(chǎng)地位,而其利用CDMA技術(shù)霸占了3G的市場(chǎng),可見(jiàn)遠見(jiàn)的洞察力是多么的重要。

  第二十七章《再談文本分類(lèi)問(wèn)題——期望最大化算法》:該章講的其實(shí)就是K均值聚類(lèi)問(wèn)題,設置原始聚類(lèi)中心,然后不斷迭代,直至收斂,將每個(gè)點(diǎn)分到一個(gè)類(lèi)中。其實(shí)隱馬爾科夫模型的訓練和最大熵的訓練都是期望最大化算法(EM)。首先,根據現有的模型,計算各個(gè)觀(guān)測數據輸入到模型中的計算結果,這個(gè)過(guò)程稱(chēng)為期望值計算過(guò)程,或E過(guò)程;接下來(lái),重新計算模型參數,以最大化期望值,這個(gè)過(guò)程稱(chēng)為最大化的過(guò)程,或M過(guò)程。優(yōu)化的目標函數如果是個(gè)凸函數,則一定有全局最優(yōu)解,若不是凸函數,則可能找到的是局部最優(yōu)解。在以后的一些問(wèn)題求解過(guò)程中,應該考慮其是否是EM問(wèn)題,也可以考慮參考這種思想,不斷迭代以?xún)?yōu)化目標的過(guò)程。

  第二十八章《邏輯回歸和搜索廣告》:雅虎和百度的競價(jià)排名廣告并不比谷歌的根據廣告的預估點(diǎn)擊率來(lái)客觀(guān)的推送廣告收入多。點(diǎn)擊預估率有很多影響因素,一種有效的方法是邏輯回歸模型,邏輯回歸模型是一種將影響概率的不同因素結合在一起的指數模型。其訓練方法和最大熵模型相似。同樣不是很理解其具體內涵。

  第二十九章《各個(gè)擊破和Google云計算的基礎》:分而治之,各個(gè)擊破是一個(gè)很好的方法,Google開(kāi)發(fā)的MapReduce算法就應用了該方法。將一個(gè)大任務(wù)分成幾個(gè)小任務(wù),這個(gè)過(guò)程叫Map,將小任務(wù)的結果合并成最終結果,這個(gè)過(guò)程叫Reduce,該過(guò)程如何調度、協(xié)調就是工程上比較復雜的事情了?梢(jiàn)大量用到的、真正有用的方法往往簡(jiǎn)單而又樸實(shí)。

  附錄《計算復雜度》:計算機中復雜度是以O()來(lái)表示的,如果一個(gè)算法的計算量不超過(guò)N的多項式函數,則稱(chēng)算法為多項式函數復雜度的(P問(wèn)題),是可以計算的。若比N的多項式函數還高,則是非多項式問(wèn)題,實(shí)際上是不可計算的。非多項式問(wèn)題中一種非確定的多項式問(wèn)題(簡(jiǎn)稱(chēng)NP),是科學(xué)家研究的焦點(diǎn),因為現實(shí)中好多問(wèn)題都是NP問(wèn)題。另外還有NP—Complete問(wèn)題(NP問(wèn)題可以在多項式時(shí)間內規約到該問(wèn)題)和NP—Hard問(wèn)題,對于這兩種問(wèn)題,需要簡(jiǎn)化找到近似解。

  整體上,《數學(xué)之美》這本書(shū)讓我了解了很多文本處理,數據挖掘相關(guān)的知識,學(xué)到了很多。其中,簡(jiǎn)單美以及一些科學(xué)家的大師風(fēng)范讓我印象深刻!書(shū)中提到的一些思想(即道)讓我受益匪淺!

【《數學(xué)之美》讀書(shū)筆記】相關(guān)文章:

《數學(xué)之美》讀書(shū)筆記感觸10-19

教育之美論文10-31

職場(chǎng)儀表之美12-19

動(dòng)畫(huà)設計之美09-23

職高語(yǔ)文《淡之美》說(shuō)課稿11-25

英語(yǔ)新聞的翻譯之美08-15

茶湯中的意境之美11-11

托?谡Z(yǔ)模板之美劇臺詞11-29

動(dòng)畫(huà)設計之美有哪些09-29

堅守承諾的高尚之美職場(chǎng)故事06-22

激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频