- 相關(guān)推薦
對于未來(lái)計算機視覺(jué)應用的深思
無(wú)論是計算能力,還是記憶能力,計算機的如今表現都堪稱(chēng)卓越。但僅擁有這些還遠遠不夠,我們期待計算機可以做得更多。耕耘在計算機視覺(jué)領(lǐng)域十余年,賦予計算機一雙慧眼,讓它也能看懂這個(gè)多彩的世界,一直是激勵著(zhù)眾多計算機從業(yè)人員在這條充滿(mǎn)挑戰的道路上前行的重要力量。在這篇文章中,小編將就如何讓計算機能“看”懂世界這個(gè)主題,為大家介紹計算機視覺(jué)的基本概念、這個(gè)領(lǐng)域面臨的挑戰、一些帶來(lái)重要突破的技術(shù)并展望未來(lái)的演進(jìn)趨勢。
世界如何在我們眼中形成?
對人類(lèi)而言,“認人”似乎是與生俱來(lái)的本能,剛出生幾天的嬰兒就能模仿父母的表情;它賦予我們只憑極少細節就分辨彼此的能力,借著(zhù)暗淡燈光我們仍能認出走廊那端的朋友。然而,這項對人類(lèi)而言輕而易舉的能力,對計算機而言卻舉步維艱。過(guò)去很長(cháng)一段時(shí)間,計算機視覺(jué)技術(shù)徘徊不前,在進(jìn)一步探求前,不如先談?wù)勎覀兪侨绾斡醚劬τ^(guān)察世界的。
相信大家都在中學(xué)的物理課上嘗過(guò)小孔成像的原理。不過(guò)人的眼睛要比小孔成像復雜得多,當我們觀(guān)察物體時(shí),每秒大約掃視3次,并有1次駐留。當視網(wǎng)膜的感光體感受到蠟燭的輪廓,一個(gè)被稱(chēng)為中央凹的區域其實(shí)是以扭曲變形的形式記錄下蠟燭的形狀。
那么問(wèn)題來(lái)了,為何我們看到的世界既未扭曲也沒(méi)有變形呢?很簡(jiǎn)單,因為人類(lèi)擁有大腦皮層這個(gè)萬(wàn)能的“轉換器”,它將我們的視覺(jué)神經(jīng)捕捉到的信號轉換為真實(shí)的形象。這個(gè)“轉換器”可簡(jiǎn)化理解為四個(gè)區域,生物學(xué)家將它們分別稱(chēng)為V1、V2、V4和IT區。V1區的神經(jīng)元,只針對整個(gè)視覺(jué)區域中很小的一部分做出反應,例如,某些神經(jīng)元發(fā)現一條直線(xiàn),就變得異;钴S。這條直線(xiàn)可以是任何事物的一部分,也許是桌邊,也許是地板,也許是這篇文章某個(gè)字符的筆劃。眼睛每掃視一次,這部分神經(jīng)元的活動(dòng)就可能發(fā)生快速變化。
奧秘出現在大腦皮層頂層的IT區,生物學(xué)家發(fā)現,物體在視野的任何地方出現(例如一張臉),某些神經(jīng)元會(huì )一直處于固定的活躍狀態(tài)中。也就是說(shuō),人類(lèi)的視覺(jué)辨識是從視網(wǎng)膜到IT區,神經(jīng)系統從能識別細微特征,到逐漸變?yōu)槟茏R別目標。如果計算機視覺(jué)也可以擁有一個(gè)“轉換器”,那么計算機識別的效率將大為提高,人眼視覺(jué)神經(jīng)的運作為計算機視覺(jué)技術(shù)的突破提供了啟迪。
計算機為何總是“霧里看花”?
盡管人眼識別的奧秘已經(jīng)被逐步揭開(kāi),但直接應用于計算機上卻非易事。我們會(huì )發(fā)現計算機識別總是在“霧里看花”,一旦光線(xiàn)、角度等發(fā)生變化,計算機難以跟上環(huán)境的節奏,就會(huì )誤識。對計算機而言,識別一個(gè)在不同環(huán)境下的人,還不如識別在同一環(huán)境下的兩個(gè)人來(lái)得簡(jiǎn)單。這是因為最初研究者試圖將人臉想象為一個(gè)模板,用機器學(xué)習的方法掌握模板的規律。然而人臉雖然看起來(lái)是固定的,但角度、光線(xiàn)、打扮不同,樣子也有差別,都令簡(jiǎn)單的模板難以匹配所有人臉。
因此,人臉識別的核心問(wèn)題在于,如何讓計算機忽略同一個(gè)人的內部差異,又能發(fā)現兩個(gè)人之間的分別,即讓同一個(gè)人相似,不同的人有別。
對人工神經(jīng)網(wǎng)絡(luò )的引進(jìn)是計算機視覺(jué)超越模板識別的關(guān)鍵。然而人類(lèi)尚且未完全掌握神經(jīng)的運作機制時(shí),又該如何引導計算機進(jìn)步呢?人工神經(jīng)網(wǎng)絡(luò )在1960年代就已萌芽,初期理論只固定在簡(jiǎn)單的模型之上,即生物課上的“輸入-隱層-輸出”模型。在介紹神經(jīng)的工作原理時(shí),老師們一般都會(huì )簡(jiǎn)單告知是外界刺激接觸到輸入神經(jīng)元,輸入神經(jīng)元再鏈接其他部分形成隱層,最后通過(guò)輸出神經(jīng)元表現出來(lái)。這些神經(jīng)元的鏈接強度并不相同,就像不同樂(lè )譜的強弱高低不同,人工神經(jīng)網(wǎng)絡(luò )就是依靠這些神經(jīng)元之間不同的鏈接強度,學(xué)會(huì )將輸入方式映射到輸出上。
不過(guò)“樂(lè )譜”只是靜止不動(dòng)的,而且只能從“輸入走向輸出”,不存在反向呈現。也就是說(shuō)如果人靜止不動(dòng),計算機也許可以通過(guò)這一原理讀出,但這在現實(shí)生活中不可能實(shí)現。1980年代末期,用于人工神經(jīng)網(wǎng)絡(luò )的“反向傳播算法”發(fā)明,它能將輸出單元的錯誤傳回輸入單元,并記住它。這種方法令人工神經(jīng)網(wǎng)絡(luò )能從大量訓練樣本中學(xué)習統計規律,對未知事件做出預測。不過(guò)與大腦的復雜及層級結構相比,這種只包含一個(gè)隱層的神經(jīng)網(wǎng)絡(luò )構造還顯得微不足道。
深層神經(jīng)網(wǎng)絡(luò )為計算機“撥云見(jiàn)日”
2006年,多倫多大學(xué)教授Geoffrey Hinton在深層神經(jīng)網(wǎng)絡(luò )的訓練上取得了突破。一方面,他證明了多隱層的人工神經(jīng)網(wǎng)絡(luò )具備更優(yōu)異的特征學(xué)習能力,另一方面能通過(guò)逐層初始化克服此前一直困擾研究者的訓練難題——基本原理是先通過(guò)大量無(wú)監督數據保證網(wǎng)絡(luò )初始化,再用有監督數據在初始化好的或者是預訓練的網(wǎng)絡(luò )上優(yōu)化調整。
受到這些因素的啟發(fā),如今的人臉或圖像識別研究,大多基于CNN(Convolution Neural Networks)原理。CNN可以被視為一種逐層掃描的“機器”。第一層檢測邊緣、角點(diǎn)、平坦或不平坦的區域,這一層幾乎不包含語(yǔ)義信息;第二層基于第一層檢測的結果進(jìn)行組合,并將組合傳遞給下一層,以此類(lèi)推。多層掃描之下,累加準確率,計算機就在向前文提及的“讓同一個(gè)人相似,不同的人有別”這一目標邁進(jìn)。
CNN的學(xué)名為帶有卷積結構的深度神經(jīng)網(wǎng)絡(luò ),這一網(wǎng)絡(luò )識別物體還可分為兩個(gè)步驟:圖像分類(lèi)和物體檢測。在第一個(gè)階段,計算機首先識別出物體的種類(lèi),例如人、動(dòng)物或其他物品;第二個(gè)階段,計算機獲取物品在圖像中的精確位置——這兩個(gè)階段分別回答了“是什么”和“在哪里”兩個(gè)問(wèn)題。微軟的智能聊天機器人“小冰”具有辨識狗的品種的能力即是CNN的典型示例。首先,需要搭建一個(gè)好幾層深度卷積網(wǎng)絡(luò )。第一層跟人類(lèi)視覺(jué)系統的定義很像,用來(lái)對一些小的邊緣或者小的色塊做一些檢測;第二層會(huì )把這些小的結構組成大的結構,如狗腿和狗的眼睛;依次向上進(jìn)行組織,最后就能鑒別出狗的種類(lèi)來(lái)。其次,需要往這個(gè)帶有卷積結構的深度神經(jīng)網(wǎng)絡(luò )里投入很多的圖,訓練系統識狗的準確度。
2013年,加州大學(xué)伯克利分校的研究者們提出了一種稱(chēng)為叫R-CNN方式(Region-based CNN)的物體檢測方法,具有很高的識別準確度,它將每張圖像分為多個(gè)窗口或個(gè)子區,在每個(gè)子區域應用神經(jīng)網(wǎng)絡(luò )進(jìn)行分類(lèi)。但其主要缺陷在于,對于實(shí)時(shí)檢測,算法過(guò)慢。為了在一張圖片上檢測幾個(gè)物體,整個(gè)神經(jīng)網(wǎng)絡(luò )可能需要運算上千次。
在微軟亞洲研究院,視覺(jué)計算組的研究員們實(shí)現了一種稱(chēng)為空間金字塔聚合(Spatial Pyramid Pooling,SPP)的新算法,通過(guò)在內部特征識別,而不是每個(gè)區域從頭檢測,對整個(gè)圖片只做一次計算。利用這種新算法,在不損失準確度的前提下,物體檢測速度有了上百倍的提升。在2014年ImageNet大規模視覺(jué)識別挑戰賽中,微軟亞洲研究院采用SPP算法的系統取得了分類(lèi)第三名和檢測第二名的成績(jì)。目前,這項技術(shù)已經(jīng)成功轉化進(jìn)入OneDrive中。采用了這項技術(shù)后,OneDrive可以自動(dòng)為上傳的圖片添加標簽。同時(shí),用戶(hù)輸入關(guān)鍵詞,就可以搜索與之相對應的圖片。
展望未來(lái) 計算機視覺(jué)和人類(lèi)共舞
如果單純識別面部,而不考慮發(fā)型和身體的其他部分,人類(lèi)的正確率約為97.5%,而計算機目前則能達到99%以上。這是否意味著(zhù)計算機已經(jīng)勝過(guò)了人類(lèi)?不是,因為我們不只觀(guān)察面部,身材和體態(tài)都有助于我們認出對方。在復雜光照的真實(shí)環(huán)境下,人能夠更智能地選擇這些分支幫助自己決策,而計算機在這方面則要遜色許多。不過(guò),如果數據量龐大,或者面對陌生的臉孔,計算機又更強大些。如果能夠各揚其長(cháng),歌詞中所唱的“借我一雙慧眼吧”或許將會(huì )實(shí)現。
人類(lèi)通過(guò)不斷發(fā)明的新技術(shù)來(lái)替代舊技術(shù)去更高效和經(jīng)濟地完成任務(wù)。在計算機視覺(jué)領(lǐng)域亦是如此,我們開(kāi)發(fā)更便捷人臉識別用于門(mén)禁系統,以替代手動(dòng)的輸入用戶(hù)名和密碼——Xbox One利用紅外相機設計的人臉識別系統就頗受用戶(hù)好評。
除上述人類(lèi)自身也能做到的識別功能外,計算機視覺(jué)還可應用在那些人類(lèi)能力所限,感覺(jué)器官不能及的領(lǐng)域和單調乏味的工作上——在微笑瞬間自動(dòng)按下快門(mén),幫助汽車(chē)駕駛員泊車(chē)入位,捕捉身體的姿態(tài)與電腦游戲互動(dòng),工廠(chǎng)中準確地焊接部件并檢查缺陷,忙碌的購物季節幫助倉庫分揀商品,離開(kāi)家時(shí)掃地機器人清潔房間,自動(dòng)將數碼照片進(jìn)行識別分類(lèi)……
或許在不久的將來(lái),超市電子秤就能辨別出蔬菜的種類(lèi);門(mén)禁系統能分辨出帶著(zhù)禮物的朋友,抑或手持撬棒的即將行竊的歹徒;可穿戴設備和手機幫助我們識別出鏡頭中的任何物體并搜索出相關(guān)信息。更奇妙的是,它還能超越人類(lèi)雙眼的感官,用聲波、紅外線(xiàn)來(lái)感知這個(gè)世界,觀(guān)察云層的洶涌起伏預測天氣,監測車(chē)輛的運行調度交通,甚至突破我們的想象,幫助理論物理學(xué)家分析超過(guò)三維的空間中物體運動(dòng)。
曾經(jīng),人類(lèi)用眼睛記錄了波瀾壯闊的歷史。未來(lái),我們希望逐步開(kāi)啟計算機的眼,讓它在看懂這個(gè)多彩的世界的同時(shí),也能幫助人類(lèi)更高效和智能地完成工作和生活。期待在計算機視覺(jué)和人類(lèi)的共舞下,世界不僅有多彩,更有智慧。
【對于未來(lái)計算機視覺(jué)應用的深思】相關(guān)文章:
小議計算機視覺(jué)的應用03-06
對于新西蘭留學(xué)回購是否好就業(yè)的深思01-09
視覺(jué)流程在平面設計中的應用03-19
網(wǎng)頁(yè)視覺(jué)平面中平面設計語(yǔ)言的應用03-05
計算機應用常識03-21
學(xué)好計算機應用01-10
計算機應用開(kāi)題報告03-18
計算機基礎應用試題02-26