激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

體育視頻的內容標注和解析技術(shù)研究

時(shí)間:2024-09-18 16:23:18 開(kāi)題報告 我要投稿

體育視頻的內容標注和解析技術(shù)研究

這篇體育視頻的內容標注和解析技術(shù)研究的關(guān)鍵詞是內容,研究,體育,技術(shù),視頻,

  一,開(kāi)展本課題研究的意義

  近年來(lái),數字視頻的應用日趨廣泛.諸如視頻點(diǎn)播,數字電視,數字圖書(shū)館,視頻會(huì )議,遠程教育等等,已經(jīng)為越來(lái)越多的人所接受和熟悉.面對大量涌現的視頻數據,如何找到所需的視頻信息就成為一個(gè)急需解決的問(wèn)題.

  簡(jiǎn)單的視頻名查詢(xún)和類(lèi)似錄像機的播放功能已不能滿(mǎn)足人們的需要.正如一本書(shū)通常會(huì )有目錄和索引幫助人們迅速瀏覽和查詢(xún)內容,一部視頻同樣需要有效的目錄和索引.傳統的方法需要由人對視頻內容進(jìn)行標注,十分費時(shí)費力.尤其是當視頻資源的數量達到海量級,或是處理的速度要求接近實(shí)時(shí)的時(shí)候,完全采用人工的方法都會(huì )遇到難以克服的困難.為了解決這一問(wèn)題,九十年代以來(lái),出現了基于內容的視頻分析和檢索[1][2][3].其核心就是通過(guò)對視頻內容進(jìn)行計算機分析理解,建立結構和語(yǔ)義索引,以方便用戶(hù)檢索.

  巨大的商業(yè)前景和重要的學(xué)術(shù)價(jià)值,吸引了來(lái)自于業(yè)界和學(xué)術(shù)界不同領(lǐng)域的研究人員在這一問(wèn)題上開(kāi)展研究.一些原型系統先后被提出,主要有IBM的QBIC/CueVideo[4][5],Virage公司的Video Engine[6],卡內基梅隆大學(xué)的Informedia[7],哥倫比亞大學(xué)的VideoQ[8]等.這些努力最終促成了國際標準——MPEG-7(多媒體內容描述接口)的誕生.但是隨著(zhù)問(wèn)題的深入,研究人員面臨了更大的障礙:視覺(jué)/聽(tīng)覺(jué)內容的機器理解,即難以建立底層特征與高層語(yǔ)義的聯(lián)系.同樣的難題困擾了人工智能領(lǐng)域多年.一般認為,尋找通用的解決方法是異常艱難的.因此,一些研究轉而專(zhuān)注于解決特定領(lǐng)域的應用問(wèn)題,如新聞,電影等.在這些特定領(lǐng)域,結合相應的領(lǐng)域知識,是可能將底層特征與高層語(yǔ)義建立某種聯(lián)系的.

  體育視頻,即體育比賽的電視轉播,作為一個(gè)重要的應用領(lǐng)域,一直備受關(guān)注.體育比賽一般很漫長(cháng),但對于大多數觀(guān)眾來(lái)說(shuō),真正關(guān)心并有可能反復觀(guān)看的只是其中的一小部分.例如一場(chǎng)跳水比賽常常需要持續幾個(gè)小時(shí),而其中的精彩部分——運動(dòng)員從起跳到入水的過(guò)程卻只有短短幾分鐘.人們需要一種方便快捷的手段來(lái)訪(fǎng)問(wèn)體育視頻的內容.

  與其他視頻相比,體育視頻具有自己的特點(diǎn).首先,體育視頻中存在一些領(lǐng)域相關(guān)的語(yǔ)義事件,如跳水比賽中運動(dòng)員的跳水,足球比賽中的射門(mén)等.這些語(yǔ)義事件往往是視頻中最有價(jià)值的部分,需要進(jìn)行標注以便于檢索.其次,體育比賽一般有較強的結構性,如跳水比賽由若干輪組成,每輪又由若干選手組成等.為了便于對視頻內容的瀏覽,原始的視頻數據應按這些結構進(jìn)行解析并組織成層次目錄.本課題的目標就是研究針對體育視頻內容的語(yǔ)義標注和結構解析技術(shù).

  盡管限于當前的技術(shù)水平,完全自動(dòng)的,通用的視頻內容理解是不太可能的,但是本課題的研究將證明部分的解決是有可能的和有價(jià)值的,此外我們的研究也將為最終的全面解決奠定基礎.除了學(xué)術(shù)上的意義,本課題的研究還可以有以下一些直接的應用:

  1,視頻資料庫:適用于各類(lèi)體育專(zhuān)業(yè)人士或愛(ài)好者對收集的體育比賽視頻資料進(jìn)行查詢(xún),瀏覽和管理.目前,我們已申請到國家體育總局的科研項目——跳水訓練圖像分析軟件系統研制.通過(guò)對跳水比賽視頻的內容標注與解析,能夠方便快捷的實(shí)現一個(gè)典型動(dòng)作的視頻數據庫.

  2,Web多媒體發(fā)布:適用于新聞或者體育網(wǎng)站在Web上及時(shí)發(fā)布體育多媒體信息.今天,已經(jīng)有越來(lái)越多人的習慣于從網(wǎng)上獲取最新的資訊.基于我們的技術(shù),可以在第一時(shí)間采編和發(fā)布綜合圖文和視音頻在內的體育多媒體信息.

  3,個(gè)人移動(dòng)業(yè)務(wù):適用于無(wú)線(xiàn)服務(wù)提供商為個(gè)人提供定制的多媒體消息服務(wù)(Multimedia Message Service,簡(jiǎn)稱(chēng)MMS).我們的內容標注和解析技術(shù),可以為冗長(cháng)的體育視頻生成摘要,從而可以根據用戶(hù)的個(gè)人喜好和終端能力,向移動(dòng)設備發(fā)送體育多媒體消息.

  二,國內外研究現狀分析

  國際上對于體育視頻的研究是從90年代中期開(kāi)始的,屬于視頻檢索領(lǐng)域的一個(gè)子課題.與新聞視頻領(lǐng)域取得的成功相比[9][10][11],體育視頻的研究相對較少也更為困難.這主要是因為新聞視頻有一個(gè)基本一致的時(shí)域結構和場(chǎng)景語(yǔ)義,即先是播音員鏡頭,然后是新聞報道,最后再回到播音員鏡頭進(jìn)行下面的新聞報道,而對于體育視頻則不存在這樣統一的結構和語(yǔ)義.目前體育視頻的研究尚處于初期探索階段,對于其過(guò)程和方法還沒(méi)有統一的結論,也還沒(méi)有可以投入實(shí)用的系統.

  1,鏡頭檢測

  通常在對體育視頻進(jìn)行分析前,需要將其分割成鏡頭.所謂鏡頭,是指攝像機不間斷拍攝的一組幀序列,它常被看成一部視頻的最小結構單元.為了將鏡頭分割出來(lái),需要進(jìn)行鏡頭邊界檢測.鏡頭與鏡頭之間的邊界有兩種類(lèi)型:突變和漸變.突變時(shí),鏡頭直接切換到下一個(gè);漸變時(shí),從一個(gè)鏡頭到下一個(gè)鏡頭會(huì )有一個(gè)持續多幀的變化過(guò)程,常見(jiàn)的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦變(wipe)等.淡出淡入是指視頻幀逐漸隱去直到完全黑屏,再逐漸顯現后一鏡頭的幀圖像.溶解是指在前一鏡頭幀圖像逐漸模糊的同時(shí),后一鏡頭的幀逐漸增強,并且產(chǎn)生前后幀圖像的重疊.擦變表現為后一鏡頭幀圖像的區域逐漸變大把前一鏡頭的圖像擦掉.

  鏡頭檢測的關(guān)鍵問(wèn)題是如何區分鏡頭之間的切換和因為攝像機或物體運動(dòng)造成的鏡頭內變化.由于這個(gè)原因,漸變比突變更難以檢測.早期的工作主要在突變檢測,近來(lái)更多的研究集中到對漸變的分析.

  鏡頭檢測的方法可以分為兩類(lèi):非壓縮域的和壓縮域的.在[12][13]中,對各種非壓縮域的鏡頭檢測算法進(jìn)行了實(shí)驗評價(jià).與非壓縮域的方法相比,基于壓縮域的方法不需要對視頻編碼流進(jìn)行解碼,而是直接使用如DCT系數,運動(dòng)矢量,宏塊(macroblock)信息等壓縮域特征進(jìn)行分析,從而提高了處理速度[14][15][16][17].今天大量的視頻數據是以壓縮格式(如MPEG)存儲的,因此基于壓縮域的方法往往具有更大的實(shí)用價(jià)值.

  2,語(yǔ)義標注

  所謂語(yǔ)義標注,是指對體育視頻中的語(yǔ)義事件進(jìn)行檢測和標注,其實(shí)質(zhì)就是依據事先定義好的類(lèi)別對視頻片段進(jìn)行識別.當前,國內外對體育視頻研究實(shí)際上主要集中在這個(gè)方面,下面介紹一下相關(guān)工作.

  Y. Gong等首先提出了對足球比賽視頻的分析[18].他們結合足球比賽的領(lǐng)域知識,通過(guò)場(chǎng)地白線(xiàn)識別,攝像機運動(dòng)檢測,足球和運動(dòng)員檢測等分析,對視頻內容進(jìn)行推斷,包括處在球場(chǎng)什么位置,射門(mén),角球等.例如,如果場(chǎng)景接近球門(mén)區域而且足球有一個(gè)向球門(mén)的運動(dòng),則可以推斷這是一個(gè)射門(mén).實(shí)驗結果表明,系統對于球場(chǎng)位置的識別較為準確,達到90%,但是射門(mén)和角球的識別率只有53%,這主要是因為高速運動(dòng)和遮擋關(guān)系,使得足球的檢測較為困難.

  哥倫比亞大學(xué)的Peng Xu等觀(guān)察到足球比賽可以劃分為兩種狀態(tài):進(jìn)行和暫停(如因為球在界外或裁判暫定比賽).他們開(kāi)發(fā)了一個(gè)能夠檢測視頻中的足球比賽是在進(jìn)行還是暫停的系統[19].該系統對足球視頻分析分為兩步.首先,根據顏色分析得出每一幀中的草地顏色比率,使用這個(gè)特征將幀標注為三種:全景(globe view),近景(zoom-in view)和特寫(xiě)(close-up view).在檢測的時(shí)候,算法可以對草色和分類(lèi)決策進(jìn)行學(xué)習和自動(dòng)調整.接著(zhù),在對視頻幀進(jìn)行上述分類(lèi)標記后,根據經(jīng)驗總結的規則(如全景一般是比賽進(jìn)行,特寫(xiě)一般是比賽中斷等)判斷比賽是在進(jìn)行還是暫停了.實(shí)驗使用了四段來(lái)自不同足球比賽的五分鐘片斷,檢測準確率最好達到86.5%,最壞只有67.3%.

  在另一篇文章里,他們使用了基于隱馬爾科夫模型(HMM)的統計方法[20].根據足球視頻的特點(diǎn),選擇主色比率(dominant-color ratio)和運動(dòng)強度(motion intensity)為提取特征.他們?yōu)檫M(jìn)行和暫停分別建立了各自的隱馬爾科夫模型組,依據最大的可能性對足球視頻進(jìn)行標注.與基于規則的方法相比,這種方法不需要去直接建立復雜的分類(lèi)規則和確定值,而是通過(guò)訓練樣本自動(dòng)學(xué)習.實(shí)驗結果表明該方法較為有效而且表現穩定,對不同的測試集準確率都在80%以上,平均準確率達到83.5%.

  清華大學(xué)的Ming Luo等也以足球為例提出了一個(gè)體育視頻分析系統[21].他們的系統根據關(guān)鍵幀中場(chǎng)地顏色的比率和物體的大小,將鏡頭分類(lèi)為遠鏡頭和近鏡頭.此外,對于遠鏡頭,他們觀(guān)察到在射門(mén)或長(cháng)傳時(shí),快速的攝像機運動(dòng)通常會(huì )使圖像模糊,從而提出根據幀圖像的模糊度(blur extent)來(lái)檢測足球比賽中的這些事件.實(shí)驗結果表明算法對射門(mén)和長(cháng)傳事件檢測的查準率為89.3%,查全率為97.2%.

  Drew D. Saur等人使用直接基于MPEG壓縮域的特征,實(shí)現了對籃球視頻內容的自動(dòng)分析和標注[22].算法首先進(jìn)行基于壓縮域DC圖的鏡頭分割,然后對每個(gè)P幀統計其中運動(dòng)矢量的大小,考慮特寫(xiě)(close-up)鏡頭比廣角(wide-angle)鏡頭一般變化更激烈,將視頻劃分為廣角鏡頭和特寫(xiě)鏡頭.對于廣角鏡頭,進(jìn)一步分析其中的攝像機運動(dòng),來(lái)標注特定的視頻內容,如搶斷,快攻,可能的投籃等.

  微軟研究院的Y. Rui等人提出一種依據計算量較小的音頻特征來(lái)檢測棒球比賽中精彩事件的方法,適用于計算能力有限的環(huán)境[23].他們的算法首先是基于機器學(xué)習的解說(shuō)員激動(dòng)語(yǔ)音識別和棒球擊打聲檢測,然后將這兩者進(jìn)行概率混合來(lái)推斷最終的精彩片斷.與人工標注的精彩片斷進(jìn)行對比,實(shí)驗表明他們的算法能夠達到75%的準確率.

  同樣對于棒球,Dongqing Zhang等通過(guò)對比賽中比分和狀態(tài)的字幕顯示進(jìn)行檢測和識別來(lái)分析語(yǔ)義事件的發(fā)生[24][25],如觸壘得分和最后一投(投手被罰出局).他們使用視頻文本檢測和識別技術(shù)分析比賽中的字幕信息.識別結果再進(jìn)一步利用領(lǐng)域知識模型來(lái)提高準確度.

  B. Li和M. I. Sezan對美式欖球比賽的電視轉播進(jìn)行了分析[26].為了濾除比賽視頻中死球的時(shí)間,生成更為緊湊的摘要,他們將比賽片斷定義為表現球在運動(dòng)的視頻片斷,并提出了兩種檢測方法:確定的基于規則方法和概率的基于統計的方法.基于規則的方法,分析了場(chǎng)地顏色,場(chǎng)地標線(xiàn),攝像機運動(dòng)和運動(dòng)員衣服顏色等,然后根據經(jīng)驗總結的規則,對視頻內容進(jìn)行判斷.基于統計的方法,使用HMM推斷視頻中的比賽片斷,實(shí)驗表明這種方法也是很有效的.兩者相比,前者易于實(shí)現和計算,但是需要制定推導規則,而后者則具有一定的學(xué)習能力避免了直接設定值的困難.

  在體育比賽轉播的時(shí)候,通常會(huì )在精彩事件之后及時(shí)穿插重放慢鏡頭,這方面也吸引了許多研究者的注意[27][28][29][30].通過(guò)檢測重放事件,以及發(fā)現之前視頻中相同內容的正常鏡頭,就可以為冗長(cháng)的體育視頻生成一個(gè)令人滿(mǎn)意的精彩索引.

  Di. Zhang針對體育視頻的分析,試圖提出一個(gè)一般性的框架[31].為了兼顧效率和準確性,他認為事件的檢測可以分為兩步進(jìn)行.即基于壓縮域分析的初選階段,和基于對象層次的驗證階段.第一步,選擇一些壓縮域的特征,如顏色和運動(dòng)等,通過(guò)統計學(xué)習的方法實(shí)現對事件的初選.第二步,在候選場(chǎng)景中進(jìn)行對象分割,根據總結的領(lǐng)域規則進(jìn)行判定,如對于網(wǎng)球比賽的發(fā)球鏡頭,圖像中應有大塊場(chǎng)地區域,在下方有小的運動(dòng)員對象.

  J. Assfalg等認為體育視頻的鏡頭一般可以分為三類(lèi):場(chǎng)地,運動(dòng)員和觀(guān)眾[32].場(chǎng)地鏡頭關(guān)注體育運動(dòng)本身,表現為大塊一致的顏色區域和場(chǎng)地線(xiàn)條等.在運動(dòng)員鏡頭中,運動(dòng)員作為前景中的物體出現,而背景則變得模糊.在觀(guān)眾鏡頭中,個(gè)體常常是不清楚的,而觀(guān)眾整體可以看作一種紋理.基于這些認識,他們通過(guò)邊緣提取,圖形分割和顏色

體育視頻的內容標注和解析技術(shù)研究

這篇體育視頻的內容標注和解析技術(shù)研究的關(guān)鍵詞是內容,研究,體育,技術(shù),視頻, 分析等,對三類(lèi)鏡頭實(shí)現了有效的識別.

  N. Babaguchi綜合了文本和視覺(jué)特征來(lái)對體育視頻中的事件進(jìn)行檢測[33].文本信息來(lái)自于電視信號中的隱藏字幕(Closed Caption).首先,通過(guò)搜尋文本中事件相關(guān)的關(guān)鍵字,估計事件發(fā)生的可能時(shí)間段.然后,再對時(shí)間段內的鏡頭進(jìn)行視覺(jué)特征分析,計算與已有的事件例子的匹配度,檢測出事件相關(guān)的鏡頭.

  3,結構解析

  一部視頻中常常包含了成百上千個(gè)鏡頭,特別是在體育視頻中.這主要是因為體育比賽電視轉播的時(shí)候,會(huì )有多個(gè)攝像機從不同視角對比賽進(jìn)行拍攝,它們之間的頻繁切換就構成了鏡頭.為了更好的訪(fǎng)問(wèn)視頻內容,除了語(yǔ)義標注,還需要對鏡頭進(jìn)行有效的組織.結構解析的任務(wù)就是通過(guò)鏡頭組織為視頻數據流建立類(lèi)似書(shū)目的分層瀏覽結構.

  以[34][35]為代表,一些研究人員提出了通用的視頻結構分析方法.他們用時(shí)間約束的聚類(lèi)法把視覺(jué)上相似和時(shí)間上相鄰的鏡頭聚類(lèi)在一起,再在聚類(lèi)組的基礎上構造場(chǎng)景轉換圖(Scene Transition Graph)或高層場(chǎng)景,進(jìn)而形成層次化的瀏覽結構.但是這種統一的結構組織方式(如[34]中將視頻分成幀/鏡頭/組/場(chǎng)景四層)并不適合針對體育視頻的分析,這主要是因為體育比賽都有自己特定結構(如圖1所示),對體育視頻的分析應當結合這種領(lǐng)域知識.

  圖1 跳水比賽的樹(shù)狀結構

  4,總結

  綜上對國內外研究現狀的調查,我們有以下結論:

  (1)應當結合領(lǐng)域知識進(jìn)行特征選擇.領(lǐng)域知識包括比賽相關(guān)和制作相關(guān).比賽相關(guān)的領(lǐng)域特征涉及特定的體育運動(dòng),如足球比賽中的草色比率,籃球比賽中快攻時(shí)攝像機的運動(dòng)等.制作相關(guān)的領(lǐng)域特征適用于大多數體育視頻的分析,主要來(lái)自對體育視頻制作的總結,如精彩場(chǎng)面的重放,有關(guān)運動(dòng)員和比分信息的字幕顯示等.綜合這兩類(lèi)領(lǐng)域知識,選擇合適的特征進(jìn)行分析是取得研究成功的基礎.

  (2)多模式融合分析代表了新的研究趨勢.除了視覺(jué)特征外,綜合體育視頻中所包含的音頻特征和文本信息,能夠有效提高視頻分析的準確度.這也是近年來(lái)的研究熱點(diǎn).在體育視頻中,一個(gè)語(yǔ)義事件常常是一個(gè)多模式的表達,如運動(dòng)員的跳水事件既有視覺(jué)上的運動(dòng)也有聽(tīng)覺(jué)上的踏板聲和入水聲,只對其中一個(gè)模式進(jìn)行分析是不完整的.因此在對體育視頻進(jìn)行內容分析時(shí),融合多模式尤為重要.

  (3)盡量考慮壓縮域的特征分析.一場(chǎng)體育比賽長(cháng)達數個(gè)小時(shí),其視頻數據也非常龐大,因而提高處理速度是很有意義的,在某些要求實(shí)時(shí)應用的場(chǎng)合也是必需的.直接基于壓縮域的分析,不需要完全解碼,可以顯著(zhù)提高處理速度.[22][31]表明基于壓縮域的分析不僅能夠大幅度降低計算量,同時(shí)也能獲得較好的結果,或者作為進(jìn)一步處理的基礎.

  (4)基于統計的事件檢測方法要優(yōu)于基于規則的方法.早期的研究多采用基于規則的方法.但是,體育視頻中的事件檢測常常需要綜合多種特征分析手段,需要適應不同的場(chǎng)景.這些都增加了直接設定規則的難度.與之相比,統計算法易于混合多種特征同時(shí)又具備一定的學(xué)習能力,因而具有更大的實(shí)用價(jià)值.

  (5)忽略了對事件之間關(guān)系的研究.體育比賽中的各種語(yǔ)義事件不是孤立的,它們具有某種因果關(guān)系或概率相關(guān).因此綜合多種事件及其之間關(guān)系的分析,對于提高分析的精度和深度都是有價(jià)值的.

  (6)缺乏對體育視頻內容的結構解析.盡管許多文章中提到了體育視頻的結構分析,但是它們對結構的分析主要是基本場(chǎng)景的分解,如[20]中將足球視頻分為比賽進(jìn)行和暫停,[31]中檢測網(wǎng)球比賽的發(fā)球場(chǎng)景.體育視頻的結構,如圖1所示,通常是一個(gè)多層的目錄結構.在檢測基本場(chǎng)景的基礎上,需要進(jìn)一步研究高層結構的解析.據我們所知,這方面的研究還沒(méi)有.

  (7)沒(méi)有一個(gè)統一的體育視頻內容分析框架.[31]中提出了一個(gè)視頻分析的一般框架,但是他們的系統主要是實(shí)現語(yǔ)義事件的檢測,缺乏對視頻結構的充分解析.根據體育視頻的自身特點(diǎn)和應用需要,我們認為視頻分析的過(guò)程應該有一個(gè)基本的框架,這對于進(jìn)一步的研究無(wú)疑是有意義的.

  三,研究目標,內容和擬解決的關(guān)鍵技術(shù)

  本課題的目標是研究體育視頻內容的語(yǔ)義標注和結構解析技術(shù).在實(shí)際研究中,我們主要選擇跳水比賽作為研究對象.跳水運動(dòng)十分富有觀(guān)賞性,是我國的奧運優(yōu)勢項目,深受人們的喜愛(ài).跳水比賽具有一般體育比賽的典型特征,如層次化的結構,領(lǐng)域相關(guān)的語(yǔ)義事件等.通過(guò)內容分析技術(shù)的研究,最終我們將實(shí)現一個(gè)面向跳水運動(dòng)的視頻查詢(xún)系統.

  如果把視頻也看作一種語(yǔ)言表達,視頻分析在某種程度上與自然語(yǔ)言理解是非常類(lèi)似的,其目的都是使計算機能夠理解信息的內容,從而實(shí)現智能化的信息處理.自然語(yǔ)言理解作為人工智能中的一個(gè)重要研究方向,已經(jīng)有四十多年的歷史了.它對于新興的視頻分析研究必然有很多可以借鑒的地方.通常,自然語(yǔ)言理解將詞匯作為基本的處理對象,包括自動(dòng)分詞,詞性標注,句法分析等幾個(gè)階段.與之類(lèi)似,由于鏡頭是視頻中具有完整內容表達的最小單位,我們將鏡頭作為體育視頻分析的基本單元,并提出如圖2所示的體育視頻內容分析框架.

  圖2 體育視頻內容分析框架

  1,鏡頭檢測

  與自動(dòng)分詞類(lèi)似,鏡頭檢測按照鏡頭為基本單位對視頻流進(jìn)行分解.鏡頭檢測是視頻內容分析的基礎步驟,很大程度上影響了整個(gè)系統的性能.雖然鏡頭檢測是一個(gè)一般性的問(wèn)題,但是在體育視頻中也有其特殊要求:

  (1)針對體育視頻數據量大的特點(diǎn),算法應能實(shí)現快速檢測;

  (2)在體育視頻中存在大量的運動(dòng),算法應能盡量避免由于運動(dòng)導致的誤判;

  (3)作為之后分析的基礎,算法應具有較高的準確性.

  2,模式學(xué)習和語(yǔ)義標注

  鏡頭檢測后的視頻流是一組鏡頭序列.在此基礎上,語(yǔ)義標注通過(guò)事件檢測對鏡頭序列進(jìn)行標注.我們采用基于統計的方法來(lái)識別語(yǔ)義事件.識別的時(shí)候,首先通過(guò)對訓練樣本的學(xué)習建立分類(lèi)器,然后利用這個(gè)分類(lèi)器對鏡頭中的事件進(jìn)行識別.以下問(wèn)題需要解決:

  (1)多模式提取和選擇領(lǐng)域相關(guān)的特征來(lái)表示語(yǔ)義事件;

  (2)應用壓縮域分析提高處理速度;

  (3)設計一個(gè)良好的學(xué)習分類(lèi)模型,實(shí)現高準確度的識別;

  (4)對鏡頭的標注應當有利于后續的結構分析.

  3,文法描述和結構解析

  在語(yǔ)義標注之后,結構解析的任務(wù)是通過(guò)對視頻標注序列的分析,生成體育視頻的層次瀏覽結構.目前,這方面還沒(méi)有好的算法.為解決這一問(wèn)題,我們借鑒自然語(yǔ)言理解中句法分析的思想,根據體育比賽具有較強結構性的特點(diǎn),使用文法來(lái)定義語(yǔ)法規則,提出了基于文法的體育視頻結構解析.在結構解析中引入文法描述,有以下好處:(1)根據文法描述可以按照體育比賽特定結構進(jìn)行解析;(2)實(shí)現了領(lǐng)域知識和具體算法的分離.這樣,只需要引入相應的文法描述,我們可以使用統一的解析器來(lái)分析不同類(lèi)型的體育比賽.關(guān)鍵技術(shù)包括:

  (1)自動(dòng)生成體育視頻的分層瀏覽目錄;

  (2)實(shí)際應用中視頻流可能不完整或存在標注錯誤,解析器應具有良好的容錯能力;

  (3)對于大數據量的體育視頻,要求結構解析的效率要高.

  四,擬采取的研究方法,技術(shù)路線(xiàn)及可行性分析

  1,基于壓縮域的鏡頭分割算法

  體育視頻中常見(jiàn)的漸變主要有溶解,擦變,特別是其中的一些擦變具有特技效果,如圖3所示.這些特定模式的擦變,通常出現在慢鏡重放的開(kāi)始和結束,識別這種鏡頭邊界是十分有價(jià)值的.現有壓縮域算法主要對切變檢測比較成功,而對于漸變的研究不多.我們將綜合壓縮域的DCT系數,運動(dòng)矢量以及宏塊信息等,研究一種有效的漸變檢測方法.

  圖3 體育視頻中特定模式的擦變

  一般在進(jìn)行鏡頭邊界檢測的時(shí)候,首先從相鄰幀提取合適的特征,然后比較這些特征之間的差值,如果差值超過(guò)了事先設定的值,則認為出現了鏡頭轉換.因此,選取合適的值是非常關(guān)鍵的.常用的方法包括單值法,多值法和局部值法.單值法使用一個(gè)全局值,方法簡(jiǎn)單,但是對于漸變不能很好檢測.多值法使用多個(gè)值進(jìn)行分級判定,如使用較大值檢測突變,使用較小值檢測漸變.局部值法根據局部范圍內的變化情況自動(dòng)調整合適的鏡頭切分值,代表了新的研究趨勢.目前,有關(guān)值選取的研究仍然是視頻處理中的一個(gè)難點(diǎn).我們將主要基于局部值法進(jìn)行研究.

  2,體育視頻中語(yǔ)義事件的檢測

  我們將體育視頻中的語(yǔ)義事件分為三類(lèi):重放事件,狀態(tài)事件和目標事件.重放事件是指體育比賽轉播中穿插播放的慢鏡重放片斷.重放事件反映了比賽中觀(guān)眾感興趣的精彩部分.狀態(tài)事件發(fā)生在比賽狀態(tài)發(fā)生變化的時(shí)候,如跳水比賽每一輪結束的評分,網(wǎng)球比賽中一局的開(kāi)始鏡頭等.狀態(tài)事件的檢測對于視頻結構的解析有非常重要的作用.目標事件,如跳水比賽中運動(dòng)員的跳水,足球比賽中的射門(mén)等,是指體育比賽中具有觀(guān)賞性的特定運動(dòng),通常表現為物體及其之間的運動(dòng)關(guān)系.對這三類(lèi)事件,我們分別采用如下的技術(shù)路線(xiàn):

  (1)通過(guò)標志性邊界檢測來(lái)識別重放事件

  [1]中將重放分為三種類(lèi)型:重復播放的同一鏡頭;慢動(dòng)作方式重放的同一鏡頭;同一場(chǎng)景但是由不同攝像機在不同視角拍攝的.直接從內容上比較重放事件和先前視頻鏡頭的相似性來(lái)進(jìn)行分析,是很難識別準確的,尤其對于最后一種重放.

  通過(guò)對體育比賽電視轉播的觀(guān)察,可以發(fā)現一般對于精彩片斷的重放都會(huì )以一個(gè)標志性的鏡頭切換引入,再以類(lèi)似的變化結束,如圖3所示.因此對于重放事件的檢測,事實(shí)上可以歸結到對這種標志性鏡頭邊界的檢測,從而簡(jiǎn)化問(wèn)題.我們將主要研究這種方法.

  (2)利用視頻文本識別確定狀態(tài)事件

  狀態(tài)事件是和體育比賽的狀態(tài)變化直接相關(guān)的,而通常在比賽狀態(tài)發(fā)生變化的時(shí)候,電視轉播會(huì )在視頻中加入相關(guān)字幕提示,如跳水比賽中在運動(dòng)員入場(chǎng)的時(shí)候,會(huì )有文字說(shuō)明運動(dòng)員姓名和所要做的動(dòng)作;在一輪比賽結束的時(shí)候,會(huì )顯示該輪所有選手的得分情況.

  根據這個(gè)特性,我們提出通過(guò)視頻中文本檢測和識別的方法來(lái)檢測狀態(tài)事件.該方法包括兩個(gè)層次.首先,通過(guò)視頻文本的檢測[36][37][38][39][40]就可以初步確定狀態(tài)事件的出現.然后,我們對檢測的文本進(jìn)行識別,通過(guò)關(guān)鍵字的匹配,識別狀態(tài)事件的類(lèi)別.例如,運動(dòng)員入場(chǎng)的字幕顯示中有關(guān)鍵字"Round"(輪次),"Rank"(排名),"DD"(難度),"Total"(總分)等,通過(guò)匹配這些關(guān)鍵字,就可以判斷當前鏡頭為運動(dòng)員入場(chǎng)的狀態(tài)事件.

  (3)融合視音頻雙模式的目標事件檢測

  在目標事件中,往往存在顯著(zhù)的運動(dòng)和音頻特征,如運動(dòng)員的跳水事件既有視覺(jué)上的運動(dòng)也有聽(tīng)覺(jué)上的踏板聲和入水聲.融合視音頻的分析避免了單純使用視覺(jué)或聽(tīng)覺(jué)特征不能完整描述語(yǔ)義事件的不足,可以有效提高識別精度.

  在進(jìn)行識別的時(shí)候,我們采用混合隱馬爾科夫模型和支持向量機的方法[41].支持向量機能夠在小樣本條件下,通過(guò)結構風(fēng)險最小化準則,實(shí)現有效分類(lèi).但是支持向量機只是靜態(tài)分類(lèi)機,不能很好模擬時(shí)序過(guò)程.與之相反,隱馬爾科夫模型雖然能夠較好的處理隨機時(shí)序數據的識別,但是并不能保證訓練好的模型能夠良好的分類(lèi)未知數據.這樣,將兩者混合起來(lái)使用,通過(guò)在隱馬爾科夫模型中引入靜態(tài)數據識別良好的支持向量機,能對視頻流數據取得最佳的識別效果.

  3,語(yǔ)法制導

這篇體育視頻的內容標注和解析技術(shù)研究的關(guān)鍵詞是內容,研究,體育,技術(shù),視頻, 的結構解析

  為了對輸入的體育視頻數據進(jìn)行結構解析,首先我們需要對該類(lèi)體育比賽的文法規則進(jìn)行描述.喬姆斯基(Chomsky)把文法分成4種類(lèi)型,即0型文法(或稱(chēng)短語(yǔ)文法),1型文法(或稱(chēng)上下文有關(guān)文法),2型文法(或稱(chēng)上下文無(wú)關(guān)文法)和3型文法(或稱(chēng)正則文法).型號越高所受約束越多,對語(yǔ)言的描述能力也就越弱.

  我們使用上下文無(wú)關(guān)文法對體育比賽的結構進(jìn)行描述,主要是基于以下考慮:(1)上下文無(wú)關(guān)文法完全可以勝任對體育比賽樹(shù)狀結構的描述;(2)上下文無(wú)關(guān)文法在自然語(yǔ)言理解,句法模式識別,編譯技術(shù)等領(lǐng)域有廣泛的應用,技術(shù)比較成熟;(3)基于上下文無(wú)關(guān)文法的解析器不僅可以為視頻有效生成層次瀏覽樹(shù),而且具有較強的錯誤處理能力.

  其中終結符r,b,e,u分別表示一輪比賽的結束,選手比賽開(kāi)始,選手比賽結束和一般鏡頭,非終結符和為結構單元,分別代表每輪比賽和每個(gè)選手的比賽.對于語(yǔ)義標注序列"buuuuuuuebuuuuuuuueeur",使用文法分析器進(jìn)行解析得到它的層次結構"[[buuuuuuue][buuuuuuuue]eur]".其中序列最后"r"前面的"eu"為錯誤標示,可以用錯誤恢復策略進(jìn)行處理(例如,在發(fā)現終結符不能匹配時(shí),彈出該終結符并發(fā)出警告).由于視頻序列在進(jìn)行基于統計的語(yǔ)義標注時(shí),存在某種程度的不確定性.所以錯誤處理應當結合語(yǔ)義標注的確定度來(lái)進(jìn)行.如果出錯標注本身的確定度比較低,則可以認為該標注有錯;如果出錯標注的確定度比較高,則可以認為錯誤發(fā)生在它的前面.

  以上,我們通過(guò)基于壓縮域的鏡頭分割,語(yǔ)義事件的檢測和語(yǔ)法制導的結構解析實(shí)現了體育視頻的內容標注和解析.雖然我們主要以跳水視頻為例進(jìn)行分析,但是其中的技術(shù)完全可以應用到其他類(lèi)似體育視頻的分析中,甚至一般視頻的處理中.我們的研究表明,盡管限于當前的技術(shù)水平,完全自動(dòng)的,通用的視頻內容理解是不太可能的,但是通過(guò)有效的人機交互和建立應用相關(guān)的模型,新的技術(shù)將可以面對視頻信息大量涌現的挑戰,給人們帶來(lái)更加豐富和方便的體驗.

  五,預期研究成果及創(chuàng )新之處

  一個(gè)壓縮域鏡頭邊界檢測的有效算法

  體育視頻中慢鏡重放的檢測方法

  基于壓縮域的視頻文本檢測和分割

  體育視頻中狀態(tài)事件的識別

  視音頻融合的事件檢測

  基于文法的體育視頻結構解析

  一個(gè)通用的體育視頻內容分析框架及其系統實(shí)現

  六,已有工作基礎

  1,已有資源:

  4.96G的跳水比賽視頻數據,總長(cháng)度約8小時(shí)20分鐘;

  5.33G的足球比賽視頻數據,總長(cháng)度約9個(gè)小時(shí);

  2.58G的其他體育視頻數據,包括籃球,排球和網(wǎng)球等;

  2,已進(jìn)行工作

  一個(gè)基于內容的智能視頻檢索系統:iVideo

  一種通過(guò)關(guān)鍵幀提取和組織來(lái)瀏覽視頻的方式:XPlayer

  可視化的視頻分析工具:MediaLab

  綜合顏色特征和攝像機運動(dòng)分析的鏡頭邊界檢測算法

  基于標志模板的重放鏡頭檢測算法

  跳水比賽視頻中精彩片斷的自動(dòng)提取:iVideoAnalyzer

  基于壓縮域文本檢測的體育視頻結構分析:SportsPlayer

  3,專(zhuān)利和文章

  王扉,李錦濤,張勇東,林守勛,"跳水比賽視頻中精彩片斷的自動(dòng)提取",計算機研究與發(fā)展,評審中.

  王扉,張勇東,李錦濤,林守勛,"在體育比賽視頻中檢測精彩片斷的方法",(發(fā)明)專(zhuān)利號02156973.8,已受理.

  七,研究計劃及預期進(jìn)展

  2003/01 – 2003/04 基于文法的體育視頻結構解析

  2003/05 – 2003/06 壓縮域的鏡頭邊界檢測算法

  2003/07 – 2003/10 體育視頻中的語(yǔ)義事件檢測

  2003/11 – 2003/12 跳水比賽的視頻分析和檢索系統

  2004/01 – 2004/04 技術(shù)改進(jìn),論文寫(xiě)作

  八,參考文獻

  Content-based Video Analysis and Retrieval

  [1] C.W. Ngo, H.J. Zhang, and T.C. Pone, "Recent Advances in Content Based Video Analysis", International Journal of Image and Graphics, Dec 2001.

  [2] N. Dimitrova, H.J. Zhang, B. Shahraray, I. Sezan, T. Huang, and A. Zakhor, "Applications of Video-Content Analysis and Retrieval", IEEE Multimedia, Vol. 9, No. 4, 2002.

  [3] 莊越挺,潘云鶴,吳飛編著(zhù),網(wǎng)上多媒體信息分析與檢索,清華大學(xué)出版社,2002年.

  [4] M. Flickner et al, "Query by Image and Video Content: The QBIC System", IEEE Computer, 28(9), 1995.

  [5] D. Ponceleon, S. Srinivasan, A. Amir, D. Petkovic, and D. Diklic, "Key to Effective Video Retrieval: Effective Cataloging and Browsing", in Proc. ACM Multimedia, 1998.

  [6] A. Hampapur, A. Gupta, B. Horowitz, C-F. Shu, C. Fuller, J. Bach, M. Gorkani, and R. Jain, "Virage Video Engine", SPIE Storage and Retrieval for Images and Video Databases V, 1997.

  [7] H. D. Wactlar, T. Kanade, M. A. Smith, and S. M. Stevens, "Intelligent Access to Digital Video: Informedia Project", IEEE Computer, Vol.29, No.3, pp.46-52, May 1996.

  [8] S.-F. Chang, W. Chen, H. Meng, H. Sundaram, and D. Zhong, "VideoQ: an automated content based video search system using visual cues", in Proc. ACM Multimedia, November 1997.

【體育視頻的內容標注和解析技術(shù)研究】相關(guān)文章:

參考文獻的引用和標注有什么規范03-17

形容詞和副詞的用法解析11-21

文獻參考標注11-16

體育教學(xué)資源整合內容探究01-16

論文引言的內容和注意事項06-19

論文的標題、目錄和內容提要格式11-25

開(kāi)題報告的格式和包含的內容有哪些03-09

從語(yǔ)氣隱喻和言語(yǔ)行為理論解析《雷雨》的對話(huà)11-15

淺談體育保健和保健體育教育論文11-26

  • 相關(guān)推薦
激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频