- 相關(guān)推薦
新聞事件的文本挖掘
一、引言
近年來(lái),隨著(zhù)互連網(wǎng)的飛速發(fā)展和信息傳播手段的不斷進(jìn)步,造成了大量的文本數據累積,其中很大一部分是短文本數據。這些數據中有很大一部分是只包含50-100個(gè)詞的短文本數據,如文章摘要、電子郵件、圖片標題、產(chǎn)品描述等。網(wǎng)頁(yè)上的大部分信息都是短文本信息。文本挖掘技術(shù)對于從這些海量短文中自動(dòng)獲取知識、具有重要意義。本文介紹了文本挖掘在新聞文本挖掘中的應用,分析了新聞事件挖掘的研究現狀。
二、文本挖掘概念
文本挖掘是采用計算語(yǔ)言學(xué)的原理對文本信息進(jìn)行抽取的研究和實(shí)踐文本挖掘可以對文檔集合的內容進(jìn)行總結、分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析以及趨勢預測等。Web文本挖掘和通常的平面文本挖掘有類(lèi)似之處,但是文檔中的標記給文檔提供了額外的信息,可以借此提高文本挖掘的性能。
三、文本挖掘在新聞文本挖掘中的應用
"新聞的處理,是-種對事實(shí)的選擇、安排、解釋等意義化過(guò)程",作為文字傳播的一種特殊形態(tài),新聞在語(yǔ)言表達上有著(zhù)較為明顯的個(gè)性特征,如篇章短小精干、表達客觀(guān)公正、語(yǔ)言準確簡(jiǎn)潔等。新聞專(zhuān)題是指圍繞某一個(gè)突發(fā)的新聞事件或某一個(gè)廣泛受關(guān)注的問(wèn)題提供詳細、深入的資料。這樣的專(zhuān)題信息目的明確、信息豐富,讓人一日了然地清楚整個(gè)新聞事件的前因后果和來(lái)龍去脈,能夠較好地滿(mǎn)足讀者的需要。但通常情況下,這些新聞專(zhuān)題都是經(jīng)過(guò)專(zhuān)業(yè)人員加工處理的,即人工歸納到二起。新聞事件挖掘的目的是,是借鑒文本挖掘技術(shù)、文本分類(lèi)和聚類(lèi)技術(shù),實(shí)現對新聞資料的自動(dòng)組織、生成專(zhuān)題,以滿(mǎn)足網(wǎng)絡(luò )用戶(hù)檢索新聞信息的需要。專(zhuān)題的生成涉及到新聞事件的探測以及對新聞事件的跟蹤。
四、新聞事件挖掘的研究現狀
目前對于新聞事件的挖掘主要包括以下幾類(lèi)問(wèn)題:
(→)主題發(fā)現與跟蹤(TopicDetectionandTracking,TDT)
主題發(fā)現與跟蹤旨在開(kāi)發(fā)一系列基于事件的信息組織技術(shù),以實(shí)現對新聞媒體信息流中新話(huà)題的自動(dòng)識別以及對己知話(huà)題的動(dòng)態(tài)跟蹤。該研究作為一項1997年開(kāi)始的公開(kāi)測評而成為自然語(yǔ)言處理的→項研究熱點(diǎn)。TDT包括五項子任務(wù),即:主題分割、話(huà)題跟蹤、新事件發(fā)現和報道關(guān)聯(lián)發(fā)現。
主題分割主要采用相同詞語(yǔ)數目和詞語(yǔ)密度的方法,其優(yōu)點(diǎn)在于簡(jiǎn)潔性和高效性,不受領(lǐng)域的限制。目前已有TextTiling算法等方法用于主題的分割。采用遺傳算法對TextTiling算法中的參數進(jìn)行優(yōu)化,使得同→主題內的段落之間的總差異應盡可能地小,而不同主題間的總差異應盡可能地大。也有研究采用遺傳算法來(lái)直接尋找主題的最優(yōu)劃分。駱衛華提出了基于分治多層聚類(lèi)的話(huà)題發(fā)現算法,其核心思想是把全部數據分割成具有一定相關(guān)性的分組,對各個(gè)分組分別進(jìn)行聚類(lèi),得到各個(gè)分組內部的話(huà)題(微類(lèi)),然后對所有的微類(lèi)在進(jìn)行聚類(lèi),得到最終的話(huà)題。
(二)熱點(diǎn)趨勢檢測(EmergingTrendDetection,ETD)
熱點(diǎn)趨勢檢測用來(lái)自動(dòng)識別熱點(diǎn)主題,從而識別主題趨勢的變化。熱點(diǎn)趨勢檢測主要包括三個(gè)部分:主題結構的識別,主題出現的檢測和主題特征分析?偨Y了目前研究的ETD系統和商業(yè)的ETD系統,其使用方法大多數以關(guān)鍵詞的詞頻分析為基礎,形成相關(guān)主題的發(fā)展趨勢。例如,采用關(guān)鍵詞項詞頻分析的方法,尋找芯片封裝領(lǐng)域內的技術(shù)發(fā)展規律。對于這類(lèi)問(wèn)題需要優(yōu)化關(guān)鍵詞的選擇,看哪一個(gè)或者哪一些關(guān)鍵詞與該主題上的關(guān)系最為密切。也有的研究使用序列模式挖掘來(lái)識別短語(yǔ),生成短語(yǔ)的歷史圖,使用形狀查詢(xún)來(lái)識別指定趨勢的短語(yǔ)。
(三)事件預測規則的發(fā)現
該問(wèn)題主要采用文本挖掘技術(shù),同傳統的人工智能方法相結合,對于時(shí)序文檔集的關(guān)聯(lián)規則的進(jìn)行挖掘,提供相應事件發(fā)生的預測規則。
很多研究根據互聯(lián)網(wǎng)上的新聞稿來(lái)生成股票價(jià)格指數的規則。Wuthrich使用專(zhuān)家的先驗知識,通過(guò)對過(guò)去的新聞中出現的關(guān)鍵詞組的權重和對應的值產(chǎn)生可能性的規則,再利用這些規則對當天的新聞進(jìn)行股票指數的預測。將關(guān)鍵詞組轉換成權重,采用基于規則、最近鄰和神經(jīng)網(wǎng)絡(luò )的方法。Feldman等人使用多種分布模型對路透社的2萬(wàn)多篇新聞進(jìn)行了挖掘,得到主題、國家、組織、人、股票交易之間的相對分布,揭示了一些有趣的趨勢。而Mittermayer則自動(dòng)對新聞稿進(jìn)行預處理,將它們分成不同的新聞類(lèi)型,其每→類(lèi)都對股票價(jià)格升降有特定的影響,從而得到對應的交易指導規則。
五、結論
文本挖掘是挖掘的核心技術(shù),將其文本聚類(lèi)與分類(lèi)等技術(shù)應用到新聞主題的檢測與跟蹤中,能自動(dòng)在線(xiàn)檢測內容不斷更新的網(wǎng)絡(luò )新聞主題,提高了處理的速度,能及時(shí)提取更多有價(jià)值的信息給用戶(hù),這是一個(gè)具有十分重要意義的課題,這項研究還需要進(jìn)→步的深入。短文本挖掘技術(shù)是文本挖掘中的一個(gè)新興的方向,針對于短文本特點(diǎn)的方法有待于人們的進(jìn)-步研究。
【新聞事件的文本挖掘】相關(guān)文章:
文本、解讀、詮釋與翻譯08-29
挖掘員工潛能05-18
試析漢英旅游文本的翻譯10-05
抓住文本品析語(yǔ)言10-12
事件營(yíng)銷(xiāo)探析09-10
文本聚類(lèi)開(kāi)題報告范文08-06
超閱讀:數碼時(shí)代的文本變革06-26