- 相關(guān)推薦
基于分類(lèi)技術(shù)的Blog用戶(hù)興趣挖掘
摘 要:文章通過(guò)分析Blog用戶(hù)興趣挖掘的重要性,提出了一種基于文本分類(lèi)技術(shù)的自動(dòng)挖掘Blog用戶(hù)興趣的方法,幫助用戶(hù)自動(dòng)推薦相似興趣的博客以及為用戶(hù)提供個(gè)性化的搜索與瀏覽博客內容的服務(wù)。
關(guān)鍵詞:Blog;內容挖掘;Blog搜索;中心向量法;kNN算法
1 Blog技術(shù)介紹
Blog是Web Log的簡(jiǎn)稱(chēng),稱(chēng)為“網(wǎng)絡(luò )日志”,在大陸音譯為“博客”。它讓任何人都可以像免費電子郵件的注冊、寫(xiě)作和發(fā)送一樣,完成個(gè)人網(wǎng)頁(yè)的創(chuàng )建、發(fā)布和更新,被認為是繼E-mail、BBS、ICQ之后出現的第四種網(wǎng)絡(luò )交流方式[1]。
中國互聯(lián)網(wǎng)絡(luò )信息中心(CNNIC)于2009年1月發(fā)布的《中國互聯(lián)網(wǎng)絡(luò )發(fā)展狀況統計報告》中指出:2008年博客用戶(hù)規模持續快速發(fā)展,截至2008年12月底,在中國2.98億網(wǎng)民中,擁有博客的網(wǎng)民比例達到54.3%,用戶(hù)規模為1.62億人。在用戶(hù)規模增長(cháng)的同時(shí),中國博客的活躍度有所提高,半年內更新過(guò)博客的比重較2007年底提高了11.7%。博客數量的增長(cháng)帶來(lái)了用戶(hù)聚集的規模效應。博客頻道在各類(lèi)型網(wǎng)站中成為標準配置,其中SNS元素的加入對博客用戶(hù)的增長(cháng)起到了推動(dòng)作用。博客的影響力進(jìn)一步加強[2]。
由此可見(jiàn),Blog作為Web2.0的重要應用,以其個(gè)性化的信息發(fā)布平臺、多元化的內容載體等特點(diǎn)吸引著(zhù)越來(lái)越多的網(wǎng)絡(luò )用戶(hù),撰寫(xiě)和瀏覽Blog已經(jīng)成為網(wǎng)絡(luò )文化的流行熱點(diǎn),推動(dòng)了Blog搜索服務(wù)的發(fā)展。
2 Blog用戶(hù)興趣挖掘的研究意義
Blog相關(guān)研究可劃分為Blog定義與識別、內容挖掘、社區發(fā)現、重要性分析、Blog搜索和作弊Blog識別這6個(gè)主要方面[3],而B(niǎo)log搜索是當前Blog研究的熱點(diǎn)之一。但是,目前的Blog搜索服務(wù)大都是基于對用戶(hù)輸入關(guān)鍵詞的匹配。這種搜索方式僅僅是傳統Web搜索的延伸,搜索范圍也受到用戶(hù)所指定的關(guān)鍵詞的限制,并沒(méi)有突出Blog搜索的特殊性,也沒(méi)有有效地利用博客內容的個(gè)性化、多元化等特征。
而事實(shí)上,博客中個(gè)性化的內容為我們提供了豐富的有價(jià)值的可以用來(lái)挖掘用戶(hù)個(gè)性化特征的數據,不僅可以幫助我們理解博客用戶(hù)的興趣、意圖,對其進(jìn)行個(gè)性化的服務(wù),還可以為具有不同信息需求的用戶(hù)提供個(gè)性化的搜索與瀏覽博客空間中的內容的服務(wù)。因此,研究Blog用戶(hù)的興趣挖掘技術(shù)對于Blog搜索服務(wù)的發(fā)展是十分重要的。
3 構建Blog用戶(hù)興趣挖掘方法
該方法將興趣挖掘的問(wèn)題轉化為對博客文章的文本分類(lèi)問(wèn)題,即利用文本分類(lèi)技術(shù)來(lái)實(shí)現對主題信息的抽取,將一個(gè)博客內的文章分到事先定義好的興趣類(lèi)別中,如“體育健身”、“音樂(lè )”或“影視”等,然后綜合所有文章的分類(lèi)結果確定該博客作者的興趣集合。
3.1 定義興趣類(lèi)別
由于沒(méi)有統一的興趣分類(lèi)方式,所以可通過(guò)自定義興趣類(lèi)別來(lái)構建興趣類(lèi)別體系,但要求體系中盡可能包含生活的各種興趣,且要具有層次化的結構,見(jiàn)圖1描述了層次結構中一個(gè)第一層的類(lèi)別節點(diǎn)和其子類(lèi)別的形式:
3.2 分類(lèi)博客文章
用分類(lèi)算法計算待分類(lèi)的博客文章與各興趣類(lèi)別的關(guān)聯(lián)度,關(guān)聯(lián)度較高的類(lèi)將被判定其歸屬于哪一興趣類(lèi)別。目前已有多種文本分類(lèi)算法:中心向量法、k鄰近算法、支持向量機、簡(jiǎn)單貝葉斯等。
中心向量法是根據算術(shù)平均為每類(lèi)文本生成一個(gè)代表該類(lèi)的中心向量,計算待分類(lèi)文本與每類(lèi)中心向量間的歐式距離,以距離最近的類(lèi)作為待分類(lèi)文本的類(lèi)別。該方法分類(lèi)速度快,但是,以向量空間距離作為分類(lèi)標準將形成類(lèi)球狀類(lèi)別分布,對于與多個(gè)類(lèi)距離相近的文本,該算法的分類(lèi)準確度將急劇下降[4]。
kNN算法,即k鄰近算法,被普遍認為是分類(lèi)準確度很高的算法。kNN算法的思想是:給一篇待識別的文章,系統在訓練集中找到最近的K個(gè)近鄰,看這K個(gè)近鄰中多數屬于哪一類(lèi),就把待識別的文章歸為哪一類(lèi)。K近鄰分類(lèi)器在己分類(lèi)文章中檢索與待識別的文章最相似的文章,從而獲得被測文章的類(lèi)別[5]。kNN算法雖然具有很高的分類(lèi)準確度,但是它沒(méi)有訓練過(guò)程,分類(lèi)階段要對所有訓練樣本進(jìn)行相似度匹配,計算時(shí)間較長(cháng)。
通過(guò)分析,筆者認為可以采用速度較快的中心向量法和準確性很高的kNN算法相結合的方式完成博客文章的分類(lèi)。系統先采用中心向量法進(jìn)行分類(lèi),對于超過(guò)預定義邊界范圍的待分類(lèi)向量再采用kNN算法進(jìn)行補充分類(lèi),以保證其分類(lèi)準確性。因為在大多數情況下,中心向量法即可完成分類(lèi),所以該方式顯著(zhù)減少了分類(lèi)算法的平均計算時(shí)間。
3.3 構建興趣集合
當一個(gè)博客的所有文章被分類(lèi)后,文章所屬的興趣類(lèi)別被認為是博客作者的興趣。然后,對興趣進(jìn)行整理和排序:根據每個(gè)興趣出現的次數對興趣進(jìn)行排序,以興趣出現次數的多少反應博客作者對興趣感興趣的程度。不同層次的興趣單獨計算。
用戶(hù)興趣的收集和挖掘可能會(huì )涉及到用戶(hù)的隱私和安全問(wèn)題,因此,在使用用戶(hù)興趣數據前要征得用戶(hù)的同意,同時(shí)讓用戶(hù)積極參與,以獲得更好的用戶(hù)個(gè)性化服務(wù)。
4 Blog用戶(hù)興趣挖掘的應用
4.1 自動(dòng)推薦相似興趣的博客
對于給定的博客,利用推薦系統可以挖掘出博客用戶(hù)的興趣,然后在索引的數據中選擇與這些興趣最匹配的博客。這樣,不僅可以幫助用戶(hù)迅速地了解博客的整體內容,同時(shí)興趣相似的博客的推薦可以讓用戶(hù)找到更多相關(guān)的信息,也有助于社會(huì )化網(wǎng)絡(luò )的構建。
4.2 提供個(gè)性化的搜索與瀏覽博客空間中的內容的服務(wù)
可以使用個(gè)性化搜索引擎索引博客或博客文章,以及博客文章的興趣類(lèi)別,博客用戶(hù)的興趣和博客關(guān)鍵詞,方便用戶(hù)在博客空間中快速地定位和瀏覽感興趣的博客或博客文章。
5 結束語(yǔ)
綜上所述,由于Blog提供了更為豐富、極具個(gè)性化的信息資源,使得用戶(hù)主動(dòng)尋找和發(fā)掘自己感興趣的Blog,而通過(guò)基于文本分類(lèi)技術(shù)的Blog用戶(hù)興趣挖掘方法,可以滿(mǎn)足用戶(hù)的需求,并且可以為用戶(hù)提供個(gè)性化的信息服務(wù)。
參考文獻:
[1]崔琳,汪材印.Blog的核心技術(shù)和Web挖掘[J].電腦開(kāi)發(fā)與應用,2008,2:44-45,48
[2]中國互聯(lián)網(wǎng)絡(luò )信息中心(CNNIC).中國互聯(lián)網(wǎng)絡(luò )發(fā)展狀況統計報告.2009
[3]楊宇航,趙鐵軍,于浩,鄭德權.Blog研究[J].軟件學(xué)報,2008,4:912-924.
[4]石偉志,劉 濤,吳功宜.一種快速高效的文本分類(lèi)方法[J]. 計算機工程與應用,2005,41(29):180-183.
[5]柯慧燕.Web文本分類(lèi)研究及應用[D].碩士學(xué)位論文.武漢理工大學(xué),2006
【基于分類(lèi)技術(shù)的Blog用戶(hù)興趣挖掘】相關(guān)文章:
基于數據挖掘技術(shù)的交叉銷(xiāo)售分析12-08
基于數據挖掘的網(wǎng)絡(luò )入侵檢測技術(shù)11-23
基于Blog的動(dòng)態(tài)信息資源組織03-18
基于數據挖掘技術(shù)的現代物流管理03-25
基于愛(ài)好的電子商務(wù)數據挖掘技術(shù)的研究12-08
試論基于教育Blog的教師個(gè)人知識管理研究03-18
基于聚類(lèi)分析的數據挖掘方法03-08