在一個(gè)信息數(shù)據(jù)爆炸的年代,我們在生活中無論是購物,交友,停車,健身,旅行還是讀寫,都在無時(shí)無刻的創(chuàng)造著新的數(shù)據(jù),在海量的數(shù)據(jù)集中,很難通過普通的數(shù)據(jù)處理方法進(jìn)行數(shù)據(jù)的分析和清洗,在時(shí)間與空間上都難以為滿足需要,所以大數(shù)據(jù)的概念在近年來也持續(xù)升溫。社交媒體時(shí)代,用戶能夠通過互聯(lián)網(wǎng)來表達(dá)自己的意愿,進(jìn)行評論或表達(dá)自己的觀點(diǎn)。需要分析的數(shù)據(jù)不再局限于能夠較好的處理的“冷酷”且“堅(jiān)硬”的結(jié)構(gòu)化數(shù)據(jù)。更多的需要處理的非結(jié)構(gòu)化數(shù)據(jù)成了近年來研究和攻克的方向。
大數(shù)據(jù),它指的是數(shù)據(jù)集是非常大,使用現(xiàn)有的數(shù)據(jù)庫管理工具來處理,也出現(xiàn)了許多重要的應(yīng)用,比如上網(wǎng)搜索,商業(yè)信息,社交網(wǎng)絡(luò),社交媒體,基因組學(xué)和氣象學(xué)。大數(shù)據(jù)提出了數(shù)據(jù)庫和數(shù)據(jù)分析研究了隆重的挑戰(zhàn)。應(yīng)對大數(shù)據(jù)的挑戰(zhàn),文本處理是不可或缺的一部分。大數(shù)據(jù)與人們以各種方式連接的媒介。尤其是,大型數(shù)據(jù)集探索性分析和隱私保護(hù)數(shù)據(jù)共享和分析按需數(shù)據(jù)挖掘,這些內(nèi)容都是數(shù)據(jù)處理的發(fā)展方向。由于資源供應(yīng)的彈性和按需性質(zhì),云計(jì)算提供了一個(gè)高性價(jià)比和強(qiáng)大的技術(shù)大數(shù)據(jù)的能力。在這種模式下,數(shù)據(jù)服務(wù)提供商能夠租地理上分散的數(shù)據(jù)中心來處理他們大量的數(shù)據(jù)。數(shù)據(jù)被動態(tài)生成,資源價(jià)格變化,隨著時(shí)間的推移,從不同的不同地理位置的移動數(shù)據(jù),數(shù)據(jù)中心而供應(yīng)充足的計(jì)算資源來處理它們,是實(shí)現(xiàn)成本效益的一項(xiàng)重要任務(wù)。
文本挖掘或者文檔挖掘是一個(gè)從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或者有用的模式的過程.文本挖掘涵蓋多種技術(shù),包括信息抽取,信息檢索,自然語言處理和數(shù)據(jù)挖掘技術(shù).它的主要用途是從原本未經(jīng)使用的文本中提取出未知的知識.但是文本挖掘也是一項(xiàng)非常困難的工作,因?yàn)樗仨毺幚砟切┍緛砭湍:曳墙Y(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個(gè)多學(xué)科混雜的領(lǐng)域,涵蓋了信息技術(shù)、文本分析、模式識別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù)
文本挖掘同信息抽取和信息檢索關(guān)系密切,并且完全可以考慮用組件來完成這些任務(wù).最好的文本挖掘系統(tǒng)應(yīng)該是一個(gè)按照一定順序執(zhí)行的過程,有一些類似于數(shù)據(jù)挖掘的過程 ,也同樣描述了過程用于提取知識,只是將信息提取和信息檢索合并為一個(gè)預(yù)處理過程.
(1) 信息檢索:尋找和檢索那些所有被認(rèn)為可能與當(dāng)前工作相關(guān)的文本.一般地,系統(tǒng)用戶都可以定義文本集,但是仍然需要一個(gè)用來過濾相關(guān)文本的系統(tǒng).
(2) 信息抽取:從選擇后的文本中抽取信息.這個(gè)抽取過程一般是填充用戶定義的所希望得到的信息模式的過程.
(3) 信息挖掘:一旦為每個(gè)文本填充了詞條,就進(jìn)入了對標(biāo)準(zhǔn)數(shù)據(jù)庫進(jìn)行挖掘的階段,可以期望發(fā)掘出一些有用的知識模式.
(4)解釋:將解釋器置于從挖掘階段得來的模式之上.當(dāng)然解釋器最好能夠理解自然語言的格式
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是對語法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計(jì)、文本聚類、文本分類、摘要實(shí)體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
隨著云計(jì)算、移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等技術(shù)的發(fā)展和完善,相信大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用會越來越廣泛和深入,相關(guān)的研究也會越來越全面和深入,在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識、文獻(xiàn)知識等各類知識,將是實(shí)現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。