數據是知識的源泉。但是,擁有大量的數據與擁有許多有用的知識完全是兩回事。過去幾年中,從數據庫中發現知識這一領域發展的很快。廣闊的市場和研究利益促使這一領域的飛速發展。計算機技術和數據收集技術的進步使人們可以從更加廣泛的范圍和幾年前不可想象的速度收集和存儲信息。收集數據是為了得到信息,然而大量的數據本身并不意味信息。盡管現代的數據庫技術使我們很容易存儲大量的數據流,但現在還沒有一種成熟的技術幫助我們分析、理解并使數據以可理解的信息表示出來。在過去,我們常用的知識獲取方法是由知識工程師把專家經驗知識經過分析、篩選、比較、綜合、再提取出知識和規則。目前,傳統的知識獲取技術面對巨型數據倉庫無能為力,數據挖掘技術就應運而生。
數據的迅速增加與數據分析方法的滯后之間的矛盾越來越突出,人們希望在對已有的大量數據分析的基礎上進行科學研究、商業決策或者企業管理,但是目前所擁有的數據分析工具很難對數據進行深層次的處理,使得人們只能望“數”興嘆。數據挖掘正是為了解決傳統分析方法的不足,并針對大規模數據的分析處理而出現的。
數據挖掘(Data Mining),要從存放在數據庫,數據倉庫或其他信息庫中的大量的數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺主要有精準采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統平臺,可以供Java,Python,C,C#等各類開發語言使用。
數據挖掘技術本身就是當前數據技術發展的新領域,文本挖掘則發展歷史更短。傳統的信息檢索技術對于海量數據的處理并不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術是從信息抽取以及相關技術領域中慢 |
 |
|