近年來,隨著Internet 的迅猛發展以及人們利用信息技術生產和搜集數據能力的大幅度提高,大規模的網絡文本庫不斷涌現。為了便于在海量文本庫中搜尋、過濾、管理這些文本,基于人工智能技術的文本智能挖掘方法成為人們研究的焦點。
文本挖掘( Text Mining,TM),又稱為文本數據挖掘 (Text Data Mining,TDM) 或文本知識發現 ( Knowledge Discovery in Texts , KDT) , 是指為了發現知識,從大規模文本庫中抽取隱含的、以前未知的、潛在有用的模式的過程。
它的主要用途是從原本未經使用的文本中提取出未知的知識。但是文本挖掘也是一項非常困難的工作,因為它必須處理那些本來就模糊而且非結構化的文本數據,所以它是一個多學科混雜的領域,涵蓋了信息技術、文本分析、模式識別、統計學 、數據可視化 、數據庫技術、機器學習以及數據挖掘等技術。
存儲信息使用最多的是文本,所以文本挖掘被認為比數據挖掘具有更高的商業潛力. 當數據挖掘的對象完全由文本這種數據類型組成時,這個過程就稱為文本數據挖掘. 事實上,最近研究表明公司信息有80 %包含在文本文檔中。
靈玖軟件NLPIR大語義智能分析平臺針對中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,先后歷時十八年,服務了全球四十萬家機構用戶,是大時代語義智能分析的一大利器。
NLPIR大語義智能分析平臺平臺針對互聯網內容處理的需要,融合了自然語言理解、網絡搜索和文本挖掘的技術,提供了用于技術二次開發的基礎工具集。開發平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統平臺,可以供Java,C,C#等各類開發語言使用。
NLPIR能夠全方位多角度滿足應用者對大數據文本的處理需求,包括大數據完整的技術鏈條:網絡采集、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等。
目前利用文本挖掘技術的多是一些信息收集機構,這是由于在信息行業中,文本信息都起著至關重要的作用,文本挖掘技術是采取任何技術的出發點,直接影響各工作流程的質量、效率、全面性和費用-效益比,并與最終產品息息相關。
隨著信息技術在我國社會生活各個領域應用的深入,中文信息處理正在成為人們工 |