近年來,隨著Internet 的迅猛發(fā)展以及人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)能力的大幅度提高,大規(guī)模的網(wǎng)絡(luò)文本庫不斷涌現(xiàn)。為了便于在海量文本庫中搜尋、過濾、管理這些文本,基于人工智能技術(shù)的文本智能挖掘方法成為人們研究的焦點。
文本挖掘( Text Mining,TM),又稱為文本數(shù)據(jù)挖掘 (Text Data Mining,TDM) 或文本知識發(fā)現(xiàn) ( Knowledge Discovery in Texts , KDT) , 是指為了發(fā)現(xiàn)知識,從大規(guī)模文本庫中抽取隱含的、以前未知的、潛在有用的模式的過程。
它的主要用途是從原本未經(jīng)使用的文本中提取出未知的知識。但是文本挖掘也是一項非常困難的工作,因為它必須處理那些本來就模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個多學(xué)科混雜的領(lǐng)域,涵蓋了信息技術(shù)、文本分析、模式識別、統(tǒng)計學(xué) 、數(shù)據(jù)可視化 、數(shù)據(jù)庫技術(shù)、機器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù)。
存儲信息使用最多的是文本,所以文本挖掘被認(rèn)為比數(shù)據(jù)挖掘具有更高的商業(yè)潛力. 當(dāng)數(shù)據(jù)挖掘的對象完全由文本這種數(shù)據(jù)類型組成時,這個過程就稱為文本數(shù)據(jù)挖掘. 事實上,最近研究表明公司信息有80 %包含在文本文檔中。
靈玖軟件NLPIR大語義智能分析平臺針對中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,先后歷時十八年,服務(wù)了全球四十萬家機構(gòu)用戶,是大時代語義智能分析的一大利器。
NLPIR大語義智能分析平臺平臺針對互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。開發(fā)平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,C,C#等各類開發(fā)語言使用。
NLPIR能夠全方位多角度滿足應(yīng)用者對大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實體抽取、詞頻統(tǒng)計、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉(zhuǎn)換、自動注音、文本聚類等。
目前利用文本挖掘技術(shù)的多是一些信息收集機構(gòu),這是由于在信息行業(yè)中,文本信息都起著至關(guān)重要的作用,文本挖掘技術(shù)是采取任何技術(shù)的出發(fā)點,直接影響各工作流程的質(zhì)量、效率、全面性和費用-效益比,并與最終產(chǎn)品息息相關(guān)。
隨著信息技術(shù)在我國社會生活各個領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工 |
 |
|