NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺十三大功能:
精準采集:對境內(nèi)外互聯(lián)網(wǎng)海量信息實時精準采集,有主題采集(按照信息需求的主題采集)與站點采集兩種模式(給定網(wǎng)址列表的站內(nèi)定點采集功能)。
文檔轉(zhuǎn)化:對doc、excel、pdf與ppt等多種主流文檔格式,進行文本信息轉(zhuǎn)化,效率達到大數(shù)據(jù)處理的要求。
新詞發(fā)現(xiàn):從文本中挖掘出新詞、新概念,用戶可以用于專業(yè)詞典的編撰,還可以進一步編輯標注,導(dǎo)入分詞詞典中,提高分詞系統(tǒng)的準確度,并適應(yīng)新的語言變化。
批量分詞:對原始語料進行分詞,自動識別人名地名機構(gòu)名等未登錄詞,新詞標注以及詞性標注。并可在分析過程中,導(dǎo)入用戶定義的詞典。
語言統(tǒng)計:針對切分標注結(jié)果,系統(tǒng)可以自動地進行一元詞頻統(tǒng)計、二元詞語轉(zhuǎn)移概率統(tǒng)計。針對常用的術(shù)語,會自動給出相應(yīng)的英文解釋。
文本聚類:能夠從大規(guī)模數(shù)據(jù)中自動分析出熱點事件,并提供事件話題的關(guān)鍵特征描述。同時適用于長文本和短信、微博等短文本的熱點分析。
文本分類:根據(jù)規(guī)則或訓(xùn)練的方法對大量文本進行分類,可用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。
摘要實體:對單篇或多篇文章,自動提煉出內(nèi)容摘要,抽取人名、地名、機構(gòu)名、時間及主題關(guān)鍵詞;方便用戶快速瀏覽文本內(nèi)容。
智能過濾:對文本內(nèi)容的語義智能過濾審查,內(nèi)置國內(nèi)最全詞庫,智能識別多種變種:形變、音變、繁簡等多種變形,語義精準排歧。
情感分析:針對事先指定的分析對象,系統(tǒng)自動分析海量文檔的情感傾向:情感極性及情感值測量,并在原文中給出正負面的得分和句子樣例。
文檔去重:快速準確地判斷文件集合或數(shù)據(jù)庫中是否存在相同或相似內(nèi)容的記錄,同時找出所有的重復(fù)記錄。
全文檢索:支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數(shù)民族語言的檢索。
編碼轉(zhuǎn)換:自動識別內(nèi)容的編碼,并把編碼統(tǒng)一轉(zhuǎn)換為其他編碼。 |
 |
|