NLPIR大數據語義智能分析技術是北京理工大學大數據搜索與挖掘實驗室張華平主任研發的滿足大數據挖掘對語法、詞法和語義的綜合應用技術。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。
核心功能介紹
一 精準采集 一
對境內外互聯網海量信息實時精準采集,有主題采集(按照信息需求的主題采集)與站點采集兩種模式(給定網址列表的站內定點采集功能)。
一 新詞發現 一
從文本中挖掘出新詞、新概念,用戶可以用于專業詞典的編撰,還可以進一步編輯標注,導入分詞詞典中,提高分詞系統的準確度,并適應新的語言變化。
一 批量分詞 一
對原始語料進行分詞,自動識別人名地名機構名等未登錄詞,新詞標注以及詞性標注。并可在分析過程中,導入用戶定義的詞典。
一 語言統計 一
針對切分標注結果,系統可以自動地進行一元詞頻統計、二元詞語轉移概率統計。針對常用的術語,會自動給出相應的英文解釋。
一 文本聚類 一
能夠從大規模數據中自動分析出熱點事件,并提供事件話題的關鍵特征描述。同時適用于長文本和短信、微博等短文本的熱點分析。
一 文本分類 一
根據規則或訓練的方法對大量文本進行分類,可用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區域分類等諸多方面。
一 摘要實體 一
對單篇或多篇文章,自動提煉出內容摘要,抽取人名、地名、機構名、時間及主題關鍵詞;方便用戶快速瀏覽文本內容。
一 智能過濾 一
對文本內容的語義智能過濾審查,內置國內最全詞庫,智能識別多種變種:形變、音變、繁簡等多種變形,語義精準排歧。
一 情感分析 一
針對事先指定的分析對象,系統自動分析海量文檔的情感傾向:情感極性及情感值測量,并在原文中給出正負面的得分和句子樣例。
一 文檔去重 一
快速準確地判斷文件集合或數據庫中是否存在相同或相似內容的記錄,同時找出所有的重復記錄。
一 全文檢索 一
支持文本、數字、日期、字符串等各種數據類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。
一 編碼轉換 一
自動識別內容的編碼,并把編碼統一轉換為其他編碼。
針對目前高校論文寫作群體的總體需求,我們推出適用的一個 |
|