進入21世紀,面對網絡時代信息的爆炸式增長,中文信息處理作為一項基礎性、普適特性的信息技術,面臨著挑戰和再次發展的機遇,在互聯網時代則顯示出其優勢。它的開發利用關系到我國今后信息產業乃至社會經濟的發展和安全,具有巨大的經濟價值和社會價值。
漢語在世界上屬于漢藏語系,是一種孤立語。漢語在歷史上先后吸收和同化了匈奴、鮮卑、突厥、契丹、滿、蒙古、梵語等語言里面的許多成分。其主要特點有:
(1) 漢語的獨一無二的特色是:完全使用由象形文字演化而來的方塊漢字;
(2) 詞語沒有形態標記;  漢語是以字為基本單位,詞之間沒有明顯的標記,詞本身也沒有明顯的形態標志。所以中文信息處理的基礎課題和特有的問題就是中文分詞,分詞本身的也有一定的錯誤率[2],這無疑降低了后續處理的實際效果。
(3) 結構松散,比如:我上街買菜,看見一個人,穿著一件軍大衣,打了賣菜的一巴掌, 臉都腫了。
(4) 語法靈活,即缺乏狹義的形態,漢語句子中各個成分之間的關系一靠詞序,二靠“意 合”,三靠虛詞。
(5) 語義靈活,一方面語法的靈活主要來源于語義的靈活;另一方面同一結構可以表達 不同的意思,同一意思可以用不同結構表達。
另外.現有的自然語言處理理論和技術大多都是以英語為研究對象語言發展起來的.而漢語無論在語音、文字表示,還是在詞匯,語法,語義及其語用等各個層面上都與之存在著很大的差異.這使得無法直接套用西方已成熟的理論和技術,漢語無疑是計算模型比較不發達的語言。這對從事中文信息處理的研究者來說是一個巨大的挑戰和壓力。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺主要有精準采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows, |
 |
|