隨著中國的經濟迅速發展和對外交往的日益頻繁,中文在國際上的地位也逐步提高。盡管中文被認為是世界上最難學的語言之一,但近年來,世界上學中文的人還是不斷增加,這些人遍布亞洲、歐洲、美洲、非洲。而學習中文的人也不單純是學習語言、文化、歷史專業的學生,許多國家學習經濟、貿易、法律專業的大學生也開始學習中文,他們認為掌握中文會對就業和工作有幫助。
中文信息處理分為漢字信息處理與漢語信息處理兩部分,具體內容包括對字、詞、句、篇章的輸入、存儲、傳輸、輸出、識別、轉換、壓縮、檢索、分析、理解和生成等方面的處理技術。用計算機來處理漢語信息,就是漢語信息處理,又稱中文信息處理。
目前中文信息處理能力與國際上先進水平差距還很大。例如:自動分詞和詞性標注,至今還未開發出一個像日語分詞系統那樣被廣為接受的分詞標注系統。從采用的方法可以看出,隨著研究的不斷深入,基于統計的方法已逐漸暴露自身的缺陷,統計方法不可能解決所有的問題,還是需要結合基于規則的方法,才能在精度上得以突破;
中文信息處理句法分析和語義分析問題;中文信息處理應用研究的問題,比如信息輸入中的鍵盤輸入和漢字識別發展已經成熟,但語音識別卻很實現,困難是要適應不同人之間的語音變化以及外界的噪音干擾;中文信息處理研究分散而且存在著低層次重復、缺乏統一規范和標準的問題;現代漢語研究領域和計算機領域的隔絕狀態沒有出現根本性改變;漢語文和少數民族語言文字的信息處理技術與國際水平相比,還有相當大的差距。
NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺主要有精準采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統平臺,可以供Java,Python,C,C#等各類開發語言使用。 |
|