中文信息處理分為漢字信息處理與漢語信息處理兩部分,具體內容包括對字、詞、句、篇章的輸入、存儲、傳輸、輸出、識別、轉換、壓縮、檢索、分析、理解和生成等方面的處理技術。用計算機來處理漢語信息,就是漢語信息處理,又稱中文信息處理。中文信息處理包括“字處理”、“詞處理”和“句處理”。
1、首先,就切分而言,中文原本沒有詞的概念,沒有一個統一的詞的確切定義。中文構詞方法的多樣性特點使得分詞十分困難。漢字造詞可以是字,也可以是詞甚至詞組。造句的方式有以字造詞,以詞造詞。如果沒有語法、語義知識或語境了解的幫助就很難對有些句子進行正確切分。
2.其次,漢語迄今為止仍未有一部公認的、確切完備的并適合于計算機處理的語法規則。漢語詞法的無標準性,句法的復雜性,語法的模糊性與語義的多樣性,如漢語中大量存在一詞多義,多詞一義,詞性變化,詞義轉借等現象,使得研究中文信息處理的學者至今仍難以對它進行完備的總結。這也為漢語分詞制造了困難。
3.再次,現有的分詞方法基本上都是基于統計和詞典的分詞方法,它們都必須在分詞速度和精度之間做出選擇。要提高速度,就要適當放棄精度的追求,縮減詞典,減少匹配次數。而要提高切分精度,就得舍棄速度,無限擴充詞典,匹配次數也會無限增加。因此,切分效率不高也是一大問題。
4.*后,基于統計的分詞方法雖然能夠有效地自動排除歧義,但也不能百分百的消除歧義。因為漢語由于構詞語素大多是不定位語素,又有相當數量的自由語素,漢語詞理解的多義性、復雜性, 再加上詞與詞之間沒有空格隔開,沒有任何區分標志,這就造成了切分中的多分字段,因而歧義現象是分詞過程中不可避免的現象。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺主要有精準采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中, |
|