隨著中國(guó)的經(jīng)濟(jì)迅速發(fā)展和對(duì)外交往的日益頻繁,中文在國(guó)際上的地位也逐步提高。盡管中文被認(rèn)為是世界上最難學(xué)的語(yǔ)言之一,但近年來(lái),世界上學(xué)中文的人還是不斷增加,這些人遍布亞洲、歐洲、美洲、非洲。而學(xué)習(xí)中文的人也不單純是學(xué)習(xí)語(yǔ)言、文化、歷史專(zhuān)業(yè)的學(xué)生,許多國(guó)家學(xué)習(xí)經(jīng)濟(jì)、貿(mào)易、法律專(zhuān)業(yè)的大學(xué)生也開(kāi)始學(xué)習(xí)中文,他們認(rèn)為掌握中文會(huì)對(duì)就業(yè)和工作有幫助。
中文信息處理分為漢字信息處理與漢語(yǔ)信息處理兩部分,具體內(nèi)容包括對(duì)字、詞、句、篇章的輸入、存儲(chǔ)、傳輸、輸出、識(shí)別、轉(zhuǎn)換、壓縮、檢索、分析、理解和生成等方面的處理技術(shù)。用計(jì)算機(jī)來(lái)處理漢語(yǔ)信息,就是漢語(yǔ)信息處理,又稱(chēng)中文信息處理。
目前中文信息處理能力與國(guó)際上先進(jìn)水平差距還很大。例如:自動(dòng)分詞和詞性標(biāo)注,至今還未開(kāi)發(fā)出一個(gè)像日語(yǔ)分詞系統(tǒng)那樣被廣為接受的分詞標(biāo)注系統(tǒng)。從采用的方法可以看出,隨著研究的不斷深入,基于統(tǒng)計(jì)的方法已逐漸暴露自身的缺陷,統(tǒng)計(jì)方法不可能解決所有的問(wèn)題,還是需要結(jié)合基于規(guī)則的方法,才能在精度上得以突破;
中文信息處理句法分析和語(yǔ)義分析問(wèn)題;中文信息處理應(yīng)用研究的問(wèn)題,比如信息輸入中的鍵盤(pán)輸入和漢字識(shí)別發(fā)展已經(jīng)成熟,但語(yǔ)音識(shí)別卻很實(shí)現(xiàn),困難是要適應(yīng)不同人之間的語(yǔ)音變化以及外界的噪音干擾;中文信息處理研究分散而且存在著低層次重復(fù)、缺乏統(tǒng)一規(guī)范和標(biāo)準(zhǔn)的問(wèn)題;現(xiàn)代漢語(yǔ)研究領(lǐng)域和計(jì)算機(jī)領(lǐng)域的隔絕狀態(tài)沒(méi)有出現(xiàn)根本性改變;漢語(yǔ)文和少數(shù)民族語(yǔ)言文字的信息處理技術(shù)與國(guó)際水平相比,還有相當(dāng)大的差距。
NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語(yǔ)言統(tǒng)計(jì)、文本聚類(lèi)、文本分類(lèi)、摘要實(shí)體、智能過(guò)濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺(tái)提供了客戶端工具,云服務(wù)與二次開(kāi)發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無(wú)縫地融合到客戶的各類(lèi)復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺(tái),可以供Java,Python,C,C#等各類(lèi)開(kāi)發(fā)語(yǔ)言使用。 |
 |
|