進入21世紀,面對網(wǎng)絡(luò)時代信息的爆炸式增長,中文信息處理作為一項基礎(chǔ)性、普適特性的信息技術(shù),面臨著挑戰(zhàn)和再次發(fā)展的機遇,在互聯(lián)網(wǎng)時代則顯示出其優(yōu)勢。它的開發(fā)利用關(guān)系到我國今后信息產(chǎn)業(yè)乃至社會經(jīng)濟的發(fā)展和安全,具有巨大的經(jīng)濟價值和社會價值。
漢語在世界上屬于漢藏語系,是一種孤立語。漢語在歷史上先后吸收和同化了匈奴、鮮卑、突厥、契丹、滿、蒙古、梵語等語言里面的許多成分。其主要特點有:
(1) 漢語的獨一無二的特色是:完全使用由象形文字演化而來的方塊漢字;
(2) 詞語沒有形態(tài)標記;  漢語是以字為基本單位,詞之間沒有明顯的標記,詞本身也沒有明顯的形態(tài)標志。所以中文信息處理的基礎(chǔ)課題和特有的問題就是中文分詞,分詞本身的也有一定的錯誤率[2],這無疑降低了后續(xù)處理的實際效果。
(3) 結(jié)構(gòu)松散,比如:我上街買菜,看見一個人,穿著一件軍大衣,打了賣菜的一巴掌, 臉都腫了。
(4) 語法靈活,即缺乏狹義的形態(tài),漢語句子中各個成分之間的關(guān)系一靠詞序,二靠“意 合”,三靠虛詞。
(5) 語義靈活,一方面語法的靈活主要來源于語義的靈活;另一方面同一結(jié)構(gòu)可以表達 不同的意思,同一意思可以用不同結(jié)構(gòu)表達。
另外.現(xiàn)有的自然語言處理理論和技術(shù)大多都是以英語為研究對象語言發(fā)展起來的.而漢語無論在語音、文字表示,還是在詞匯,語法,語義及其語用等各個層面上都與之存在著很大的差異.這使得無法直接套用西方已成熟的理論和技術(shù),漢語無疑是計算模型比較不發(fā)達的語言。這對從事中文信息處理的研究者來說是一個巨大的挑戰(zhàn)和壓力。
北京理工大學大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應(yīng)用系統(tǒng)之中,可兼容Windows, |
 |
|