隨著科學(xué)技術(shù)的發(fā)展,中文信息處理已經(jīng)深入到了社會(huì)生活的各方面。廣泛的應(yīng)用對中文信息處理技術(shù)也提出了較高的要求。中文信息處理是中文(包括漢語和少數(shù)民族語言)語言學(xué)和信息技術(shù)的融合,它是一門用計(jì)算機(jī)對漢語(包括口語和書面語)進(jìn)行轉(zhuǎn)換、傳輸、存貯、分析等加工的科學(xué)。中文信息處理與語言學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)、數(shù)學(xué)、控制論、信息論、聲學(xué)、自動(dòng)化技術(shù)等多種學(xué)科相聯(lián)系,是自然語言信息處理的一個(gè)分支,需要以大量的語言知識、背景知識為依據(jù),對中文信息的人腦處理過程進(jìn)行模擬。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的KGB知識圖譜引擎,KGB知識圖譜引擎(Knowledge Graph Builder)是基于自然語言理解、漢語詞法分析,采用KGB語法從結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化文檔中抽取各類知識,大數(shù)據(jù)語義智能分析與知識推理,深度挖掘知識關(guān)聯(lián),實(shí)時(shí)高效構(gòu)建知識圖譜。
KGB知識圖譜引擎功能介紹
一、文檔提取
1、輕松解析多種格式文檔:KGB知識圖譜引擎,可輕松解析多種格式、多種版本文檔:TXT、DOC、EXCEL、PPT、PDF、XML等。對于圖片信息,OCR可自動(dòng)識別并抽取圖片中的文字信息。
2、結(jié)構(gòu)化表格數(shù)據(jù)知識抽取:KGB能夠自適應(yīng)解讀并抽取結(jié)構(gòu)化表格數(shù)據(jù),實(shí)現(xiàn)知識的快速生成。
3、非結(jié)構(gòu)化文檔知識抽取:KGB知識規(guī)則引擎,快速定位非結(jié)構(gòu)化文檔中的關(guān)鍵信息(主體、時(shí)間、金額等),高效抽取知識。
二、知識關(guān)聯(lián)
KGB知識圖譜引擎深入挖掘知識關(guān)聯(lián),將知識實(shí)體鏈接為有意義的知識事實(shí)。并具有強(qiáng)大的知識推理能力,推理暗含的知識與結(jié)論,豐富知識圖譜。
三、知識推理
KGB具有強(qiáng)大的知識推理能力,推理出暗含的知識,獲取更多知識與結(jié)論,豐富知識圖譜。
1、演繹歸納推理(一般—特殊):KGB能夠完成由一般特征到特殊個(gè)案的演繹知識推理和由特殊個(gè)案到一般特征的歸納知識推理,擴(kuò)充大量暗含的知識,豐富知識圖譜。
2、知識計(jì)算(數(shù)值知識的加減乘除計(jì)算):對于數(shù)值型知識,KGB能夠識別并對數(shù)值型知識進(jìn)行加減乘除的知識計(jì)算推理,并可對知識計(jì)算的準(zhǔn)確性進(jìn)行核查。
3、知識庫檢查:KGB能夠?qū)崟r(shí)檢查知識庫,糾正知識錯(cuò)誤與沖突,保證知識圖譜正確性與一致性。 |
 |
|