隨著信息時代的到來,互聯(lián)網(wǎng)正深刻地影響著人們的學(xué)習(xí)、工作、生活娛樂等各個方面,參與的人數(shù)在飛快的增長,每日UGC量非常可觀。也因此經(jīng)常制造爆炸性新聞,新詞的制造和流行也頻頻出現(xiàn)。不同的社交圈內(nèi),由于話題性的不同,其新詞分布也不同,所以直接引入搜狗等輸入法的新詞,會造成新詞污染。因此,往往需要基于自營社交圈的語料庫做新詞發(fā)現(xiàn),才能實現(xiàn)更精確的文本語義分析。
大數(shù)據(jù),或稱巨量資料,是指所涉及的資料量規(guī)模巨大,以致無法通過目前主流軟件工具在合理時間內(nèi)擷取、管理、處理并整理成為幫助企業(yè)達致經(jīng)營決策目的的資訊。大數(shù)據(jù)技術(shù)不僅能夠提高人們利用數(shù)據(jù)的效率,而且能夠?qū)崿F(xiàn)數(shù)據(jù)的再利用和重復(fù)利用,進而大大降低交易成本,提升人們開發(fā)自我潛能的空間。人們可以低成本或零成本進行事物信息全息式的縱向歷史比對和橫向現(xiàn)實比對。大數(shù)據(jù)技術(shù)自身不僅能夠迅速衍生為新興信息產(chǎn)業(yè),還可以同云計算、物聯(lián)網(wǎng)和智慧工程技術(shù)聯(lián)動,支撐一個信息技術(shù)的新時代。
NLPIR文本搜索與挖掘開發(fā)平臺針對互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。開發(fā)平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中。
NLPIR智能新詞自動發(fā)現(xiàn)技術(shù)能夠識別出詞典中沒有出現(xiàn)過的詞匯、短語、命名實體、流行用語,是語言文獻分析方面的一把利器。新詞發(fā)現(xiàn)脫胎于語言自動分詞技術(shù),又是對分詞技術(shù)的有效提升和補充。
靈玖采用基于語義的統(tǒng)計語言模型,所處理的文檔不受行業(yè)領(lǐng)域限制,能夠有效地挖掘出新出現(xiàn)的特征詞匯,所輸出的詞匯可以配以權(quán)重。
新詞發(fā)現(xiàn)中間件的主要特色在于:
1、速度快:可以處理海量規(guī)模的網(wǎng)絡(luò)文本數(shù)據(jù),平均每小時處理至少60萬篇文檔;
2、處理精準(zhǔn):Top N的分析結(jié)果往往能反映出當(dāng)時的時事流行語和熱點實體,適合于輿情熱點計算;與國際上著名廠商的技術(shù)相比,各項指標(biāo)遠遠領(lǐng)先,或許是靈玖更懂中文吧;
3、精準(zhǔn)排序:新詞匯按照影響權(quán)重排序,可以輸出權(quán)重值;
5、開放式接口:新詞發(fā)現(xiàn)組件作為NLPIR文本語義挖掘系統(tǒng)的一部分,采用靈活的開發(fā)接口,可以方便地融入到用戶的業(yè)務(wù)系統(tǒng)中,可以支持各種操作系統(tǒng),各類調(diào)用語言。
新詞發(fā)現(xiàn)組件可以應(yīng)用于文本挖掘、知識管理、詞典編輯、輿情監(jiān)測等多種應(yīng)用中。
隨著互聯(lián)網(wǎng)技術(shù)發(fā)展,網(wǎng)絡(luò)信息的大量出現(xiàn),新的詞語如雨后春筍般涌現(xiàn)在我們的生活之中,它們真實地反映了社會和經(jīng)濟的飛速發(fā)展以及對外交流的日漸頻繁。近年來隨著互聯(lián)網(wǎng)的普遍使用和蓬勃發(fā)展,大量的新詞和網(wǎng)絡(luò)用語更是層出不窮。對社會政治、經(jīng)濟 |
 |
|