隨著信息時代的到來,互聯網正深刻地影響著人們的學習、工作、生活娛樂等各個方面,參與的人數在飛快的增長,每日UGC量非常可觀。也因此經常制造爆炸性新聞,新詞的制造和流行也頻頻出現。不同的社交圈內,由于話題性的不同,其新詞分布也不同,所以直接引入搜狗等輸入法的新詞,會造成新詞污染。因此,往往需要基于自營社交圈的語料庫做新詞發現,才能實現更精確的文本語義分析。
大數據,或稱巨量資料,是指所涉及的資料量規模巨大,以致無法通過目前主流軟件工具在合理時間內擷取、管理、處理并整理成為幫助企業達致經營決策目的的資訊。大數據技術不僅能夠提高人們利用數據的效率,而且能夠實現數據的再利用和重復利用,進而大大降低交易成本,提升人們開發自我潛能的空間。人們可以低成本或零成本進行事物信息全息式的縱向歷史比對和橫向現實比對。大數據技術自身不僅能夠迅速衍生為新興信息產業,還可以同云計算、物聯網和智慧工程技術聯動,支撐一個信息技術的新時代。
NLPIR文本搜索與挖掘開發平臺針對互聯網內容處理的需要,融合了自然語言理解、網絡搜索和文本挖掘的技術,提供了用于技術二次開發的基礎工具集。開發平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中。
NLPIR智能新詞自動發現技術能夠識別出詞典中沒有出現過的詞匯、短語、命名實體、流行用語,是語言文獻分析方面的一把利器。新詞發現脫胎于語言自動分詞技術,又是對分詞技術的有效提升和補充。
靈玖采用基于語義的統計語言模型,所處理的文檔不受行業領域限制,能夠有效地挖掘出新出現的特征詞匯,所輸出的詞匯可以配以權重。
新詞發現中間件的主要特色在于:
1、速度快:可以處理海量規模的網絡文本數據,平均每小時處理至少60萬篇文檔;
2、處理精準:Top N的分析結果往往能反映出當時的時事流行語和熱點實體,適合于輿情熱點計算;與國際上著名廠商的技術相比,各項指標遠遠領先,或許是靈玖更懂中文吧;
3、精準排序:新詞匯按照影響權重排序,可以輸出權重值;
5、開放式接口:新詞發現組件作為NLPIR文本語義挖掘系統的一部分,采用靈活的開發接口,可以方便地融入到用戶的業務系統中,可以支持各種操作系統,各類調用語言。
新詞發現組件可以應用于文本挖掘、知識管理、詞典編輯、輿情監測等多種應用中。
隨著互聯網技術發展,網絡信息的大量出現,新的詞語如雨后春筍般涌現在我們的生活之中,它們真實地反映了社會和經濟的飛速發展以及對外交流的日漸頻繁。近年來隨著互聯網的普遍使用和蓬勃發展,大量的新詞和網絡用語更是層出不窮。對社會政治、經濟 |
 |
|