在互聯網發展到大數據時代,那么數據就等于金錢。隨著向一個基于應用的領域過渡,數據則呈現出了指數級增長。然而,百分之八十的數據是非結構化的,因此它需要一個程序和方法來從中提取有用信息,并且將其轉換為可理解、可用的結構化形式。
在數據挖掘過程中,有大量的工具可供使用,比如采用人工智能、機器學習,以及其他技術等來提取數據。
LJParser系統指的是網絡搜索、自然語言理解和文本挖掘的技術開發的基礎工具集,開發平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中。
全面升級的LJParser系統在以下方面做出重點提升:
1、漢語詞法分析中間件(分詞、詞性標注、人名地名機構名識別)
漢語詞法分析中間件能對漢語語言進行拆分處理,是中文信息處理必備的核心部件。靈玖綜合了各家所長,采用條件隨機場(Conditional Random Field,簡稱CRF)模型,分詞準確率接近99%,具備準確率高、速度快、可適應性強等優勢;特色功能包括:切分粒度可調整,融合20余部行業專有詞典,支持用戶自定義詞典等。
2、新語自動發現中間件
新詞自動發現技術能夠識別出詞典中沒有出現過的詞匯、短語、命名實體、流行用語,是語言文獻分析方面的一把利器。新詞發現脫胎于語言自動分詞技術,又是對分詞技術的有效提升和補充。
靈玖采用基于語義的統計語言模型,所處理的文檔不受行業領域限制,能夠有效地挖掘出新出現的特征詞匯,所輸出的詞匯可以配以權重。
3、文本聚類中間件
文本聚類是基于相似性算法的自動聚類技術,自動對大量無類別的文檔進行歸類,把內容相近的文檔歸為一類,并自動為該類生成標題和主題詞。適用于自動生成熱點輿論專題、重大新聞事件追蹤、情報的可視化分析等諸多應用。
靈玖基于文章集合核心語義理解技術,不僅聚類速度快,而且準確率高,并能自動得到類別間的演化趨勢。
4、增加關鍵詞掃描中間件
關鍵詞掃描中間件組件采取先進的NLPIR大數據搜索與挖掘系統,可以針對原始文本關鍵詞集進行處理和加工,提供了中間件處理效果的可視化展示,也可以作為小規模數據的處理加工工具。
采用基于語義的統計語言模型,所處理的文檔不受行業領域限制,且能夠識別出*新出現的新詞語,所輸出的詞語可以配以權重。 |
|