機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。
機器學習已經有了十分廣泛的應用,例如:數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫學診斷、DNA序列測序、語音和手寫識別、戰略游戲和機器人運用。
NLPIR文本搜索與挖掘智能平臺針對互聯網內容處理的需要,融合了自然語言理解、網絡搜索和文本挖掘的技術,提供了用于技術二次開發的基礎工具集。開發平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統平臺,可以供Java,C,C#等各類開發語言使用。
機器學習從本質上來說是一種學習結構, 整個結構包括環境、知識庫和執行三個部分。 在整個過程中,環境向系統提供信息,系統利用這些信息修改知識庫,以增進系統執行部分完成任務的效能,執行部分根據知識庫完成任務,同時把獲得的信息反饋給學習部分,從而繼續改進知識庫。
NLPIR文本搜索與挖掘智能平臺的幾大功能:
1. 全文精準檢索:支持文本、數字、日期、字符串等各種數據類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。可以無縫地與現有文本處理系統與數據庫系統融合。
2. 新詞發現:從文件集合中挖掘出內涵的新詞語列表,可以用于用戶專業詞典的編撰;還可以進一步編輯標注,導入分詞詞典中,從而提高分詞系統的準確度,并適應新的語言變化。
3. 分詞標注::對原始語料進行分詞、自動識別人名地名機構名等未登錄詞、新詞標注以及詞性標注。并可在分析過程中,導入用戶定義的詞典。
4. 統計分析與術語翻譯:針對切分標注結果,系統可以自動地進行一元詞頻統計、二元詞語轉移概率統計(統計兩個詞左右連接的頻次即概率)。針對常用的術語,會自動給出相應的英文解釋。
5. 文本聚類:能夠從大規模數據中自動分析出熱點事件,并提供事件話題的關鍵特征描述。同時適用于長文本和短信、微博等短文本的熱點分析。
6. 分類過濾:針對事先指定的規則和示例樣本,系統自動從海量文檔中篩選出符合需求的樣本。
7. 正負面分析:針對事先指定的分析對象和示例樣本,系統自動從海量文檔中篩選出正負面的得分和 |
 |
|