隨著數據量的高速增長,數據的內在價值日益受到關注。數據量激增已經給各行各業帶來深刻影響。目前,網絡文本信息本質并沒有隨時代的變化而變化,但其符號、載體和記錄復制方式正在發生翻天覆地變化;電子形式或網絡空間中的文本信息正在向綜合化方向發展,數字化、多媒體、可視化等正在成為文本信息記錄、保存和傳播的發展方向。面對這種形勢,社會科學的研究方法、研究內容和學科疆界也在發生變化。在海量數據和信息面前,如果沒有數據管控,沒有數據和知識挖掘、發現、組織、導航、表達的科學化管理過程,數據分析人員就有可能迷失在數據和信息的汪洋大海中。
數據挖掘的應用領域涉及廣泛,主要包括數據庫系統,基于知識的系統,人工智能,機器學習,知識獲取,統計學,空間數據庫和數據可現化等領域。
(一)統計學
統計學在數據樣本選擇、數據預處理及評價抽取知識的步驟中有非常重要的作用。在數據預處理步驟中,統計學提出了估計噪聲參數過程中要用的平滑處理的技術,在一定程度上對補足丟失數據有相當的作用。統計學對檢測數據分析、聚類和實驗數據參數設計上也有用。統計學的工作大多是針對技術和模型的理論方面。于是許多工作是著眼于線性模型、遞增的高斯噪聲模型、參數估計和嚴格分類參數模型上。
(二)模式識別
在模式識別工作中,傳統上是把注意力集中在符號形式化直接結合實際技術的工作過程中。模式識別主要用于分類技術和數據的聚類技術上。模式識別中的分類和含義分析是對數據挖掘概念形成的開端。多數模式識別的算法和方法對降維、變換和設置都有直接的參考意義。在數據挖掘的步驟中,模式識別比統計學更為重要,因為它強調了計算機算法、更加復雜的數據結構和更多的搜索。典型的數據分類是用一定的分類技術把數據從一個向量空間映射到另外一個向量空間。
(三)人工智能
人工智能對于數據挖掘來說原來一直是在符號的層次上處理數據,而對于連續變量注意較少。在機器學習和基于案例的推理中,分類和聚類算法著重于啟發式搜索和非參數模型。對于其結果,并不象模式識別和統計學在數學上的精確和要求嚴格分析。隨著計算機學習理論的發展。人工智能把注意力集中在了表達廣義分類的模糊邊緣上。機器學習主要是對數據挖掘過程中的數據變量選擇處理極有幫助,在通過大量搜索表達式和選擇變量上有很大作用。人工智能的其他技術,包括知識獲取技術、知識搜索和知識表達在數據挖掘的數據變換、數據選擇、數據預處理等步驟中都有作用。
(四)數據庫
數據庫及其相關技術顯然與數據挖掘有直接的關系。數據庫是原始數據的處理、儲存和操作的基礎。隨著平行和分布式數據庫的使用,對數據 |
 |
|