大數據分析是指收集、處理數據并獲取信息的過程。具體地說,數據分析是建立審計分析模型,對數據進行核對、檢查、復算、判斷等操作,將被審計數據的現實狀態與理想狀態進行比較,從而發現審計線索,搜集審計證據的過程。通過數據分析,我們可以將隱沒在雜亂無章的數據中的信息集中、萃取和提煉,進而找出所研究對象的內在規律。
最初的數據可能雜亂無章且無規律,要通過作圖、造表和各種形式的擬合來計算某些特征量,探索規律性的可能形式。這就需要研究用何種方式去尋找和揭示隱含在數據中的規律性。首先在探索性分析的基礎上提出幾種模型,再通過進一步的分析從中選擇所需的模型。通常使用數理統計方法對所選定模型或估計的可靠程度和精確程度作出推斷,數據分析的具體步驟如下。
(1)識別信息需求。識別信息需求可以為收 集數據、分析數據提供清晰的目標,是確保數據分析過程有效性的首要條件。
(2)收集數據。有目的的收集數據是確保數據分析過程有效的基礎,需要對收集數據的內容、渠道、方法進行策劃,主要考慮:①將識別信息需求轉化為更具體的要求,如評價供方時,需要收集的數據可能包括其過程能力、測量系統不確定性等相關數據;②明確由誰在何時何處,通過何種渠道和方法收集數據;③記錄表應便于使用;④采取有效措施,防止數據丟失和虛假數據對系統的干擾。
(3)分析數據。分析數據是指將收集到的數據通過加工、整理和分析后,將其轉化為信息的過程。常用的分析數據方法有排列圖、因果圖、分層法、調查表、散布圖、直方圖、控制圖、關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺主要有精準采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等 |
 |
|