大數(shù)據(jù)分析是指收集、處理數(shù)據(jù)并獲取信息的過程。具體地說,數(shù)據(jù)分析是建立審計(jì)分析模型,對數(shù)據(jù)進(jìn)行核對、檢查、復(fù)算、判斷等操作,將被審計(jì)數(shù)據(jù)的現(xiàn)實(shí)狀態(tài)與理想狀態(tài)進(jìn)行比較,從而發(fā)現(xiàn)審計(jì)線索,搜集審計(jì)證據(jù)的過程。通過數(shù)據(jù)分析,我們可以將隱沒在雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉,進(jìn)而找出所研究對象的內(nèi)在規(guī)律。
最初的數(shù)據(jù)可能雜亂無章且無規(guī)律,要通過作圖、造表和各種形式的擬合來計(jì)算某些特征量,探索規(guī)律性的可能形式。這就需要研究用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。首先在探索性分析的基礎(chǔ)上提出幾種模型,再通過進(jìn)一步的分析從中選擇所需的模型。通常使用數(shù)理統(tǒng)計(jì)方法對所選定模型或估計(jì)的可靠程度和精確程度作出推斷,數(shù)據(jù)分析的具體步驟如下。
(1)識別信息需求。識別信息需求可以為收 集數(shù)據(jù)、分析數(shù)據(jù)提供清晰的目標(biāo),是確保數(shù)據(jù)分析過程有效性的首要條件。
(2)收集數(shù)據(jù)。有目的的收集數(shù)據(jù)是確保數(shù)據(jù)分析過程有效的基礎(chǔ),需要對收集數(shù)據(jù)的內(nèi)容、渠道、方法進(jìn)行策劃,主要考慮:①將識別信息需求轉(zhuǎn)化為更具體的要求,如評價供方時,需要收集的數(shù)據(jù)可能包括其過程能力、測量系統(tǒng)不確定性等相關(guān)數(shù)據(jù);②明確由誰在何時何處,通過何種渠道和方法收集數(shù)據(jù);③記錄表應(yīng)便于使用;④采取有效措施,防止數(shù)據(jù)丟失和虛假數(shù)據(jù)對系統(tǒng)的干擾。
(3)分析數(shù)據(jù)。分析數(shù)據(jù)是指將收集到的數(shù)據(jù)通過加工、整理和分析后,將其轉(zhuǎn)化為信息的過程。常用的分析數(shù)據(jù)方法有排列圖、因果圖、分層法、調(diào)查表、散布圖、直方圖、控制圖、關(guān)聯(lián)圖、系統(tǒng)圖、矩陣圖、KJ法、計(jì)劃評審技術(shù)、PDPC法、矩陣數(shù)據(jù)圖。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計(jì)、文本聚類、文本分類、摘要實(shí)體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等 |
 |
|