用于大數(shù)據(jù)的嵌入式分析和統(tǒng)計(jì)已經(jīng)成為了業(yè)內(nèi)一個(gè)重要的主題。隨著數(shù)據(jù)量的不斷增長(zhǎng),我們需要軟件工程師對(duì)數(shù)據(jù)分析提供支持,并對(duì)數(shù)據(jù)進(jìn)行一些統(tǒng)計(jì)計(jì)算。本文概要地介紹了嵌入式分析和統(tǒng)計(jì)技術(shù),其中包括獨(dú)立的軟件包和帶有統(tǒng)計(jì)能力的編程語(yǔ)言。
西安達(dá)內(nèi)嵌入式培訓(xùn)(http://www.xatarena.net)講師表示,不管在信息技術(shù)界還是嵌入式技術(shù)界,大數(shù)據(jù)都已經(jīng)變成了非常關(guān)鍵的概念。這樣的軟件系統(tǒng)通常都有眾多的異構(gòu)連接,包括軟件應(yīng)用程序、中間件和傳感器之類(lèi)的組件。隨著云設(shè)施的使用不斷增長(zhǎng),可用的數(shù)據(jù)資源變得更加豐富了;智能電網(wǎng)、智能車(chē)輛技術(shù)、醫(yī)藥最近都出現(xiàn)了這種相互連接的數(shù)據(jù)源。我們每年生產(chǎn)的數(shù)據(jù)將近1,200艾字節(jié),并且這一數(shù)字有增無(wú)減。2,3 這樣海量的非結(jié)構(gòu)化數(shù)據(jù)是業(yè)務(wù)和IT主管無(wú)法回避的巨大挑戰(zhàn)。
大數(shù)據(jù)的定義由四個(gè)維度組成:數(shù)據(jù)量、數(shù)據(jù)源的復(fù)雜度、生產(chǎn)速度,以及潛在用戶數(shù)。這些數(shù)據(jù)需要被組織起來(lái),將無(wú)數(shù)的位和字節(jié)轉(zhuǎn)換成可操作的信息—除非我們能提煉出其中的含義,否則數(shù)據(jù)再豐富都沒(méi)用。在以前,程序員是寫(xiě)代碼的,而統(tǒng)計(jì)學(xué)家是做統(tǒng)計(jì)的。程序員一般用通用的編程語(yǔ)言,而統(tǒng)計(jì)學(xué)家一般用專(zhuān)門(mén)的程序完成自己的日常工作,比如IBM的SPSS (用于社會(huì)科學(xué)的統(tǒng)計(jì)軟件包)。統(tǒng)計(jì)學(xué)家擺弄的國(guó)家統(tǒng)計(jì)數(shù)據(jù)或市場(chǎng)調(diào)研通常只有選定人群能用,而程序員處理的大量數(shù)據(jù)都是放在數(shù)據(jù)庫(kù)或日志文件中的。從云到幾乎所有人都可用的大數(shù)據(jù)改變了這一切。
隨著數(shù)據(jù)量和數(shù)據(jù)類(lèi)型的不斷增加,越來(lái)越需要軟件工程師參與進(jìn)來(lái)對(duì)它們做不同的統(tǒng)計(jì)分析。軟件工程師積極地以前所未有的規(guī)模收集和分析數(shù)據(jù),讓它們變得有價(jià)值,拓展新的業(yè)務(wù)模型。1 比如說(shuō),考慮一下主動(dòng)性維護(hù)。我們可以持續(xù)地對(duì)機(jī)器、網(wǎng)絡(luò)進(jìn)行監(jiān)測(cè),一旦發(fā)現(xiàn)違規(guī)和失效,則立即處理,從而讓我們可以在破壞發(fā)生或系統(tǒng)癱瘓之前糾正它們。這可以從材料成本以及人工介入兩方面降低維護(hù)成本。處理數(shù)據(jù)并找出其中的含義通常只是一個(gè)大項(xiàng)目中的一部分工作,或者只是嵌在某些軟件中,配置中,或硬件優(yōu)化問(wèn)題中。幸運(yùn)的是,大數(shù)據(jù)社區(qū)已經(jīng)對(duì)這種需求作出了響應(yīng),他們創(chuàng)建了一系列的工具,可以將統(tǒng)計(jì)學(xué)家的一些魔力交給程序員—實(shí)際上,這些工具通常要比傳統(tǒng)的統(tǒng)計(jì)工具更強(qiáng)大,因?yàn)樗鼈兡芴幚淼臄?shù)據(jù)量在規(guī)模上要比老的統(tǒng)計(jì)樣本幅度更大。 |
 |
|