上海天元項(xiàng)目數(shù)據(jù)分析師事務(wù)所有限公司
地址:上海市徐匯區(qū)天鑰橋路329號B棟9樓
王經(jīng)理:021-24193019
郵箱:2860763820@qq.com
無論是采集數(shù)據(jù),還是存儲數(shù)據(jù),都不是大數(shù)據(jù)平臺的*終目標(biāo)。失
去數(shù)據(jù)處理環(huán)節(jié),即使珍貴如金礦一般的數(shù)據(jù)也不過是一堆廢鐵而已。
數(shù)據(jù)處理是大數(shù)據(jù)產(chǎn)業(yè)的核心路徑,然后再加上*后一公里的數(shù)據(jù)可視
化,整個(gè)鏈條就算徹底走通了。
剖析大數(shù)據(jù)平臺的數(shù)據(jù)處理
無論是采集數(shù)據(jù),還是存儲數(shù)據(jù),都不是大數(shù)據(jù)平臺的*終目標(biāo)。失去
數(shù)據(jù)處理環(huán)節(jié),即使珍貴如金礦一般的數(shù)據(jù)也不過是一堆廢鐵而已。數(shù)
據(jù)處理是大數(shù)據(jù)產(chǎn)業(yè)的核心路徑,然后再加上*后一公里的數(shù)據(jù)可視化
,整個(gè)鏈條就算徹底走通了。
如下圖所示,我們可以從業(yè)務(wù)、技術(shù)與編程模型三個(gè)不同的視角對數(shù)據(jù)
處理進(jìn)行歸類:
剖析大數(shù)據(jù)平臺的數(shù)據(jù)處理-1
業(yè)務(wù)角度的分類與具體的業(yè)務(wù)場景有關(guān),但*終會(huì)制約技術(shù)的選型,尤
其是數(shù)據(jù)存儲的選型。例如,針對查詢檢索中的全文本搜索,
ElasticSearch會(huì)是*佳的選擇,而針對統(tǒng)計(jì)分析,則因?yàn)榻y(tǒng)計(jì)分析涉及
到的運(yùn)算,可能都是針對一列數(shù)據(jù),例如針對銷量進(jìn)行求和運(yùn)算,就是
針對銷量這一整列的數(shù)據(jù),此時(shí),選擇列式存儲結(jié)構(gòu)可能更加適宜。
在技術(shù)角度的分類中,嚴(yán)格地講,SQL方式并不能分為單獨(dú)的一類,它其
實(shí)可以看做是對API的封裝,通過SQL這種DSL來包裝具體的處理技術(shù),從
而降低數(shù)據(jù)處理腳本的遷移成本。畢竟,多數(shù)企業(yè)內(nèi)部的數(shù)據(jù)處理系統(tǒng)
,在進(jìn)入大數(shù)據(jù)時(shí)代之前,大多以SQL形式來訪問存儲的數(shù)據(jù)。大體上,
SQL是針對MapReduce的包裝,例如Hive、Impala或者Spark SQL。
Streaming流處理可以實(shí)時(shí)地接收由上游源源不斷傳來的數(shù)據(jù),然后以某
個(gè)細(xì)小的時(shí)間窗口為單位對這個(gè)過程中的數(shù)據(jù)進(jìn)行處理。消費(fèi)的上游數(shù)
據(jù)可以是通過網(wǎng)絡(luò)傳遞過來的字節(jié)流、從HDFS讀取的數(shù)據(jù)流,又或者是
消息隊(duì)列傳來的消息流。通常,它對應(yīng)的就是編程模型中的實(shí)時(shí)編程模
型。
機(jī)器學(xué)習(xí)與深度學(xué)習(xí)都屬于深度分析的范疇。隨著Google的AlphaGo以及
TensorFlow框架的開源,深度學(xué)習(xí)變成了一門顯學(xué)。我了解不多,這里
就不露怯了。機(jī)器學(xué)習(xí)與常見的數(shù)據(jù)分析稍有不同,通常需要多個(gè)階段
經(jīng)歷多次迭代才能得到滿意的結(jié)果。下圖是深度分析的架構(gòu)圖:
剖析大數(shù)據(jù)平臺的數(shù)據(jù)處理-2
針對存儲的數(shù)據(jù),需要采集數(shù)據(jù)樣本并進(jìn)行特征提取,然 |
 |
|