上海天元項目數(shù)據(jù)分析師事務(wù)所有限公司
地址:上海市徐匯區(qū)天鑰橋路329號B棟9樓
王經(jīng)理:021-24193019
郵箱:2860763820@qq.com
無論是采集數(shù)據(jù),還是存儲數(shù)據(jù),都不是大數(shù)據(jù)平臺的*終目標。失
去數(shù)據(jù)處理環(huán)節(jié),即使珍貴如金礦一般的數(shù)據(jù)也不過是一堆廢鐵而已。
數(shù)據(jù)處理是大數(shù)據(jù)產(chǎn)業(yè)的核心路徑,然后再加上*后一公里的數(shù)據(jù)可視
化,整個鏈條就算徹底走通了。
剖析大數(shù)據(jù)平臺的數(shù)據(jù)處理
無論是采集數(shù)據(jù),還是存儲數(shù)據(jù),都不是大數(shù)據(jù)平臺的*終目標。失去
數(shù)據(jù)處理環(huán)節(jié),即使珍貴如金礦一般的數(shù)據(jù)也不過是一堆廢鐵而已。數(shù)
據(jù)處理是大數(shù)據(jù)產(chǎn)業(yè)的核心路徑,然后再加上*后一公里的數(shù)據(jù)可視化
,整個鏈條就算徹底走通了。
如下圖所示,我們可以從業(yè)務(wù)、技術(shù)與編程模型三個不同的視角對數(shù)據(jù)
處理進行歸類:
剖析大數(shù)據(jù)平臺的數(shù)據(jù)處理-1
業(yè)務(wù)角度的分類與具體的業(yè)務(wù)場景有關(guān),但*終會制約技術(shù)的選型,尤
其是數(shù)據(jù)存儲的選型。例如,針對查詢檢索中的全文本搜索,
ElasticSearch會是*佳的選擇,而針對統(tǒng)計分析,則因為統(tǒng)計分析涉及
到的運算,可能都是針對一列數(shù)據(jù),例如針對銷量進行求和運算,就是
針對銷量這一整列的數(shù)據(jù),此時,選擇列式存儲結(jié)構(gòu)可能更加適宜。
在技術(shù)角度的分類中,嚴格地講,SQL方式并不能分為單獨的一類,它其
實可以看做是對API的封裝,通過SQL這種DSL來包裝具體的處理技術(shù),從
而降低數(shù)據(jù)處理腳本的遷移成本。畢竟,多數(shù)企業(yè)內(nèi)部的數(shù)據(jù)處理系統(tǒng)
,在進入大數(shù)據(jù)時代之前,大多以SQL形式來訪問存儲的數(shù)據(jù)。大體上,
SQL是針對MapReduce的包裝,例如Hive、Impala或者Spark SQL。
Streaming流處理可以實時地接收由上游源源不斷傳來的數(shù)據(jù),然后以某
個細小的時間窗口為單位對這個過程中的數(shù)據(jù)進行處理。消費的上游數(shù)
據(jù)可以是通過網(wǎng)絡(luò)傳遞過來的字節(jié)流、從HDFS讀取的數(shù)據(jù)流,又或者是
消息隊列傳來的消息流。通常,它對應(yīng)的就是編程模型中的實時編程模
型。
機器學習與深度學習都屬于深度分析的范疇。隨著Google的AlphaGo以及
TensorFlow框架的開源,深度學習變成了一門顯學。我了解不多,這里
就不露怯了。機器學習與常見的數(shù)據(jù)分析稍有不同,通常需要多個階段
經(jīng)歷多次迭代才能得到滿意的結(jié)果。下圖是深度分析的架構(gòu)圖:
剖析大數(shù)據(jù)平臺的數(shù)據(jù)處理-2
針對存儲的數(shù)據(jù),需要采集數(shù)據(jù)樣本并進行特征提取,然 |
 |
|