|
上海天元數據分析事務所有限公司
聯系人:王經理
女士 (經理) |
電 話:021-24193019 |
手 機:18217321692  |
 |
|
 |
|
投資分析報告剖析大數據平臺的數據處理 |
上海天元項目數據分析師事務所有限公司
地址:上海市徐匯區天鑰橋路329號B棟9樓
王經理:021-24193019
郵箱:2860763820@qq.com
無論是采集數據,還是存儲數據,都不是大數據平臺的*終目標。失
去數據處理環節,即使珍貴如金礦一般的數據也不過是一堆廢鐵而已。
數據處理是大數據產業的核心路徑,然后再加上*后一公里的數據可視
化,整個鏈條就算徹底走通了。
剖析大數據平臺的數據處理
無論是采集數據,還是存儲數據,都不是大數據平臺的*終目標。失去
數據處理環節,即使珍貴如金礦一般的數據也不過是一堆廢鐵而已。數
據處理是大數據產業的核心路徑,然后再加上*后一公里的數據可視化
,整個鏈條就算徹底走通了。
如下圖所示,我們可以從業務、技術與編程模型三個不同的視角對數據
處理進行歸類:
剖析大數據平臺的數據處理-1
業務角度的分類與具體的業務場景有關,但*終會制約技術的選型,尤
其是數據存儲的選型。例如,針對查詢檢索中的全文本搜索,
ElasticSearch會是*佳的選擇,而針對統計分析,則因為統計分析涉及
到的運算,可能都是針對一列數據,例如針對銷量進行求和運算,就是
針對銷量這一整列的數據,此時,選擇列式存儲結構可能更加適宜。
在技術角度的分類中,嚴格地講,SQL方式并不能分為單獨的一類,它其
實可以看做是對API的封裝,通過SQL這種DSL來包裝具體的處理技術,從
而降低數據處理腳本的遷移成本。畢竟,多數企業內部的數據處理系統
,在進入大數據時代之前,大多以SQL形式來訪問存儲的數據。大體上,
SQL是針對MapReduce的包裝,例如Hive、Impala或者Spark SQL。
Streaming流處理可以實時地接收由上游源源不斷傳來的數據,然后以某
個細小的時間窗口為單位對這個過程中的數據進行處理。消費的上游數
據可以是通過網絡傳遞過來的字節流、從HDFS讀取的數據流,又或者是
消息隊列傳來的消息流。通常,它對應的就是編程模型中的實時編程模
型。
機器學習與深度學習都屬于深度分析的范疇。隨著Google的AlphaGo以及
TensorFlow框架的開源,深度學習變成了一門顯學。我了解不多,這里
就不露怯了。機器學習與常見的數據分析稍有不同,通常需要多個階段
經歷多次迭代才能得到滿意的結果。下圖是深度分析的架構圖:
剖析大數據平臺的數據處理-2
針對存儲的數據,需要采集數據樣本并進行特征提取,然 |
|
|