大數據泛指巨量的數據集,因可從中挖掘出有價值的信息而受到重視。大數據將是下一個創新、競爭、生產力提高的前沿。眾多專家認為大數據將成為新的財富,價值堪比石油。因此,發達國家紛紛將開發利用大數據作為奪取新一輪競爭制高點的重要抓手。
互聯網特別是移動互聯網的發展,加快了信息化向社會經濟各方面、大眾日常生活的滲透。有資料顯示,截至2017年6月,中國網民規模達到7.51億,占全球網民總數的五分之一。互聯網普及率為54.3%,超過全球平均水平4.6個百分點。手機網民規模達7.24億,網民中使用手機上網的比例由2016年底的95.1%提升至96.3%。我國網民數居世界之首,每天產生的數據量也位于世界前列。
隨著寬帶化的發展,人均網絡接入帶寬和流量也迅速提升。全球新產生數據年增40%,即信息總量每兩年就可以翻番,這一趨勢還將持續。目前,單一數據集容量超過幾十TB甚至數PB已不罕見,其規模大到無法在容許的時間內用常規軟件工具對其內容進行抓取、管理和處理。
數據規模越大,處理的難度也越大,但對其進行挖掘可能得到的價值更大,這就是大數據熱的原因。首先,大數據反映輿情和民意。網民在網上產生的海量數據,記錄著他們的思想、行為乃至情感,這是信息時代現實社會與網絡空間深度融合的產物,蘊含著豐富的內涵和很多規律性信息。其次,企業和政府的信息系統每天源源不斷產生大量數據。
為了開發大數據這一金礦,需要有大數據的技術與產品支持,建設下一代信息基礎設施,發展現代信息技術產業體系,健全信息安全保障體系,推進信息網絡技術廣泛運用,是實現四化同步發展的保證。大數據分析對我們深刻領會世情和國情,把握規律,實現科學發展,做出科學決策具有重要意義,我們必須重新認識數據的重要價值。
隨著大數據的發展和創新,對數據處理的能力越來越來強,可以對大量的數據進行精確的分析和挖掘,并運用到工業、農業、醫院、學校和銀行等各個行業場景。其中NLPIR文本搜索與挖掘系統是針對互聯網內容處理的需要,融合了自然語言理解、網絡搜索和文本挖掘的技術,提供了用于技術二次開發的基礎工具集。開發平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中。
NLPIR是一套專門針對原始文本集進行處理和加工的軟件,提供了中間件處理效果的可視化展示其中包括:全文精準檢索、 新詞發現、分詞標注、 文本聚類、分類過濾、 正負面分析、自動摘要、關鍵詞提取、文檔去重等十余項功能。
大數據是新一代信息技術的集中反映,是一個應用驅動性很強的服務領域,是具有無窮潛力的新興產業領域;目前,其標準和產業格局尚未形成,這是我國實現跨越式發展的寶貴機會 |
 |
|