大數(shù)據(jù)泛指巨量的數(shù)據(jù)集,因可從中挖掘出有價值的信息而受到重視。大數(shù)據(jù)將是下一個創(chuàng)新、競爭、生產(chǎn)力提高的前沿。眾多專家認(rèn)為大數(shù)據(jù)將成為新的財富,價值堪比石油。因此,發(fā)達國家紛紛將開發(fā)利用大數(shù)據(jù)作為奪取新一輪競爭制高點的重要抓手。
互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展,加快了信息化向社會經(jīng)濟各方面、大眾日常生活的滲透。有資料顯示,截至2017年6月,中國網(wǎng)民規(guī)模達到7.51億,占全球網(wǎng)民總數(shù)的五分之一。互聯(lián)網(wǎng)普及率為54.3%,超過全球平均水平4.6個百分點。手機網(wǎng)民規(guī)模達7.24億,網(wǎng)民中使用手機上網(wǎng)的比例由2016年底的95.1%提升至96.3%。我國網(wǎng)民數(shù)居世界之首,每天產(chǎn)生的數(shù)據(jù)量也位于世界前列。
隨著寬帶化的發(fā)展,人均網(wǎng)絡(luò)接入帶寬和流量也迅速提升。全球新產(chǎn)生數(shù)據(jù)年增40%,即信息總量每兩年就可以翻番,這一趨勢還將持續(xù)。目前,單一數(shù)據(jù)集容量超過幾十TB甚至數(shù)PB已不罕見,其規(guī)模大到無法在容許的時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理。
數(shù)據(jù)規(guī)模越大,處理的難度也越大,但對其進行挖掘可能得到的價值更大,這就是大數(shù)據(jù)熱的原因。首先,大數(shù)據(jù)反映輿情和民意。網(wǎng)民在網(wǎng)上產(chǎn)生的海量數(shù)據(jù),記錄著他們的思想、行為乃至情感,這是信息時代現(xiàn)實社會與網(wǎng)絡(luò)空間深度融合的產(chǎn)物,蘊含著豐富的內(nèi)涵和很多規(guī)律性信息。其次,企業(yè)和政府的信息系統(tǒng)每天源源不斷產(chǎn)生大量數(shù)據(jù)。
為了開發(fā)大數(shù)據(jù)這一金礦,需要有大數(shù)據(jù)的技術(shù)與產(chǎn)品支持,建設(shè)下一代信息基礎(chǔ)設(shè)施,發(fā)展現(xiàn)代信息技術(shù)產(chǎn)業(yè)體系,健全信息安全保障體系,推進信息網(wǎng)絡(luò)技術(shù)廣泛運用,是實現(xiàn)四化同步發(fā)展的保證。大數(shù)據(jù)分析對我們深刻領(lǐng)會世情和國情,把握規(guī)律,實現(xiàn)科學(xué)發(fā)展,做出科學(xué)決策具有重要意義,我們必須重新認(rèn)識數(shù)據(jù)的重要價值。
隨著大數(shù)據(jù)的發(fā)展和創(chuàng)新,對數(shù)據(jù)處理的能力越來越來強,可以對大量的數(shù)據(jù)進行精確的分析和挖掘,并運用到工業(yè)、農(nóng)業(yè)、醫(yī)院、學(xué)校和銀行等各個行業(yè)場景。其中NLPIR文本搜索與挖掘系統(tǒng)是針對互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。開發(fā)平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中。
NLPIR是一套專門針對原始文本集進行處理和加工的軟件,提供了中間件處理效果的可視化展示其中包括:全文精準(zhǔn)檢索、 新詞發(fā)現(xiàn)、分詞標(biāo)注、 文本聚類、分類過濾、 正負(fù)面分析、自動摘要、關(guān)鍵詞提取、文檔去重等十余項功能。
大數(shù)據(jù)是新一代信息技術(shù)的集中反映,是一個應(yīng)用驅(qū)動性很強的服務(wù)領(lǐng)域,是具有無窮潛力的新興產(chǎn)業(yè)領(lǐng)域;目前,其標(biāo)準(zhǔn)和產(chǎn)業(yè)格局尚未形成,這是我國實現(xiàn)跨越式發(fā)展的寶貴機會 |
 |
|