熟悉深度學(xué)習(xí)的人都知道,深度學(xué)習(xí)是需要訓(xùn)練的,所謂的訓(xùn)練就是在成千上萬個變量中尋找*佳值的計算。這需要通過不斷的嘗試實現(xiàn)收斂,而*終獲得的數(shù)值并非是人工確定的數(shù)字,而是一種常態(tài)的公式。通過這種像素級的學(xué)習(xí),不斷總結(jié)規(guī)律,計算機就可以實現(xiàn)像像人一樣思考。如今,幾乎所有的深度學(xué)習(xí)(機器學(xué)習(xí))研究者都在使用GPU進(jìn)行相關(guān)的研究。當(dāng)然,我說的是“幾乎”。除了GPU之外,包括MIC和FPGA也提供了不同的解決方案。NVIDIA如何看待不同的硬件架構(gòu)對深度學(xué)習(xí)的影響,又是如何評價這些技術(shù)的呢?
除了硬件方面的因素之外,英偉達(dá)中國區(qū)技術(shù)經(jīng)理賴俊杰也從軟件方面解答了GPU對于深度學(xué)習(xí)應(yīng)用的價值。首先從深度學(xué)習(xí)應(yīng)用的開發(fā)工具角度,具備CUDA支持的GPU為用戶學(xué)習(xí)Caffe、Theano等研究工具提供了很好的入門平臺。其實GPU不僅僅是指專注于HPC領(lǐng)域的Tesla,包括Geforce在內(nèi)的GPU都可以支持CUDA計算,這也為初學(xué)者提供了相對更低的應(yīng)用門檻。除此之外,CUDA在算法和程序設(shè)計上相比其他應(yīng)用更加容易,通過NVIDIA多年的推廣也積累了廣泛的用戶群,開發(fā)難度更小。*后則是部署環(huán)節(jié),GPU通過PCI-e接口可以直接部署在服務(wù)器中,方便而快速。得益于硬件支持與軟件編程、設(shè)計方面的優(yōu)勢,GPU才成為了目前應(yīng)用*廣泛的平臺。
深度學(xué)習(xí)發(fā)展遇到瓶頸了嗎?
我們之所以使用GPU加速深度學(xué)習(xí),是因為深度學(xué)習(xí)所要計算的數(shù)據(jù)量異常龐大,用傳統(tǒng)的計算方式需要漫長的時間。但是,如果未來深度學(xué)習(xí)的數(shù)據(jù)量有所下降,或者說我們不能提供給深度學(xué)習(xí)研究所需要的足夠數(shù)據(jù)量,是否就意味著深度學(xué)習(xí)也將進(jìn)入“寒冬”呢?對此,賴俊杰也提出了另外一種看法。“做深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量模型,然后才能實現(xiàn)數(shù)學(xué)上的收斂。深度學(xué)習(xí)要真正接近成人的智力,它所需要的神經(jīng)網(wǎng)絡(luò)規(guī)模非常龐大,它所需要的數(shù)據(jù)量,會比我們做語言識別、圖像處理要多得多。假設(shè)說,我們發(fā)現(xiàn)我們沒有辦法提供這樣的數(shù)據(jù),很有可能出現(xiàn)寒冬”。
不過他也補充認(rèn)為——從今天看到的結(jié)果來說,其實深度學(xué)習(xí)目前還在蓬勃發(fā)展往上的階段。比如說我們現(xiàn)階段主要做得比較成熟的語音、圖像方面,整個的數(shù)據(jù)量還是在不斷的增多的,網(wǎng)絡(luò)規(guī)模也在不斷的變復(fù)雜。現(xiàn)在我沒有辦法預(yù)測,將來是不是會有一天數(shù)據(jù)真不夠用了。
對于NVIDIA來說,深度學(xué)習(xí)是GPU計算發(fā)展的大好時機,也是繼HPC之后一個全新的業(yè)務(wù)增長點。正如Pandey所提到的那樣,NVIDIA將世界各地的成功經(jīng)驗帶到中國,包括國外的成功案例、與合作伙伴的良好關(guān)系等等,幫助中國客戶的快速成長。“因為現(xiàn)在是互聯(lián)網(wǎng)的時代,是沒有跨界的時代,大家都是同等一起的。”
K40的顯存頻率也從之前的5.2GHz提高到了6GHz,顯存位寬依然是384bit。帶寬從之前的250GB/s提高到了288GB/s,不過TDP繼續(xù)維持K20X的235W水準(zhǔn),整體控制的很不錯。
*大的變化要屬顯存容量了,之前K20X標(biāo)配的是6GB,此次K40搭配的是12GB顯存,不過顯存顆粒的數(shù)量并沒有增加,因為NVIDIA這次使用的是4Gb顯存,此前包括桌面及Tesla、Quadro產(chǎn)品線上使用的顯存顆粒都是2Gb容量,因此在維持24片顯存的情況下Tesla K40的總?cè)萘刻嵘搅?2GB(24x4Gb),而K20X只有6GB(24x2Gb)。
還有一個值得注意的變化,那就是Tesla K40終于實現(xiàn)PCI-E 3.0支持了,雖然之前的Tesla K20X設(shè)計上也是支持PCI-E 3.0的,但是實際啟用的還是PCI-E 2.0速度,此前NVIDIA在IVB-E發(fā)布時就有過類似的兼容性問題,現(xiàn)在已經(jīng)不存在這樣的問題了,支持PCI-E 3.0將使得K40與CPU之間的帶寬從8GB/s提高到15.75GB/s。 |
 |
|