2023年3月14日,OpenAI發(fā)布了多模態(tài)大模型的*新版本GPT-4:文生視頻大模型Sora,Sora通過(guò)采用更大規(guī)模的AI訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,其推理能力超過(guò)了ChatGPT,已成為目前*成功、*受歡迎的大模型。
Sora的出現(xiàn),打破了人們對(duì)AI技術(shù)復(fù)雜、使用門檻高的固有思維。雖然谷歌提出了比Sora高10倍參數(shù)量的大模型(如Switch Transformer),且Sora的核心算法采用谷歌提出的Transformer架構(gòu),但是谷歌卻敗給了OpenAI。我們分析AI訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)規(guī)模、數(shù)據(jù)處理方式、用戶數(shù)據(jù)-模型飛輪是Sora成功的關(guān)鍵。
1、龐大的AI訓(xùn)練數(shù)據(jù)集規(guī)模是Sora成功的基礎(chǔ)
Sora訓(xùn)練的AI訓(xùn)練數(shù)據(jù)集主要包括網(wǎng)站、書籍、社交媒體平臺(tái)等,80%以上的AI訓(xùn)練數(shù)據(jù)集來(lái)自GPT3使用的AI訓(xùn)練數(shù)據(jù)集。這些AI訓(xùn)練數(shù)據(jù)集包含大量的文本數(shù)據(jù),用于自然語(yǔ)言處理等領(lǐng)域的研究和應(yīng)用。
2、高效的數(shù)據(jù)處理方式是Sora脫穎而出的重要技術(shù)
Sora在基礎(chǔ)技術(shù)方面并未有大的突破,主要是在數(shù)據(jù)清洗、人工標(biāo)注反饋和整體系統(tǒng)工程化方面取得了進(jìn)展,從而使其整體效果相比之前的系統(tǒng)取得了較大飛躍。OpenAI團(tuán)隊(duì)也表示他們采用了多項(xiàng)措施確保AI訓(xùn)練數(shù)據(jù)集的質(zhì)量和準(zhǔn)確性,尤其數(shù)據(jù)篩選、數(shù)據(jù)收集、工程化(千億級(jí)token編碼、人工標(biāo)注)等起了關(guān)鍵作用。
3、爆發(fā)式的用戶數(shù)據(jù)促進(jìn)產(chǎn)品質(zhì)量與用戶規(guī)模形成飛輪效應(yīng)保證的Sora的火爆
Sora的服務(wù)開放給公眾,同時(shí)可收集海量、多樣化的數(shù)據(jù),搶得數(shù)據(jù)獲取先機(jī)。幾億用戶為Sora貢獻(xiàn)數(shù)據(jù),進(jìn)一步訓(xùn)練和微調(diào)使得Sora更符合用戶需求,吸引更多用戶為其免費(fèi)提供數(shù)據(jù)。由此模型的數(shù)據(jù)飛輪快速轉(zhuǎn)動(dòng)起來(lái),用戶數(shù)據(jù)質(zhì)量越高,迭代模型效果越好。
由Sora的分析可知,AI訓(xùn)練數(shù)據(jù)集將是決定模型好壞的關(guān)鍵。據(jù)DeepMind 研究團(tuán)隊(duì)預(yù)測(cè)大模型所需AI訓(xùn)練數(shù)據(jù)集規(guī)模隨參數(shù)量的增加而增加。然而隨著AI訓(xùn)練數(shù)據(jù)集規(guī)模增加,相應(yīng)數(shù)據(jù)質(zhì)量將越難控制。AI訓(xùn)練數(shù)據(jù)集的管理將是大模型發(fā)展面臨的一大困境。
通 |
 |
|