|
標貝(青島)科技有限公司
聯系人:郭女士
先生 (市場經理) |
電 話:400-8982016 |
手 機:15321344012  |
 |
|
 |
|
AI訓練數據集 |
2023年3月14日,OpenAI發布了多模態大模型的*新版本GPT-4:文生視頻大模型Sora,Sora通過采用更大規模的AI訓練數據集進行訓練,其推理能力超過了ChatGPT,已成為目前*成功、*受歡迎的大模型。
Sora的出現,打破了人們對AI技術復雜、使用門檻高的固有思維。雖然谷歌提出了比Sora高10倍參數量的大模型(如Switch Transformer),且Sora的核心算法采用谷歌提出的Transformer架構,但是谷歌卻敗給了OpenAI。我們分析AI訓練數據集的數據規模、數據處理方式、用戶數據-模型飛輪是Sora成功的關鍵。
1、龐大的AI訓練數據集規模是Sora成功的基礎
Sora訓練的AI訓練數據集主要包括網站、書籍、社交媒體平臺等,80%以上的AI訓練數據集來自GPT3使用的AI訓練數據集。這些AI訓練數據集包含大量的文本數據,用于自然語言處理等領域的研究和應用。
2、高效的數據處理方式是Sora脫穎而出的重要技術
Sora在基礎技術方面并未有大的突破,主要是在數據清洗、人工標注反饋和整體系統工程化方面取得了進展,從而使其整體效果相比之前的系統取得了較大飛躍。OpenAI團隊也表示他們采用了多項措施確保AI訓練數據集的質量和準確性,尤其數據篩選、數據收集、工程化(千億級token編碼、人工標注)等起了關鍵作用。
3、爆發式的用戶數據促進產品質量與用戶規模形成飛輪效應保證的Sora的火爆
Sora的服務開放給公眾,同時可收集海量、多樣化的數據,搶得數據獲取先機。幾億用戶為Sora貢獻數據,進一步訓練和微調使得Sora更符合用戶需求,吸引更多用戶為其免費提供數據。由此模型的數據飛輪快速轉動起來,用戶數據質量越高,迭代模型效果越好。
由Sora的分析可知,AI訓練數據集將是決定模型好壞的關鍵。據DeepMind 研究團隊預測大模型所需AI訓練數據集規模隨參數量的增加而增加。然而隨著AI訓練數據集規模增加,相應數據質量將越難控制。AI訓練數據集的管理將是大模型發展面臨的一大困境。
通 |
|
|