“喂”給人工智能的真實數(shù)據(jù)終將耗盡 合成數(shù)據(jù)能否讓AI模型精確可靠?
澳大利亞“對話”網(wǎng)站在本月稍早時間報道中指出,合成數(shù)據(jù)具有諸多優(yōu)勢,但過度依賴合成數(shù)據(jù)也可能削弱AI的精確性和可靠性。
圖片來源:物理學家組織網(wǎng)
合成數(shù)據(jù)應(yīng)運而生
以往,科技公司主要依賴真實數(shù)據(jù)來構(gòu)建、訓練和改進AI模型。真實數(shù)據(jù)是指由人類創(chuàng)建的文本、視頻和圖像。它們通過調(diào)查、實驗、觀察或挖掘網(wǎng)站和社交媒體等途徑被收集而來。
真實數(shù)據(jù)因蘊含真實事件以及其場景和背景而極具價值,但其并非盡善盡美。它可能摻雜拼寫錯誤、不一致或無關(guān)的內(nèi)容,甚至潛藏嚴重偏見,導致生成式AI模型在某些情況下創(chuàng)建的圖像僅展示男性或白人形象。
但真實數(shù)據(jù)日益匱乏,因為人類生成數(shù)據(jù)的速度趕不上AI不斷增長的需求。
美國開放人工智能研究中心聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾在去年12月舉行的機器學習會議上聲稱,AI行業(yè)已觸及他所稱的“數(shù)據(jù)峰值”,AI的訓練數(shù)據(jù)如同化石燃料一樣面臨著耗盡的危機。此外,有研究預(yù)測,到2026年,ChatGPT等大型語言模型的訓練將耗盡互聯(lián)網(wǎng)上所有可用文本數(shù)據(jù),屆時將沒有新的真實數(shù)據(jù)可供使用。
為給AI提供充足的“養(yǎng)分”,一種由算法生成的、模仿真實世界情況的數(shù)據(jù)——合成數(shù)據(jù)應(yīng)運而生。合成數(shù)據(jù)是在數(shù)字世界中創(chuàng)造的,而非從現(xiàn)實世界收集或測量而來。它可以作為真實世界數(shù)據(jù)的替代品,來訓練、測試、驗證AI模型。
從理論上來說,合成數(shù)據(jù)為訓練AI模型提供了一種經(jīng)濟高效且快捷的解決方案。它有效解決了AI訓練使用真實數(shù)據(jù)時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數(shù)據(jù)等敏感信息時。更重要的是,與真實數(shù)據(jù)不同,合成數(shù)據(jù)在理論上可以無限供應(yīng)。
研究機構(gòu)高德納公司估計,2024年AI及分析項目使用的數(shù)據(jù)中,約60%是合成數(shù)據(jù)。到2030年,AI模型使用的絕大部分數(shù)據(jù)將是由AI生成的合成數(shù)據(jù)。
科技公司來者不拒
事實上,微軟、元宇宙平臺公司,以及Anthropic等眾多科技頭部企業(yè)和初創(chuàng)企業(yè),已經(jīng)開始廣泛使用合成數(shù)據(jù)來訓練其AI模型。
例如,微軟在1月8日開源的AI模型“Phi-4”,便是合成數(shù)據(jù)攜手真實數(shù)據(jù)訓練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數(shù)據(jù),開發(fā)出其性能最優(yōu)異的AI系統(tǒng)之一“Claude 3.5 Sonnet”。蘋果自研AI系統(tǒng)Apple Intelligence,在預(yù)訓練階段,也大量使用了合成數(shù)據(jù)。
隨著科技公司對合成數(shù)據(jù)的需求與日俱增,生產(chǎn)合成數(shù)據(jù)的工具也接踵而至。
英偉達公司發(fā)布的3D仿真數(shù)據(jù)生成引擎Omniverse Replicator,能夠生成合成數(shù)據(jù),用于自動駕駛汽車和機器人訓練。去年6月,英偉達開源了Nemotron-4340b系列模型,開發(fā)者可使用該模型生成合成數(shù)據(jù),用于訓練大型語言模型,以應(yīng)用于醫(yī)療保健、金融、制造、零售等行業(yè)。在醫(yī)療、金融等專業(yè)領(lǐng)域,該模型能夠根據(jù)特定需求生成高質(zhì)量的合成數(shù)據(jù),幫助構(gòu)建更為精準的行業(yè)專屬模型。微軟推出的開源合成數(shù)據(jù)工具Synthetic Data Showcase則旨在通過生成合成數(shù)據(jù)和用戶界面,實現(xiàn)隱私保護的數(shù)據(jù)共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數(shù)十萬張自動標記的合成圖像。
此外,去年12月,元宇宙平臺公司推出開源大模型Llama 3.3,更是大幅降低了生成合成數(shù)據(jù)的成本。
過度依賴風險難測
盡管合成數(shù)據(jù)暫時解決了AI訓練的燃眉之急,但它也并非盡善盡美。
一個關(guān)鍵問題在于:當AI模型過于依賴合成數(shù)據(jù)時,它們可能會“崩潰”。它們會產(chǎn)生更多“幻覺”,編造看似合理可信但實際上并不存在的信息。而且,AI模型的質(zhì)量和性能也會飛速下降,甚至無法使用。例如,某個AI模型生成的數(shù)據(jù)出現(xiàn)了一些拼寫錯誤,利用這些充滿了錯誤的數(shù)據(jù)訓練其他模型,這些AI模型必定會“以訛傳訛”,導致更大的錯誤。
此外,合成數(shù)據(jù)也存在過于簡單化的風險。它可能缺乏真實數(shù)據(jù)集蘊含的細節(jié)和多樣性,這可能導致在其上訓練的AI模型的輸出也過于簡單,缺乏實用性。
為解決這些問題,國際標準化組織需要著手創(chuàng)建強大的系統(tǒng),來跟蹤和驗證AI訓練數(shù)據(jù)。此外,AI系統(tǒng)可以配備元數(shù)據(jù)追蹤功能,讓用戶或系統(tǒng)能對合成數(shù)據(jù)進行溯源。人類也需要在AI模型的整個訓練過程中對合成數(shù)據(jù)進行監(jiān)督,以確保其高質(zhì)量且符合道德標準。
AI的未來在很大程度上取決于數(shù)據(jù)的質(zhì)量,合成數(shù)據(jù)將在克服數(shù)據(jù)短缺方面發(fā)揮越來越重要的作用。對合成數(shù)據(jù)的使用,人們必須保持謹慎態(tài)度,盡量減少錯誤,確保其作為真實數(shù)據(jù)的可靠補充,從而保障AI系統(tǒng)的準確性和可信度。
關(guān)鍵詞:
責任編輯:孫知兵
免責聲明:本文僅代表作者個人觀點,與太平洋財富網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
如有問題,請聯(lián)系我們!
- “喂”給人工智能的真實數(shù)據(jù)終將耗盡 合成2025-01-27
- 激發(fā)千行百業(yè)走技能報國之路2025-01-27
- 提升老年人數(shù)字素養(yǎng) 促進高質(zhì)量數(shù)字閱讀2025-01-27
- 殺菌除螨AI智能 洗衣機換新升級2025-01-27
- 2024國防科技工業(yè)十大新聞揭曉2025-01-27
- 我國5G電話月戶均流量達19個GB2025-01-27
- 我國已有570多家工業(yè)企業(yè)入圍全球研發(fā)投入22025-01-27
- AI賦能心理成長行業(yè),心路智語開辟發(fā)展新藍2025-01-27
- 粵海飼料:2025年圍繞既定戰(zhàn)略目標,持續(xù)深2025-01-27
- 舍得酒業(yè)線上線下聯(lián)動助力春節(jié)市場突破,2022025-01-27
- Arab Health 2025|魚躍醫(yī)療與Inogen達成2025-01-27
- 有錄網(wǎng)出席CBBC教育論壇,共話中英教育合作2025-01-27
- 歌輝戰(zhàn)略助力,高梵取勝戰(zhàn)略轉(zhuǎn)型之戰(zhàn)2025-01-27
- 筆克遠東集團有限公司(股份代號: 752.HK2025-01-26
- 國產(chǎn)GLP-1內(nèi)卷的出口2025-01-26
- 2024央廣網(wǎng)教育年度盛典——有錄網(wǎng)榮獲“202025-01-26
- 春秋航空空鐵聯(lián)運,助力蘭州旅客春節(jié)溫暖返2025-01-26
- 我國成功發(fā)射通信技術(shù)試驗衛(wèi)星十四號2025-01-26
- 量子計算機距廣泛應(yīng)用還遠嗎2025-01-26
- 促進平臺經(jīng)濟持續(xù)健康發(fā)展2025-01-26
- 大模型身瘦路更寬2025-01-26
- 新華全媒+丨這群“00后”用AI表白年味2025-01-26
- 海南商業(yè)航天發(fā)射場將新建兩個液體火箭發(fā)射2025-01-26
- 科學家成功解析大腦掌管學習記憶的“分子開2025-01-26
- 新年新社交!通通App“1+N”模式構(gòu)建商業(yè)社2025-01-26
- 實力見證,再添殊榮!一品威客入選這份榜單2025-01-26
- 韓泰輪胎攜手索爾維,聯(lián)合開發(fā)循環(huán)二氧化硅2025-01-26
- 銅門“亂市”迎來變革者——江山歐派2025-01-26
- 歐派傳世銅門《五代千秋》系列:千年銅韻 2025-01-26
- “2025云南春晚明星”陣容發(fā)布2025-01-26
精彩推薦
- 護航年末流動性 降準蓄勢待發(fā)
- 千億資金翻涌 信托公司能否成為綠色金...
- 市值管理新規(guī)推動估值重塑 央國企或成主導
- 央行連續(xù)操作注入流動性 降準預(yù)期再升溫
- 小黃象攜手中國國家U18冰球隊,以熱愛書...
- 北京花卉交易中心豐富市民“花樣”生活
- 南漳柑橘“致富經(jīng)”:高山盆地“金果”...
- 市場監(jiān)管總局:推動平臺企業(yè)和平臺內(nèi)商...
- 遇見非遺丨把沉睡的泥土鐫刻進生活
- “江南蔬菜之鄉(xiāng)”江西樂平3000余畝水芹...
- 襄陽牛肉面:“熱辣滾燙”顯“俠義”
- 【百萬莊小課堂】今天你emo了嗎?職場青...
- 中國試點開放信用監(jiān)管數(shù)據(jù) 便利境外來...
- 深圳年度最大規(guī)模畢業(yè)生雙選會提供崗位3...
- 廣西桂林滿城桂花飄香