4月7日,紐約時(shí)報(bào)在官網(wǎng)發(fā)布了一篇名為《科技巨頭如何挖空心思,為AI收集數(shù)據(jù)》的技術(shù)文章。
紐約時(shí)報(bào)表示,OpenAI曾在2021年幾乎消耗盡了互聯(lián)網(wǎng)有用的文本數(shù)據(jù)源。為了緩解訓(xùn)練數(shù)據(jù)短缺的難題,便開發(fā)了知名開源語音識(shí)別模型Whisper。
隨后在OpenAI副總裁Greg Brockman的帶領(lǐng)下,從視頻平臺(tái)YT、有聲播客/讀物等轉(zhuǎn)錄了超過100萬小時(shí)的視頻數(shù)據(jù),然后轉(zhuǎn)化成文本數(shù)據(jù)用于訓(xùn)練GPT-4。
雖然這一舉措游走在法律的邊緣處于灰色地帶,但也直接反映出了大模型廠商對(duì)于訓(xùn)練數(shù)據(jù)的饑渴程度。
紐約時(shí)報(bào)指出,不只是OpenAI,谷歌、Meta等科技巨頭因?yàn)橄胨鸭哔|(zhì)量訓(xùn)練數(shù)據(jù)而修改隱私數(shù)據(jù)條款,來避免版權(quán)法的制裁。
例如,Meta為了追趕OpenAI、微軟,使用了互聯(lián)網(wǎng)上幾乎所有公開的英語書籍、散文、詩歌和新聞文章等內(nèi)容。
甚至想直接買下一家大型出版社,來獲取更高質(zhì)量的有版權(quán)、付費(fèi)數(shù)據(jù)。不過沒有人敢輕易相信Meta的數(shù)據(jù)隱私條例。
這是因?yàn)?018年的“劍橋分析丑聞”讓Meta的信譽(yù)陷入低谷(那時(shí)的名字是Facebook)。
該事件是,一家英國劍橋分析公司通過一款心理測試程序,非法獲取了大約8700萬Facebook用戶的個(gè)人隱私數(shù)據(jù),包括未經(jīng)用戶明確同意的信息。
用戶在參與測試時(shí),不僅自己的數(shù)據(jù)被收集,就連Facebook好友的信息也被抓取。該丑聞爆發(fā)后,F(xiàn)acebook面臨了前所未有的審查,該公司的數(shù)據(jù)隱私政策和管理不當(dāng)受到嚴(yán)重處罰。
最后,以扎克伯格出面道歉、參加聽證會(huì)才收?qǐng)觥?/p>
高質(zhì)量數(shù)據(jù),是生成式AI領(lǐng)域的“黃金”。
當(dāng)你向ChatGPT、Gemini、Claude等提問獲得文本答案時(shí),心里是否會(huì)想過,這種內(nèi)容的寫法好像在哪里見過?
居然可以輕松寫出古龍、金庸、莫言、莎士比亞、泰戈?duì)枴⒔娲堉?、夏目漱石等國?nèi)外知名作家風(fēng)格的內(nèi)容。
沒錯(cuò),大模型最擅長的便是抄襲然后二次創(chuàng)新,但整體框架、敘述方法還是以模仿為基石。
如果只用一句大白話來解釋大模型的原理——通過海量預(yù)訓(xùn)練數(shù)據(jù)讓大模型學(xué)會(huì)人類的寫作技巧和習(xí)慣(視頻、音頻、圖片架構(gòu)會(huì)更復(fù)雜一些,但基本同理),然后進(jìn)行排列組合、預(yù)測生成全新的內(nèi)容(大模型的文本提示,相當(dāng)于搜索引擎的關(guān)鍵字)。
所以,相比幾千億甚至上萬億的參數(shù),在架構(gòu)、算法差不多的情況下,訓(xùn)練數(shù)據(jù)對(duì)于大模型更重要。微軟、Stability AI發(fā)布的Orca 2、Stable LM 2等模型也充分證明了——通過高質(zhì)量數(shù)據(jù)訓(xùn)練的小參數(shù)模型,性能可以強(qiáng)過大參數(shù)模型。
就像上面的作家舉例一樣,A廠商的模型學(xué)習(xí)了夏目漱石的寫作數(shù)據(jù),而B沒有,兩家又都是基于Transformer架構(gòu),明顯A的寫作能力要大于B。
也可以把訓(xùn)練數(shù)據(jù)看成“內(nèi)功心法”,當(dāng)兩位劍客的招式幾乎差不多時(shí),在關(guān)鍵時(shí)刻比拼的就是誰的內(nèi)功高,誰便能技高一籌。
此外,為了獲取高質(zhì)量數(shù)據(jù),2023年7月5日,谷歌 修改了數(shù)據(jù)隱私條款,將會(huì)抓取用戶公開或來自其他公共來源的數(shù)據(jù),用于訓(xùn)練Gemini(當(dāng)時(shí)用名Bard)、谷歌翻譯和云AI等產(chǎn)品。
但好景不長,在公布消息的15天后,谷歌就接到了美國克拉克森律師事務(wù)所的起訴。在這份長達(dá)90頁的訴訟書中,指控谷歌從網(wǎng)絡(luò)秘密竊取大量數(shù)據(jù)來訓(xùn)練其AI產(chǎn)品。指控其疏忽、侵犯隱私、盜竊、侵犯版權(quán)以及從非法獲取的個(gè)人數(shù)據(jù)中獲利。
谷歌為了獲取高質(zhì)量數(shù)據(jù)鋌而走險(xiǎn),可見數(shù)據(jù)對(duì)于大模型的重要性。
合成數(shù)據(jù)正成為主流
4月2日,華爾街日?qǐng)?bào)在官網(wǎng)發(fā)布了一篇名為《對(duì)于大量消耗數(shù)據(jù)的AI企業(yè)來說,互聯(lián)網(wǎng)太小了》的內(nèi)容。
華爾街日?qǐng)?bào)指出,對(duì)于大模型廠商來說互聯(lián)網(wǎng)那點(diǎn)數(shù)據(jù),就像一口被挖干的油井根本不夠用。
尤其是對(duì)于訓(xùn)練視頻、音頻、圖像這些比文本更復(fù)雜的模型,就像一個(gè)“數(shù)據(jù)黑洞”可以無限吸收各種數(shù)據(jù)。
但常在河邊走哪有不濕鞋的事,各家科技巨頭當(dāng)然也清楚,游走在灰色地帶只是無奈之舉。所以,他們想了一個(gè)新辦法使用合成數(shù)據(jù)。
合成數(shù)據(jù)是通過算法、機(jī)器學(xué)習(xí)模型自動(dòng)合成的“虛擬數(shù)據(jù)”,以模擬真實(shí)世界數(shù)據(jù)的統(tǒng)計(jì)特性。基本上也是以模仿為主,但在法律和應(yīng)用場景等方面有很多優(yōu)勢。
良好的隱私保護(hù),合成數(shù)據(jù)可以在不暴露個(gè)人或敏感信息的情況下生成數(shù)據(jù),這對(duì)于遵守GDPR或HIPAA等隱私法規(guī)非常重要。
無限數(shù)據(jù)源,理論上,可以生成無限量的合成數(shù)據(jù),這對(duì)于需要大量數(shù)據(jù)但現(xiàn)實(shí)世界數(shù)據(jù)不足以支持的場景非常有用。
控制數(shù)據(jù)分布,可以精確控制合成數(shù)據(jù)的分布,能定制數(shù)據(jù)以探索特定的情況或增強(qiáng)模型在特定任務(wù)上的性能。
成本低,收集和標(biāo)注大量真實(shí)世界數(shù)據(jù)比較貴,而生成合成數(shù)據(jù)的成本通常較低,主要由AI自動(dòng)完成。
但合成數(shù)據(jù)也并非完美無缺,最致命的缺點(diǎn)便是過度擬合:如果合成數(shù)據(jù)過于簡化或未能捕捉到真實(shí)數(shù)據(jù)的關(guān)鍵特征、表示,用于訓(xùn)練AI模型可能會(huì)過度擬合輸出的內(nèi)容同質(zhì)化且繁重?zé)o用。
在合成數(shù)據(jù)應(yīng)用方面,OpenAI在今年2月15日重磅發(fā)布的視頻模型Sora,很多技術(shù)大咖就分析,Sora能生成如此高清的視頻和時(shí)長,可能使用了虛幻引擎5生成的合成數(shù)據(jù)。
事實(shí)上,根據(jù)內(nèi)測用戶發(fā)布Sora生成的視頻,然后與虛幻引擎5的示例視頻進(jìn)行了多維度對(duì)比,大概率是使用了合成的視頻數(shù)據(jù)來訓(xùn)練Sora。
所以,使用合成數(shù)據(jù)訓(xùn)練AI模型,將成為未來主要趨勢之一。
本文素材來源紐約時(shí)報(bào)、維基百科、谷歌官網(wǎng)、Meta官網(wǎng)、theverge官網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國RPA生態(tài)發(fā)展 | 流 > OpenAI曾轉(zhuǎn)錄100萬小時(shí)視頻數(shù)據(jù),訓(xùn)練GPT-4
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國