觸目驚心:AI到底消耗了多少能源和成本?

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部
        
      作者 | 張之棟、趙鈺瑩   
       
      導讀: 隨著 AI 算力的逐步提升,能耗和成本也在逐漸增加。根據最新的研究結果,訓練一個 AI 模型產生的能耗多達五輛汽車一生排放的碳總量,昂貴的 BERT 模型的碳足跡約為 1400 磅二氧化碳,這與一個人來回坐飛機穿越美洲的排放量相當。再加上算法、數據和算力成本,機器學習可能會使公司花費 51,750 美元至 136,750 美元不等,難道這也是普通公司和開發者玩不起系列?   
        
       
      AI 算力提升的背后:能耗劇增   
       

      過去,人工智能經常被比作石油行業:一旦對(數據 / 石油)進行開采、精煉,就可以變為高利潤的商品。現在看來,人工智能在能耗層面的表現也可與石油行業一較高下。根據最新的論文結果,訓練一個 AI 模型產生的能耗多達五輛汽車一生排放的碳總量。

      這篇 新論文 是馬薩諸塞大學阿默斯特校區的研究人員公布的,以常見的幾種大型 AI 模型的訓練周期為例,發現該過程可排放超過 626,000 磅二氧化碳,幾乎是普通汽車壽命周期排放量的五倍(其中包括汽車本身的制造過程)。


      這一結果也是很多 AI 研究人員沒有想到的。西班牙拉科魯尼亞大學的一位計算機科學家表示:“雖然我們中的很多人對此(能耗)有一個抽象的、模糊的概念,但這些數字表明事實比我們想象得要嚴重。我或者是其他 AI 研究人員可能都沒想過這對環境的影響如此之大。”

      以自然語言處理為例,研究人員研究了該領域中性能取得最大進步的四種模型:Transformer、ELMo、BERT 和 GPT-2。研究人員在單個 GPU 上訓練了至少一天,以測量其功耗。然后,使用模型原始論文中列出的幾項指標來計算整個過程消耗的總能量。

      結果顯示,訓練的計算環境成本與模型大小成正比,然后在使用附加的調整步驟以提高模型的最終精度時呈爆炸式增長,尤其是調整神經網絡體系結構以盡可能完成詳盡的試驗,并優化模型的過程,相關成本非常高,幾乎沒有性能收益。BERT 模型的碳足跡約為 1400 磅二氧化碳,這與一個人來回坐飛機穿越美洲的排放量相當。
       


      此外,研究人員指出,這些數字僅僅是基礎,因為培訓單一模型所需要的工作還是比較少的,大部分研究人員實踐中會從頭開發新模型或者為現有模型更改數據集,這都需要更多時間培訓和調整,換言之,這會產生更高的能耗。根據測算,構建和測試最終具有價值的模型至少需要在六個月的時間內訓練 4,789 個模型,換算成碳排放量,超過 78,000 磅。

      隨著 AI 算力的提升,這一問題會更加嚴重。
       

      人工智能趨向私有化:成本高昂
       

      這些結果也凸顯了 AI 另一個日益嚴重的問題:產生結果所需的大量資源使學術界工作人員很難繼續研究。顯然,這種通過大量數據訓練龐大模型的趨勢對學者尤其是研究生來說并不可行,因為沒有資源,這讓學術界和工業界的研究人員之間出現公平訪問的問題。

      拋開環保和能耗本身,人工智能的訓練過程同樣成本高昂。以機器學習為例,數據、算法、算力成本同樣“觸目驚心”。

      數據成本

      與數據相關的機器學習成本主要表現在數據集方面,包括數據集的獲得、數據的標注等。Dimensional Research 代表 Alegion 所做的一項 最新研究 表明,所有組織中的 96%都遇到了與訓練數據質量和數量相關的問題。同一項研究表明,大多數項目需要超過 100,000 個數據樣本才能表現良好。



      Dimensional Research 研究的圖表說明了公司在數據方面面臨的最常見問題

       

      如果還沒有數據,可以假設能夠在大約一個小時內收集 5–10 個樣本并對它們進行標注。利用 亞馬遜的 Mechanical Turk 之類的服務來實驗整個過程,生成 100,000 個樣本數據集的話,花費大約為 70,000 美元。

      如果已經收集了大量數據,則可以使用 Scale 之類的服務來對其進行標注。在這種情況下,獲得 100,000 個帶有標簽的數據樣本,則可能需要花費 8,000 到 80,000 美元的費用,具體的需要取決于標注的復雜程度。

      此外,檢查和校正數據樣本與生成和注釋數據樣本一樣耗時。Dimensional Research 研究報告中提到,66%的公司在其數據集中遇到偏差和錯誤問題。有些公司選擇采用完整的內部方法(自己做所有標注),也有一些公司會選擇外包和內部混合使用。第二種常見的情況是將大部分工作外包,然后由個別人員負責驗證和清理。外包 10 萬個數據樣本的初始成本可能會增加大約 2500 至 5,000 美元。

      算法成本

      Dimensional Research 報告指出,大多數企業 AI 團隊的成員不足 10 名。假設每個技術團隊有 5 名成員,其中 3 個是外包。在這種配置下,團隊可能足以并行處理兩個項目,平均每 1.5 個月研究一個項目。基于此的成本是 2 名員工(2 x 5,000 美元),3 名自由職業者(3 x 3,000 美元),每月的總成本是 19,000 美元。如果團隊可以同時處理兩個項目,并且研究時間為 1.5 個月,則意味著該階段的成本約為每個項目 14,250 美元。

      算力成本

      與算力相關的機器學習成本主要表現在基礎架構、集成、維護以及各種處理器的功耗方面。

      生產成本包括基礎架構成本(云計算,數據存儲),集成成本(數據管道開發,API 開發,文檔)和維護成本。

      其中,云計算的支出取決于部署算法的復雜性。如果模型不是很深,并且是在低維表格數據上進行訓練,則將獲得 4 個虛擬 CPU 運行在 1 到 3 個節點上的服務,每月費用為 100 到 300 美元,即每年 1200 到 3600 美元。另一方面,對于無延遲的深度學習推理,價格從 10,000 美元到 30,000 美元不等。

      集成可能比較棘手。在大多數情況下,只需要將 API 端點放在云中并記錄下來,供系統的其余部分使用即可,準備要使用的機器學習模型并編寫 API 腳手架最多需要 20 到 30 個開發小時,其中包括測試,成本約為 1,500 美元,加上修改系統的其余部分以使用新 API 所需的成本。穩定的數據管道將花費更多的時間,大概需要 80 個小時左右。

      附加項:落地成本

      迄今為止,實施 AI 的最大成本是落地。太多人著迷于 ML 和 AI,并將其開發預算投入到追求該技術而不是解決實際問題上。我們正處于機器學習仍然是一項高度實驗性技術的階段,其成功率差異很大。Garter 預測,到 2022 年,將有 85%的 AI 項目交付錯誤的結果。


      玩不起系列:成本總和

      除去附加項成本和一系列功耗所帶來的成本,機器學習項目可能會使公司花費 51,750 美元至 136,750 美元(不包括難以確定的其他成本)。高差異是由數據的性質決定的。這是一個非常樂觀的估計。如果企業位于美國,并且使用的是明智的數據(自由職業者不會這樣做),則與人才相關的費用將激增,使 ML 項目的費用超過 108,500 美元。

      這樣高昂的價格使想要解決新問題或自動化其流程和決策的個人、小型團隊和初創企業無法使承擔。最艱難的步驟是第一步:獲取數據。沒有數據,幾乎不可能在研究階段驗證機器學習解決方案,從而導致幾乎死鎖。

      綜上,這些因素都可能會導致人工智能研究的私有化。對此,一位大數據和人工智能領域的技術專家在接受 InfoQ 采訪時表示,BERT 模型其實可以解決一部分數據問題,因為要達到同樣的效果,它需要的數據量相對較小,但算力確實是很難攻破的問題,這也就意味著 硬件成本很難下降。目前,一種可行的解決方式是通過租用云端 TPU 的方式來降低成本,但人工智能逐漸趨于私有化確是事實,未來學術界將在非強依賴算力的領域有更多創新,工業界由于尚可承擔算力提升帶來的各種成本,會在強依賴算力的領域有更多突破,這將實現學術界與工業界的合理分工。


       

      特別聲明:

      文章來源:AI前線(ai-front)

      作者: 張之棟、趙鈺瑩

      原文鏈接:https://mp.weixin.qq.com/s/xEUt46vZMEXOYiRqYmZodA

      RPA中國推薦閱讀,轉載此文是出于傳遞更多信息之目的。如有來源標注錯誤或侵權,請聯系更正或刪除,謝謝。

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 觸目驚心:AI到底消耗了多少能源和成本?

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 莱阳市| 盐山县| 土默特右旗| 错那县| 西充县| 扎兰屯市| 留坝县| 大安市| 庆安县| 嘉禾县| 静宁县| 尉犁县| 建湖县| 绥江县| 祁连县| 余庆县| 綦江县| 电白县| 府谷县| 喜德县| 休宁县| 长岭县| 囊谦县| 靖边县| 广水市| 北票市| 大渡口区| 抚顺县| 岳普湖县| 南召县| 台江县| 武清区| 淳安县| 赫章县| 玛曲县| 双城市| 抚远县| 雅江县| 顺义区| 陈巴尔虎旗| 当阳市|