支持534種語言,開源大語言模型MaLA-500

      后臺-系統(tǒng)設置-擴展變量-手機廣告位-內容正文頂部

      無論是開源的LLaMA 2還是閉源的GPT系列模型,功能雖然很強大,但對語言的支持和擴展比較差,例如,二者都是以英語為主的大模型。

      為了提升大模型語言的多元化,慕尼黑大學、赫爾辛基大學等研究人員聯(lián)合開源了,目前支持語言最多的大模型之一MaLA-500。

      MaLA-500以LLaMA 2為基礎模型,再用多語言數(shù)據(jù)庫Glot500-c進行語言擴展訓練,支持語言達到了驚人的534種。

      開源地址:https://huggingface.co/MaLA-LM/mala-500

      論文地址:https://arxiv.org/abs/2401.13303


       

      訓練數(shù)據(jù)

      研究人員選用了開源數(shù)據(jù)集Glot500-c對MaLA-500進行了語言擴展訓練。該數(shù)據(jù)集包含了534種語言,涵蓋47種不同種族語言,數(shù)據(jù)量高達2萬億tokens。

      研究人員表示,選擇Glot500-c數(shù)據(jù)集的原因在于,可以大幅擴展現(xiàn)有語言模型的語言覆蓋范圍,并包含極其豐富的語言家族,這對于模型學習語言內在的語法和語義規(guī)律幫助巨大。

      此外,雖然一些高資源語言的比例相對較低,但Glot500-c的整體數(shù)據(jù)量對訓練大規(guī)模語言模型而言足夠用。在后續(xù)的預處理中,又對語料數(shù)據(jù)集進行了加權隨機采樣,以增加低資源語言在訓練數(shù)據(jù)中的比例,讓模型更加聚焦特定語言。

      基礎模型LLaMA 2

      MaLA-500選擇了目前最知名的開源大語言模型之一LLaMA 2-7B作為基礎模型,并進行了兩大技術點創(chuàng)新。

      1)增強詞匯表,研究人員通過Glot500-c數(shù)據(jù)集,訓練了一個多語言分詞器,將LLaMA 2的原英文詞匯表擴展到了260萬,大幅增強了模型對非英語和低資源語言的適配能力。


       

      2)模型增強,使用了LoRA技術在LLaMA 2的基礎上進行低秩適配。只訓練適配矩陣而凍結基礎模型權重,可以高效地實現(xiàn)模型在新語言上的持續(xù)學習能力,同時保留模型原有的知識。

      訓練流程

      訓練方面,研究人員用了24張N卡A100 GPU進行訓練,并使用了包括Transformers、PEFT和DeepSpeed三個主流深度學習框架。

      其中,DeepSpeed提供了分布式訓練的支持,可以實現(xiàn)模型并行;PEFT實現(xiàn)了高效的模型微調;Transformers提供了模型功能的實現(xiàn),例如,文本生成、提示詞理解等。

      為了提升訓練的高效性,MaLA-500還使用了各種顯存和計算優(yōu)化算法,如ZeRO冗余優(yōu)化器,可最大化利用GPU算力資源;以及混合精度訓練的bfloat16數(shù)格式加速訓練流程。

      此外,研究人員還對模型參數(shù)進行了大量優(yōu)化,使用了學習率為2e-4的常規(guī)SGD訓練,并使用了0.01的L2權重衰減以防止模型過大,出現(xiàn)過擬合、內容輸出不穩(wěn)定等情況。


       

      為了測試MaLA-500的性能,研究人員在SIB-200等數(shù)據(jù)集上進行了綜合實驗。

      結果顯示,相比原始LLaMA 2模型,MaLA-500在主題分類等評測任務上的準確率提高了12.16%,這說明MaLA-500的多語言優(yōu)于,現(xiàn)有的眾多開源大語言模型。

      本文素材來源MaLA-500論文,如有侵權請聯(lián)系刪除

      未經允許不得轉載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 支持534種語言,開源大語言模型MaLA-500

      后臺-系統(tǒng)設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 咸宁市| 全州县| 碌曲县| 赞皇县| 山西省| 元谋县| 巴彦淖尔市| 阳江市| 元江| 白河县| 黄石市| 隆化县| 新巴尔虎右旗| 永嘉县| 苗栗县| 淮安市| 梨树县| 定兴县| 北辰区| 孝义市| 新宾| 綦江县| 博兴县| 星座| 梁平县| 芜湖县| 天峨县| 绍兴县| 清河县| 保靖县| 深水埗区| 沙雅县| 西丰县| 高安市| 灵山县| 庄河市| 松阳县| 华容县| 四川省| 剑阁县| 高要市|