超越GPT-4!谷歌發布最強多模態大模型—Gemini

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      12月7日凌晨,谷歌在官網發布了全新最強多模態大模型——Gemini。

      據悉,Gemini有Ultra、Pro、Nano三個版本,可自動生成文本、代碼、總結內容等,并能理解圖片、音頻和視頻內容。在MMLU、DROP 、HellaSwag、GSM8K等主流評測中,Gemini Ultra的能力全面超越了OpenAI的GPT-4和GPT-4 V

      值得一提的是Gemini Ultra在MMLU中的得分為90%,這也是第一個在MMLU上超越人類專家的大模型。

      目前,谷歌已經公布了Gemini的論文,從12月13日起提供Gemini Pro的API。Ultra版本還在安全、功能優化中,很快會開放使用

      用戶可以在谷歌的類ChatGPT產品Bard中體驗Gemini Pro版本模型,支持中文。

      Bard地址:https://bard.google.com/chat

      論文地址:https://goo.gle/GeminiPaper

      Gemini Pro的API地址:https://cloud.google.com/vertex-ai


       

      Gemini簡單介紹

      Gemini一共有三個版本,Ultra是功能最強版,可用于超復雜的推理、理解,但AI算力消耗也非常大;

      Pro的參數只有Ultra的一半,性能卻很好適用于大規模應用部署;Nano是輕量級模型,適用于移動設備和個人、小規模部署。

      技術架構方面,Gemini模型的基礎架構建立在Transformer編碼器結構之上,采用了多層自注意力和前饋神經網絡來建模序列依賴性。不同的是Gemini采用了多查詢注意力機制,這也是處理復雜長文本的關鍵所以

      傳統的Transformer結構采用單查詢注意力機制,即查詢-鍵值對的拼接對于每個位置都是獨一無二的。但是對于很長的序列,這將帶來很大計算成本。


       

      Gemini采用了多查詢注意力機制,其基本思路是對序列的每個位置,不再使用唯一的查詢向量,而是使用一組查詢向量

      具體來說,模型首先將輸入序列的每個位置編碼成多組查詢向量。然后,將這些查詢向量并行地與鍵值對進行批量注意力運算,得到多個注意力結果。

      此外,Gemini模型還使用了類似WordPiece的SentencePiece算法對輸入序列進行字粒級別分詞,可以支持多種語言同時節約算力資源。

      在訓練數據方面,Gemini使用來自網絡文本、圖書和代碼的大量數據進行預訓練。在數據采樣前開發人員進行了嚴格的數據篩選,除去了暴力、虛假、歧視等有害內容。

      Gemini的各種能力

      理解文本、圖片、音頻

      Gemini模型經過海量數據訓練,可以很好識別和理解文本、圖像、音頻等內容,并可以回答復雜主題相關的問題。所以,非常擅長解釋數學和物理等復雜學科的推理任務。

      生成代碼

      Gemini可以生成和理解Python、Java、C++和Go等主流代碼。Gemini Ultra在多個編碼基準測試中表現出色,包括HumanEval,這是評估編碼任務性能的重要行業標準。

      谷歌還基于Gemini模型開發了專業的代碼模型AlphaCode 2。與前一代相比,AlphaCode 2的性能提升了至少50%以上。

      復雜推理

      Gemini的多模態功能,使其能在視覺理解、文本生成等方面有非常強的功能。例如,從數十萬字的小說中整理出重要觀點;

      從200頁的金融報告中找出最有價值的內容。這對于金融、科技、醫療的科研和業務人員來說幫助巨大。

      支持Bard

      目前,谷歌的Bard已經集成了Gemini Pro模型,「AIGC開放社區」體驗了一下,其圖片理解和文本生成能力比之前強很多,尤其是代碼生成和審查能力很出色。


       

      Gemini全面超越GPT-4

      谷歌在MMLU、DROP 、HellaSwag、GSM8K等主流評測中,將Gemini與OpenAI的GPT-4和GPT-4 V進行深度評測。


       

      測試數據顯示,Gemini Ultra的性能超過了大型語言模型研究和開發中廣泛使用的32個學術基準中的30個,也是第一個在MMLU上超過人類專家的大模型。


       

      此外,Gemini Nano型模型在移動設備上展現卓越的自然語言處理能力。尤其是在針對性任務微調后,在閱讀理解和摘要生成等任務上勝過其他同規模模型。

      谷歌首席執行官Sundar Pichai表示,Gemini是我們迄今為止最強大和最通用的模型,在許多領先的基準測試中表現非常出色。

      第一個版本的Gemini針對不同尺寸進行了優化,這適用于不同的人群和行業。Ultra、Pro和Nano是Gemini的第一批模型,也是我們成立Google DeepMind的愿景的第一次實現。非常興奮,未來我們會持續發布更多強大的模型。


       

      本文素材來源谷歌官網、Gemini論文,如有侵權請聯系刪除

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 超越GPT-4!谷歌發布最強多模態大模型—Gemini

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 惠来县| 临沧市| 大渡口区| 林芝县| 泊头市| 陇南市| 抚州市| 灵川县| 从江县| 吉首市| 团风县| 华阴市| 西平县| 洮南市| 盱眙县| 金昌市| 章丘市| 牡丹江市| 葵青区| 河东区| 南岸区| 阿巴嘎旗| 青河县| 巢湖市| 普安县| 栾城县| 阳春市| 武邑县| 贵港市| 财经| 都昌县| 达州市| 米泉市| 汾阳市| 郓城县| 四会市| 琼海市| 民县| 东平县| 大安市| 印江|