阿里國際發(fā)布最新版多模態(tài)大模型Ovis,拿下開源第一

      后臺-系統(tǒng)設置-擴展變量-手機廣告位-內容正文頂部

      看一眼菜品圖就知道怎么做、能給植物看病、能把手寫英文準確翻譯成中文、還能精準分析財報數(shù)據(jù)……多模態(tài)能力再次升級!阿里國際AI團隊發(fā)布了一款多模態(tài)大模型Ovis,在圖像理解任務上不斷突破極限,多種具體的子類任務中均達到了SOTA(最新技術)水平。

      多模態(tài)大模型能夠處理和理解多種不同類型的數(shù)據(jù)輸入,例如文本、圖像。與大型語言模型(LLMs)相比,大語言模型在處理和生成文本數(shù)據(jù)方面有專長,而多模態(tài)大模型能夠處理非文本數(shù)據(jù),如圖像等等。

      根據(jù)多模態(tài)權威綜合評測平臺OpenCompass的數(shù)據(jù),Ovis1.6-Gemma2-9B在30B參數(shù)以下的模型中取得了綜合排名第一,趕超MiniCPM-V-2.6等行業(yè)優(yōu)秀大模型


       

      Ovis在OpenCompass上的測評數(shù)據(jù)情況

      據(jù)介紹,Ovis能夠在數(shù)學推理問答、物體識別、文本提取和復雜任務決策等方面展現(xiàn)出色表現(xiàn)。例如,Ovis可以準確回答數(shù)學問題,識別花的品種,支持多種語言的文本提取,甚至可以識別手寫字體和復雜的數(shù)學公式。


       

      案例1:Ovis對手寫文案的識別及翻譯能力


       

      案例2:Ovis對復雜數(shù)學公式的處理能力


       

      案例3:Ovis通過對圖片的識別處理能夠給出菜譜

      具體來說,Ovis模型有五大優(yōu)點:

      1、創(chuàng)新架構設計:可學習的視覺嵌入詞表:首次引入,將連續(xù)的視覺特征轉換為概率化的視覺token,再經由視覺嵌入詞表加權生成結構化的視覺嵌入,克服了大部分MLLM中MLP連接器架構的局限性,大幅提升多模態(tài)任務表現(xiàn)。

      2、高分圖像處理:動態(tài)子圖方案:支持處理極端長寬比的圖像,兼容高分辨率圖像,展現(xiàn)出色的圖像理解能力。

      3、全面數(shù)據(jù)優(yōu)化:多方向數(shù)據(jù)集覆蓋:全面覆蓋Caption、VQA、OCR、Table、Chart等各個多模態(tài)數(shù)據(jù)方向,顯著提升多模態(tài)問答、指令跟隨等任務表現(xiàn)。

      4、卓越模型性能:Ovis展現(xiàn)出了優(yōu)異的榜單表現(xiàn)。在多模態(tài)權威綜合評測Opencompass上,Ovis1.6-Gemma2-9B在30B參數(shù)以下的模型中取得了綜合排名第一,超過了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在數(shù)學問答等方向表現(xiàn)媲美70B參數(shù)模型;在幻覺等任務中,Ovis-1.6的幻覺現(xiàn)象和錯誤率顯著低于同級別的模型,展現(xiàn)了更高的生成文本質量和準確性。

      5、全部開源可商用:Ovis系列模型License采用 Apache 2.0。Ovis 1.0、1.5的數(shù)據(jù)、模型、訓練和推理代碼都已全部開源,可復現(xiàn)。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已開源權重。

      在AI領域,多模態(tài)大模型的應用場景非常廣泛,包括但不限于自動駕駛、醫(yī)療診斷、視頻內容理解、圖像描述生成、視覺問答等。

      例如,在自動駕駛領域,多模態(tài)大模型可以整合來自攝像頭、雷達和激光雷達的數(shù)據(jù),以實現(xiàn)更精準的環(huán)境感知和決策。由于多模態(tài)大模型能夠學習如何聯(lián)合理解和生成跨多種模式的信息,也被視為朝向通用人工智能的下一個步驟。

      根據(jù)此前媒體報道,阿里國際在去年成立了一支AI團隊,目前已經在40多個電商場景里測試了AI能力,覆蓋跨境電商全鏈路,包括商品圖文、營銷、搜索、廣告投放、SEO、客服、退款、店鋪裝修等,其中多個應用場景均基于Ovis模型進行開發(fā),已幫助50萬中小商家、對1億款商品進行了信息優(yōu)化。

      據(jù)介紹,商家的AI需求不斷增長,近半年的數(shù)據(jù)顯示,平均每兩個月,商家對于AI的調用量就翻1倍

      附相關鏈接:

      論文arXiv: https://arxiv.org/abs/2405.20797

      Github:https://github.com/AIDC-AI/Ovis

      Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

      Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

      未經允許不得轉載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 阿里國際發(fā)布最新版多模態(tài)大模型Ovis,拿下開源第一

      后臺-系統(tǒng)設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 汝城县| 江口县| 苏尼特左旗| 尼勒克县| 赞皇县| 钦州市| 建宁县| 胶南市| 丰宁| 伽师县| 分宜县| 海伦市| 湖口县| 塔河县| 舟山市| 广宗县| 浑源县| 清河县| 天水市| 曲靖市| 潮州市| 芜湖市| 临城县| 红河县| 德兴市| 长白| 长岛县| 温宿县| 登封市| 广灵县| 宜章县| 繁峙县| 柘荣县| 米林县| 靖江市| 分宜县| 莱阳市| 贺州市| 喜德县| 赤峰市| 海林市|