6月27日凌晨,全球著名開源平臺huggingface(笑臉)的聯合創始人兼首席執行官Clem在社交平臺宣布,阿里最新開源的Qwen2-72B指令微調版本,成為開源模型排行榜第一名。
他表示,為了提供全新的開源大模型排行榜,使用了300塊H100對目前全球100多個主流開源大模型,例如,Qwen2、Llama-3、mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等基準測試集上進行了全新評估。
重新評估的原因是,目前開發者太注重排行榜的名次,在訓練過程中使用了很多評估集的數據,并且之前的評估流程對于那些模型來說太簡單了,所以,本次給這些模型加大了難度,想看看它們的真正實力。
結果顯示,阿里開源的Qwen-2 72B力壓科技、社交巨頭Meta的Llama-3、法國著名大模型平臺Mistralai的Mixtral成為新的王者,中國在全球開源大模型領域處于領導地位。
Qwen-2開源地址:https://huggingface.co/Qwen/Qwen2-72B-Instruct
根據排行榜的數據顯示,Meta開源的Llama-3-70B指令微調版本位列第2;阿里的Qwen2-72B基礎版本排名第3;Mistralai的Mixtral-8x22B指令微調版本排名第4;
微軟最新開源的小參數模型Phi-3-Medium-4K 14B排名第五,這說明小參數模型經過高質量數據集的預訓練,同樣能實現媲美大參數模型的能力。
中國零一萬物最新開源的Yi-1.5-34B-Chat版本排在了第六名;知名大模型平臺Cohere開源帶RAG功能的Command R+ 104B排名第7;
英偉達開源的Smaug-72B-v0.1曾經排名第一,但在新的排行榜只有第8名;第9和第10名,全部都是阿里之前開源的Qwen1.5基礎和Chat版本。
所以,全新排行榜的前10名競爭非常激烈,很多都是當過之前排行榜第一名的高手,相當于大模型界的“華山論劍”。
阿里開源的4款大模型傲視群雄,無愧于“中神通”的名號,這也充分說明中國對全球開源大模型的重要貢獻以及領導地位。
對于這個排名結果,StabilityAI的研究總監,19歲便獲得博士學位的Tanishq表示,他很早就說過中國在開源大模型領域非常有競爭力,除了Qwen2,還有零一萬物、InternLM、Deepsseek等很多知名的開源模型。
關于中國在開源大模型領域處于落后狀態簡直可笑,相反,他們卻處于領導者地位。
對于阿里Qwen-2取得如此高的成績,確實讓很多人感到驚訝,但事實結果就是這樣。
他們也把希望寄托在Meta身上了,趕緊發布點新模型和Qwen-2再來一次大PK。
其實,不只是huggingface,曾經就有人發布過ElyzaTasks100性能評測,Qwen2-72B的指令微調版本也是性能最高的開源大模型,僅次于OpenAI的GPT-4o,高于谷歌的Gemini1.5Pro。
其實在與OpenAI、Anthropic這兩家著名閉源大模型平臺進行PK時,Qwen2-72B指令微調版本也絲毫不落下風,也是中國唯一進入美國評估標準前10的國內公司。
希望阿里砥礪前行,更上一層樓。期待未來發布更多高性能的開源大模型,造福全人類。
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 阿里Qwen-2成全球開源大模型排行榜第一,中國處于領導地位。
熱門信息
閱讀 (15022)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (14161)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13130)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (13041)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11831)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國