Arena-Hard:開源高質量大模型評估基準

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      開發一個安全、準確的大模型評估基準通常需要包含三個重要內容:1)穩定識別模型的能力;2)反映真實世界使用情況中的人類偏好;3)經常更新以避免過擬合或測試集泄漏。

      但傳統的基準測試通常是靜態的或閉源的,同時大模型的技術發展和功能迭代比較,這凸顯了建立具有高可分離性評估基準的必要性。

      大模型研究組織Lmsys Org則開源了Arena-Hard。這是一個全新高質量大模型評估基準。

      開源地址:https://github.com/lm-sys/arena-hard


       

      Lmsys將新的基準測試平臺 Arena Hard v0.1 與當前領先的聊天 大模型基準測試 MT Bench 進行比較。

      結果顯示,Arena Hard v0.1 相對于 MT Bench 提供了明顯更強的可分離性,且置信區間更窄。它還與 Chatbot Arena(僅限英文)的人類偏好排名具有更高的一致性(89.1%)。


       

      Arena-hard-v0.1與廣泛采用的大模型基準相比顯示出最高的可分離性 (87.4%),并且也便宜且運行速度快(25 美元)。


       

      Arena-hard-v0.1構建了一個管道,可以從通過 Chatbot Arena 收集的 200,000 個用戶查詢的數據集中自動提取高質量提示。這包括多樣性,提示集應涵蓋廣泛的現實世界主題;提示質量,每個提示都應具有高質量來衡量大模型的水平。


       

      為了確保提示多樣性,Lmsys在BERTopic中采用主題建模管道,首先使用 OpenAI 的嵌入 (text-embedding-3-small) 轉換每個提示,使用 UMAP 降維,并使用基于層次的聚類算法 (HDBSCAN) 來識別聚類然后使用 GPT-4-turbo 進行總結。這有助于Lmsys識別涵蓋廣泛領域的 4000 多個主題。

      但主題集群在大模型基準測試中具有不同的質量和可分離性。Lmsys為大模型開發了一個經過校準的系統提示,幫助其根據七個關鍵標準例如,特異性、領域知識、問題解決能力等選擇高質量的用戶查詢。


       

      大模型Judge(GPT-3.5-Turbo、GPT-4-Turbo)對每個提示進行注釋,從 0 到 7,以指示滿足多少個標準。然后,Lmsys根據提示的平均得分對每個簇進行評分。

      下面,Lmsys展示了從低到高平均分數的主題集群示例。例如,游戲開發或數學證明。另一方面,得分較低的集群指向瑣碎或模糊的問題,例如“設計風格和影響”。


       

      為了了解提示分數是否與可分離性相關,Lmsys對每個分數采樣 50 個提示,并比較 GPT-4 和 Llama-70b 的響應,并以 GPT-4-Turbo 作為判斷。

      Lmsys表示高潛在得分與 GPT-4 對 Llama-70b 的勝率之間存在很強的相關性。在其他模型對中也觀察到類似的趨勢,例如Claude Sonnet 與 Haiku 以及Mistral-large 與 Mixtral。


       

      本文素材來源Lmsys Org官網,如有侵權請聯系刪除

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > Arena-Hard:開源高質量大模型評估基準

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 辛集市| 连云港市| 延安市| 新巴尔虎左旗| 城市| 义马市| 泾源县| 连山| 华宁县| 临夏县| 丽水市| 蒲江县| 江津市| 合山市| 遵义市| 阳朔县| 延津县| 临沭县| 翼城县| 格尔木市| 靖远县| 穆棱市| 苗栗县| 潼关县| 淮阳县| 东乌| 梁平县| 陈巴尔虎旗| 方正县| 柳州市| 南涧| 合川市| 东乡族自治县| 新安县| 台南市| 新建县| 信阳市| 灌阳县| 合山市| 梁平县| 赫章县|