開發一個安全、準確的大模型評估基準通常需要包含三個重要內容:1)穩定識別模型的能力;2)反映真實世界使用情況中的人類偏好;3)經常更新以避免過擬合或測試集泄漏。
但傳統的基準測試通常是靜態的或閉源的,同時大模型的技術發展和功能迭代比較,這凸顯了建立具有高可分離性評估基準的必要性。
大模型研究組織Lmsys Org則開源了Arena-Hard。這是一個全新高質量大模型評估基準。
開源地址:https://github.com/lm-sys/arena-hard
Lmsys將新的基準測試平臺 Arena Hard v0.1 與當前領先的聊天 大模型基準測試 MT Bench 進行比較。
結果顯示,Arena Hard v0.1 相對于 MT Bench 提供了明顯更強的可分離性,且置信區間更窄。它還與 Chatbot Arena(僅限英文)的人類偏好排名具有更高的一致性(89.1%)。
Arena-hard-v0.1與廣泛采用的大模型基準相比顯示出最高的可分離性 (87.4%),并且也便宜且運行速度快(25 美元)。
Arena-hard-v0.1構建了一個管道,可以從通過 Chatbot Arena 收集的 200,000 個用戶查詢的數據集中自動提取高質量提示。這包括多樣性,提示集應涵蓋廣泛的現實世界主題;提示質量,每個提示都應具有高質量來衡量大模型的水平。
為了確保提示多樣性,Lmsys在BERTopic中采用主題建模管道,首先使用 OpenAI 的嵌入 (text-embedding-3-small) 轉換每個提示,使用 UMAP 降維,并使用基于層次的聚類算法 (HDBSCAN) 來識別聚類然后使用 GPT-4-turbo 進行總結。這有助于Lmsys識別涵蓋廣泛領域的 4000 多個主題。
但主題集群在大模型基準測試中具有不同的質量和可分離性。Lmsys為大模型開發了一個經過校準的系統提示,幫助其根據七個關鍵標準例如,特異性、領域知識、問題解決能力等選擇高質量的用戶查詢。
大模型Judge(GPT-3.5-Turbo、GPT-4-Turbo)對每個提示進行注釋,從 0 到 7,以指示滿足多少個標準。然后,Lmsys根據提示的平均得分對每個簇進行評分。
下面,Lmsys展示了從低到高平均分數的主題集群示例。例如,游戲開發或數學證明。另一方面,得分較低的集群指向瑣碎或模糊的問題,例如“設計風格和影響”。
為了了解提示分數是否與可分離性相關,Lmsys對每個分數采樣 50 個提示,并比較 GPT-4 和 Llama-70b 的響應,并以 GPT-4-Turbo 作為判斷。
Lmsys表示高潛在得分與 GPT-4 對 Llama-70b 的勝率之間存在很強的相關性。在其他模型對中也觀察到類似的趨勢,例如Claude Sonnet 與 Haiku 以及Mistral-large 與 Mixtral。
本文素材來源Lmsys Org官網,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > Arena-Hard:開源高質量大模型評估基準
熱門信息
閱讀 (14785)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13774)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13067)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12992)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11597)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國