中國科學院、北大、中國科技大學、滑鐵盧大學、01.ai等10家機構聯合推出了,專用于中文的高質量指令調優數據集——COIG-CQIA。
在大模型領域英語一直是訓練數據最重要的語言,但由于中英文的結構和文化差異,直接將英文數據集翻譯成中文并不理想。所以,為了填補高質量中文數據集的空白,研究人員開發出了COIG-CQIA數據集。
COIG-CQIA幾乎抓取了中文互聯網的論壇、網站、百度貼吧、問答社區等高質量數據集。用COIG-CQIA對Yi-6B、Yi-34B進行指令調優,再用GPT4在BELLE-EVAL上評估在各種數據集上訓練的大模型性能。
有趣的一幕出現了,“弱智貼吧”的數據質量,居然大幅度超過知乎、豆瓣、是否等知名知識社區,還真是大智若愚啊~
數據集地址:https://huggingface.co/datasets/m-a-p/COIG-CQIA
論文地址:https://arxiv.org/abs/2403.18058
為了驗證“弱智貼吧”的數據質量,「AIGC開放社區」特意去實地考察了一下,果然名不虛傳有將近300萬的“病友”,找幾個典型問答給大家鑒賞一下。
- 變形金剛買保險,是買車險還是人險?
- 雷公電母放的是,直流電還是交流電?
- 禿頭的人洗頭,用洗頭膏還是洗面奶?
- 如果豬腎虛,那它的腰子還補嗎?
- 吃止痛藥去打架,算開掛嗎?
- 鞋子買好了,怎么才能在冰箱里溜冰?
用這樣的數據去微調中文大模型,那還不得穩超GPT-4立刻覺醒成為“病友”啊~
COIG-CQIA數據集介紹
研究人員從中文互聯網精心挑選了涵蓋通識百科、STEM、人文領域的22個高質量數據源,包括問答社區、百科網站、內容創作平臺、考試題庫等種類。
社交媒體、論壇數據方面,研究人員從知乎、小紅書、豆瓣、是否等熱門中文社區精心甄選了高質量問答和長文本內容。
針對不同社區的特點,分別采取了篩選高贊回答、評分過濾、人工審核等方式,確保所保留的數據貼合真實場景。
通識百科方面,從百科、維基解答等知名中文百科網站收集了廣泛的概念解釋和指導性文章,內容涉及自然科學、人文社科等多個領域。再通過解析HTML并設計多種提示模板,將原始數據得以轉化為高質量的指令-輸出對。
專業知識部分則從金融、電子、醫學、農業等專業垂直網站采集了結構化數據,然后按照人工設計的提示模板構造出專業性指令-輸出對。
此外,國內中學生、研究生的歷年入學考試真題也被COIG-CQIA納入在數據集中,可顯著提升模型的邏輯推理和知識綜合能力。
在完成數據收集和分類整理后,研究人員對每一類數據進行深度清洗、重構和人工審查,以確保數據質量、多樣性和對真實人機交互的貼合度。
包括格式規范、答案審查、無關內容刪除等。最終,精心構建了一個包含48,375條指令-輸出對的高質量中文指令微調數據集。
為了測試數據集性能,用COIG-CQIA對Yi系列、Qwen-72B等國內知名模型進行了微調,結果顯示,COIG-CQIA比現有開源中文數據集對大模型的幫助更好。
什么是指令微調
指令微調是一種在大模型上進行微調的方法,通過提供指令和輸出來指導模型更準確地完成內容輸出。
指令微調通過構建專業的指令格式的實例,通常包含任務描述、輸入和輸出等,然后以有監督的方式對大型語言模型進行精細化微調。
簡單來說,指令微調像是一種“媽媽教孩子”的方法,按照特定格式幫助大模型更好地學習、輸出擬人化內容。
需要注意的是,指令微調和數據預訓練是兩回事。預訓練是大模型在大規模無監督數據上進行的基礎數據訓練,其目的只是讓大模型學習通用知識,不會針對任何特定領域進行數據微調。
所以,高質量的指令微調數據集對于大模型的擬人化輸出、內容的精準性非常重要。
本文素材來源COIG-CQIA論文,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > “弱智貼吧”的數據,居然是最強中文語料庫
熱門信息
閱讀 (14732)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13754)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13056)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11568)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國