(資料圖片)
北京商報訊(記者 楊月涵)8月28日,國內(nèi)大模型榜單SuperCLUE發(fā)布8月最新排名,總排行榜顯示,在國產(chǎn)大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,緊隨其后的分別為MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。
據(jù)悉,8月榜單由5部分組成,包括總排行榜、OPEN多輪開放問題排行榜、OPT三大能力客觀題排行榜、十大基礎(chǔ)能力排行榜、開源排行榜。本次評測選取了目前國內(nèi)外最具代表性的16個通用大語言模型,8月評測數(shù)據(jù)集為全新的3337道測試題。
SuperCLUE分享了在8月評測中的新發(fā)現(xiàn):國內(nèi)大模型在中文任務(wù)上的表現(xiàn)與GPT3.5仍有一定距離,但差距在持續(xù)縮??;開源模型競爭力進(jìn)一步提升;模型在開放問題和客觀選擇題的表現(xiàn)有不一致的情況。
“我們認(rèn)為,選擇題能力不能全面代表大模型的綜合能力,這也是SuperCLUE8月將OPEN開放問題和OPT選擇題合并為總排行榜的原因?!盨uperCLUE提到,OPEN開放問題,主要針對與用戶偏好接近的大模型生成、指令遵循能力;OPT選擇題,更多考察SuperCLUE 8月榜單發(fā)布 百川智能、MiniMax、百度拿下國產(chǎn)大模型前三甲
北京商報訊(記者 楊月涵)8月28日,國內(nèi)大模型榜單SuperCLUE發(fā)布8月最新排名,總排行榜顯示,在國產(chǎn)大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,緊隨其后的分別為MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。
據(jù)悉,8月榜單由5部分組成,包括總排行榜、OPEN多輪開放問題排行榜、OPT三大能力客觀題排行榜、十大基礎(chǔ)能力排行榜、開源排行榜。本次評測選取了目前國內(nèi)外最具代表性的16個通用大語言模型,8月評測數(shù)據(jù)集為全新的3337道測試題。
SuperCLUE分享了在8月評測中的新發(fā)現(xiàn):國內(nèi)大模型在中文任務(wù)上的表現(xiàn)與GPT3.5仍有一定距離,但差距在持續(xù)縮?。婚_源模型競爭力進(jìn)一步提升;模型在開放問題和客觀選擇題的表現(xiàn)有不一致的情況。
“我們認(rèn)為,選擇題能力不能全面代表大模型的綜合能力,這也是SuperCLUE8月將OPEN開放問題和OPT選擇題合并為總排行榜的原因?!盨uperCLUE提到,OPEN開放問題,主要針對與用戶偏好接近的大模型生成、指令遵循能力;OPT選擇題,更多考察模型的知識儲備。模型的知識儲備。
標(biāo)簽:
熱門