(資料圖片)
北京商報訊(記者 楊月涵)8月28日,國內大模型榜單SuperCLUE發(fā)布8月最新排名,總排行榜顯示,在國產大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,緊隨其后的分別為MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。
據悉,8月榜單由5部分組成,包括總排行榜、OPEN多輪開放問題排行榜、OPT三大能力客觀題排行榜、十大基礎能力排行榜、開源排行榜。本次評測選取了目前國內外最具代表性的16個通用大語言模型,8月評測數據集為全新的3337道測試題。
SuperCLUE分享了在8月評測中的新發(fā)現:國內大模型在中文任務上的表現與GPT3.5仍有一定距離,但差距在持續(xù)縮??;開源模型競爭力進一步提升;模型在開放問題和客觀選擇題的表現有不一致的情況。
“我們認為,選擇題能力不能全面代表大模型的綜合能力,這也是SuperCLUE8月將OPEN開放問題和OPT選擇題合并為總排行榜的原因?!盨uperCLUE提到,OPEN開放問題,主要針對與用戶偏好接近的大模型生成、指令遵循能力;OPT選擇題,更多考察SuperCLUE 8月榜單發(fā)布 百川智能、MiniMax、百度拿下國產大模型前三甲
北京商報訊(記者 楊月涵)8月28日,國內大模型榜單SuperCLUE發(fā)布8月最新排名,總排行榜顯示,在國產大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,緊隨其后的分別為MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。
據悉,8月榜單由5部分組成,包括總排行榜、OPEN多輪開放問題排行榜、OPT三大能力客觀題排行榜、十大基礎能力排行榜、開源排行榜。本次評測選取了目前國內外最具代表性的16個通用大語言模型,8月評測數據集為全新的3337道測試題。
SuperCLUE分享了在8月評測中的新發(fā)現:國內大模型在中文任務上的表現與GPT3.5仍有一定距離,但差距在持續(xù)縮小;開源模型競爭力進一步提升;模型在開放問題和客觀選擇題的表現有不一致的情況。
“我們認為,選擇題能力不能全面代表大模型的綜合能力,這也是SuperCLUE8月將OPEN開放問題和OPT選擇題合并為總排行榜的原因?!盨uperCLUE提到,OPEN開放問題,主要針對與用戶偏好接近的大模型生成、指令遵循能力;OPT選擇題,更多考察模型的知識儲備。模型的知識儲備。
標簽:
熱門