999精品,丝袜综合,大陆老熟妇性,中国老女人AV,亚洲精品国产第一区二区三区

SuperCLUE 8月榜單發(fā)布 百川智能、MiniMax、百度拿下國產大模型前三甲
發(fā)布時間:2023-08-29 12:25:18 文章來源:北京商報網
當前位置: 主頁 > 資訊 > 國內 > 正文


(資料圖片)

北京商報訊(記者 楊月涵)8月28日,國內大模型榜單SuperCLUE發(fā)布8月最新排名,總排行榜顯示,在國產大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,緊隨其后的分別為MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。

據悉,8月榜單由5部分組成,包括總排行榜、OPEN多輪開放問題排行榜、OPT三大能力客觀題排行榜、十大基礎能力排行榜、開源排行榜。本次評測選取了目前國內外最具代表性的16個通用大語言模型,8月評測數據集為全新的3337道測試題。

SuperCLUE分享了在8月評測中的新發(fā)現:國內大模型在中文任務上的表現與GPT3.5仍有一定距離,但差距在持續(xù)縮??;開源模型競爭力進一步提升;模型在開放問題和客觀選擇題的表現有不一致的情況。

“我們認為,選擇題能力不能全面代表大模型的綜合能力,這也是SuperCLUE8月將OPEN開放問題和OPT選擇題合并為總排行榜的原因?!盨uperCLUE提到,OPEN開放問題,主要針對與用戶偏好接近的大模型生成、指令遵循能力;OPT選擇題,更多考察SuperCLUE 8月榜單發(fā)布 百川智能、MiniMax、百度拿下國產大模型前三甲

北京商報訊(記者 楊月涵)8月28日,國內大模型榜單SuperCLUE發(fā)布8月最新排名,總排行榜顯示,在國產大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,緊隨其后的分別為MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。

據悉,8月榜單由5部分組成,包括總排行榜、OPEN多輪開放問題排行榜、OPT三大能力客觀題排行榜、十大基礎能力排行榜、開源排行榜。本次評測選取了目前國內外最具代表性的16個通用大語言模型,8月評測數據集為全新的3337道測試題。

SuperCLUE分享了在8月評測中的新發(fā)現:國內大模型在中文任務上的表現與GPT3.5仍有一定距離,但差距在持續(xù)縮小;開源模型競爭力進一步提升;模型在開放問題和客觀選擇題的表現有不一致的情況。

“我們認為,選擇題能力不能全面代表大模型的綜合能力,這也是SuperCLUE8月將OPEN開放問題和OPT選擇題合并為總排行榜的原因?!盨uperCLUE提到,OPEN開放問題,主要針對與用戶偏好接近的大模型生成、指令遵循能力;OPT選擇題,更多考察模型的知識儲備。模型的知識儲備。

標簽:

最近更新