【資料圖】
近日,由清華大學新聞與傳播學院教授、博士生導師沈陽團隊發(fā)布的《大語言模型綜合性能評估報告》顯示,GPT-4在總得分率上排名第一,而百度的文心一言在20項指標的綜合評分中位居國內首位,超越了ChatGPT,尤其在中文語義理解方面排名第一,部分中文能力甚至超越了GPT-4。該報告選取了GPT-4、ChatGPT 3.5、文心一言、通義千問、訊飛星火、Claude、天工等7個大語言模型,從生成質量、使用與性能、安全與合規(guī)三大維度進行全面考察,包括上下文理解、中文語義理解、誤導信息識別、邏輯推理、內容安全性、隱私保護等20項指標。綜合來看,文心一言在語義理解能力上表現(xiàn)突出,尤其在中文理解能力上具備優(yōu)勢,更懂中國文化,同時具有強大的時效性和對內容安全的細致把握,這得益于其在知識增強、檢索增強和對話增強等方面的技術創(chuàng)新。在生成質量方面,文心一言在語義理解、輸出表達、適應泛化的綜合評測中得分率為76.98%,僅次于GPT-4,領先于包括ChatGPT在內的其他大語言模型。在部分中文語義理解方面,文心一言以92%的得分率排名榜首。在安全合規(guī)方面,文心一言在內容安全性、偏見和公平性、隱私保護等方面的綜合評測中得分率為78.18%,與GPT-4并列排名第一。
標簽:
熱門