999精品,丝袜综合,大陆老熟妇性,中国老女人AV,亚洲精品国产第一区二区三区

熱議:谷歌研究團(tuán)隊(duì)宣布 AudioPaLM:一個(gè)能說能聽的大型語言模型
發(fā)布時(shí)間:2023-06-25 12:00:06 文章來源:站長之家
當(dāng)前位置: 主頁 > 資訊 > 專題 > 正文


(相關(guān)資料圖)

編程客棧() 6月25日消息:大型語言模型(LLMs)近幾個(gè)月一直備受關(guān)注。作為人工智能領(lǐng)域最重要python的進(jìn)展之一,這些模型正在改變?nèi)藱C(jī)交互的方式。隨著各行各業(yè)紛紛采用這些模型,它們成為人工智能在全球蔓延的最佳例證。

LLMs 在處理復(fù)雜交互和知識檢索任務(wù)時(shí)表現(xiàn)出色,其中最著名的例子是由 OpenAI 開發(fā)的 ChatGPT聊天機(jī)器人,它基于 GPT 3.5 和 GPT 4 的 Transformer 架構(gòu)。除了文本生成外,還開發(fā)了像 CLIP(對比性語言圖像預(yù)訓(xùn)練)這樣的模型,用于圖像生編程客棧成,使得可以根據(jù)圖像的內(nèi)容生成文本。

為了在音頻生成和理解方面取得進(jìn)展,Google 的研究團(tuán)隊(duì)推出了 AudioPaLM,這是一個(gè)大型語言模型,可以處理語音理解和生成任務(wù)。AudioPaLM 結(jié)合了兩個(gè)現(xiàn)有模型的優(yōu)勢,即 PaLM-2 模型和 AudioLM 模型,以產(chǎn)生一個(gè)統(tǒng)一的多模態(tài)架構(gòu),能夠處javascript理和生成文本和語音。這使得 AudioPaLM 可以處理各種應(yīng)用,從語音識別到語音轉(zhuǎn)文字。

雖然 AudioLM 在保持諸如說話者身份和語氣信息方面表現(xiàn)出色,而以文本為基礎(chǔ)的語言模型 PaLM-2 則專注于特定于文本的語言知識。通過結(jié)合這兩個(gè)模型,AudioPaLM 利用了 PaLM-2 的語言專業(yè)知識和 AudioLM 的附加語言信息保存能力,從而更全面地理解和生成文本和語音。

AudioPaLM 使用一個(gè)聯(lián)合詞匯表,可以使用有限數(shù)量的離散標(biāo)記表示語音和文本。將這個(gè)聯(lián)合詞匯表與標(biāo)記化的任務(wù)描述相結(jié)合,可以在各種聲音和基于文本的任務(wù)上訓(xùn)練單個(gè)解碼器模型。傳統(tǒng)上需要單獨(dú)模型來處理的語音識別、文本轉(zhuǎn)語音合成和語音到語音翻譯等任務(wù)現(xiàn)在可以統(tǒng)一到一個(gè)架構(gòu)和訓(xùn)練過程中。

經(jīng)過評估,AudioPaLM 在語音翻譯方面的表現(xiàn)明顯優(yōu)于現(xiàn)有系統(tǒng)。它展示了對語言組合執(zhí)行零樣本語音到文本翻譯的能力,也就是說,它可以準(zhǔn)確地將從未遇到過的語言的語音翻譯成文本,為更廣泛的語言支持開辟了可能性。

AudioPaLM 還可以基于簡短的口語提示在語言之間進(jìn)行聲音轉(zhuǎn)換,并能捕捉并重現(xiàn)不同語言中的獨(dú)特聲音,實(shí)現(xiàn)語音轉(zhuǎn)換和適應(yīng)。

團(tuán)隊(duì)提到的 AudioPaLM 主要貢獻(xiàn)包括:

總而言之,AudioPaLM 是一個(gè)統(tǒng)一的大型語言模型,通過利用基于文本的語言模型的能力和整合音頻提示技術(shù),可以同時(shí)處理語音和文本,成為 LLM 列表中強(qiáng)有力的補(bǔ)充。

AudioPaLM Hugging Face 頁面:https://huggingface.co/papers/2306.12925

標(biāo)簽:

最近更新