4月14日,記者從云從科技獲悉,通過(guò)針對(duì)語(yǔ)音技術(shù)難點(diǎn),創(chuàng)新提出的新模型,在語(yǔ)音識(shí)別、語(yǔ)義糾錯(cuò)、深度學(xué)習(xí)降噪等領(lǐng)域刷新多項(xiàng)國(guó)際、國(guó)內(nèi)語(yǔ)音識(shí)別權(quán)威紀(jì)錄,推動(dòng)技術(shù)朝更智能地“聽”邁進(jìn)了一大步。
據(jù)了解,近年來(lái)整個(gè)人工智能語(yǔ)音領(lǐng)域取得快速發(fā)展,但目前常見語(yǔ)音交互場(chǎng)景多是在安靜環(huán)境下的單人交互,在日常應(yīng)用仍有諸多問(wèn)題亟待突破:例如在多人場(chǎng)景的語(yǔ)音、噪聲混合中,如何追蹤并識(shí)別至少一個(gè)聲音、正常在嘈雜環(huán)境下正常交流,也就是“雞尾酒會(huì)問(wèn)題”,仍是研究者們致力解決的難題。針對(duì)這些技術(shù)難點(diǎn),云從在語(yǔ)音識(shí)別、語(yǔ)義糾錯(cuò)、深度學(xué)習(xí)降噪等多個(gè)方向上,創(chuàng)新性提出新模型,并在多個(gè)數(shù)據(jù)集上刷新最優(yōu)成績(jī)。
在語(yǔ)義糾錯(cuò)技術(shù)上,字錯(cuò)率降低代表使語(yǔ)音更準(zhǔn)確地轉(zhuǎn)換文字,糾正語(yǔ)義的錯(cuò)誤。針對(duì)常見的語(yǔ)法糾錯(cuò)、拼寫糾錯(cuò)與語(yǔ)音識(shí)別系統(tǒng)轉(zhuǎn)寫的錯(cuò)誤分布差異較大、傳統(tǒng)模型不適合直接使用等問(wèn)題,云從科技提出一種基于BART預(yù)訓(xùn)練模型的語(yǔ)義糾錯(cuò)技術(shù)方案,不僅可以對(duì)數(shù)據(jù)中常見的拼寫錯(cuò)誤進(jìn)行糾正,還可以對(duì)一些常識(shí)錯(cuò)誤、語(yǔ)法錯(cuò)誤,甚至一些需要推理的錯(cuò)誤進(jìn)行糾正。在權(quán)威中文語(yǔ)音識(shí)別數(shù)據(jù)集Aishell和清華大學(xué)語(yǔ)音Thchs30測(cè)試集上,云從科技將字錯(cuò)率(Character Error Rate,CER)第一遍WFST解碼以及第二遍RNN重打分結(jié)果分別相對(duì)降低21.7%和10.3%。
語(yǔ)義糾錯(cuò)技術(shù)的提升意味著讓AI更加“聽得懂”,而語(yǔ)音識(shí)別技術(shù)的提升意味著讓AI“聽得出”,即將每個(gè)人同“指紋”一樣獨(dú)有的“聲紋”識(shí)別出來(lái),指標(biāo)提升意味著更精準(zhǔn)識(shí)別出說(shuō)話者。
語(yǔ)音識(shí)別技術(shù)刷新Aishell紀(jì)錄,將字錯(cuò)率降低到4.34%,較過(guò)去最好成績(jī)降低了8%;云從團(tuán)隊(duì)提出的新模型,巧妙融合了語(yǔ)音識(shí)別和說(shuō)話人識(shí)別,提高識(shí)別率的同時(shí),極大提升了在不同說(shuō)話人場(chǎng)景下的魯棒性。
深度學(xué)習(xí)降噪模型針對(duì)在嘈雜環(huán)境去除噪聲,使語(yǔ)音更清晰。云從科研團(tuán)隊(duì)提出一種基于U-Net和注意力機(jī)制attention的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型CARN模型,在國(guó)際頂會(huì)Interspeech2020 DNS Challenge比賽數(shù)據(jù)集上取得了目前最好的結(jié)果。(記者 雍黎)
標(biāo)簽: 云從科技語(yǔ)音技術(shù)
熱門
關(guān)于我們| 廣告報(bào)價(jià)| 本站動(dòng)態(tài)| 聯(lián)系我們| 版權(quán)所有| 信息舉報(bào)|
聯(lián)系郵箱:905 144 107@qq.com
同花順經(jīng)濟(jì)網(wǎng) 豫ICP備20014643號(hào)-14
Copyright©2011-2020 09115.cn All Rights Reserved