語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別技術(shù),可以將一個(gè)人的聲音轉(zhuǎn)化為另一個(gè)人的聲音,將其變成另一個(gè)人。而智能語(yǔ)音平臺(tái)作為聲音處理的硬件平臺(tái),是智能語(yǔ)音技術(shù)落地應(yīng)用的重要載體。目前常見的智能聲學(xué)模型需要開發(fā)者進(jìn)行專業(yè)訓(xùn)練,后生成對(duì)應(yīng)的音頻流產(chǎn)品或音頻數(shù)據(jù);對(duì)于非聲學(xué)模型來(lái)說(shuō),需要對(duì)開發(fā)者提供的原始音頻進(jìn)行專業(yè)處理,生成相應(yīng)音效庫(kù)。而這些都無(wú)法直接應(yīng)用于智能語(yǔ)音平臺(tái)之上;我們需要一個(gè)質(zhì)檢系統(tǒng)來(lái)幫助開發(fā)者們監(jiān)督及反饋訓(xùn)練質(zhì)量。
我們推薦使用第三方服務(wù)進(jìn)行質(zhì)檢。對(duì)于第三方服務(wù),我們提供了兩種質(zhì)檢方式;一種是直接從錄音文件中提取質(zhì)檢數(shù)據(jù)進(jìn)行處理,一種是從平臺(tái)上傳語(yǔ)音文件到第三方服務(wù)進(jìn)行識(shí)別分析。
1、數(shù)據(jù)采集
采集的音頻文件包括了從設(shè)備端到服務(wù)端的所有音視頻數(shù)據(jù)。
包括:
A、本地設(shè)備錄制的音頻文件;
B、云服務(wù)器保存的音頻文件;
2、質(zhì)檢分析
質(zhì)檢分析結(jié)果可在質(zhì)檢系統(tǒng)中直接查看,并支持導(dǎo)出數(shù)據(jù)。
通過(guò)對(duì)聲音進(jìn)行識(shí)別后,系統(tǒng)會(huì)根據(jù)用戶上傳的聲音文件,結(jié)合文本檢測(cè)技術(shù),對(duì)錄音文件的內(nèi)容進(jìn)行檢測(cè);然后結(jié)合文本檢測(cè)技術(shù)與文本識(shí)別技術(shù)形成音頻檢測(cè)報(bào)告。
該部分報(bào)告將詳細(xì)介紹音頻文件中各聲學(xué)部分的內(nèi)容及缺陷、語(yǔ)音部分的信息等內(nèi)容。
同時(shí)可對(duì)該音頻文件進(jìn)行評(píng)分,并在后臺(tái)統(tǒng)計(jì)得出對(duì)應(yīng)評(píng)分結(jié)果及其占比,從而提供相應(yīng)的反饋及建議。
另外還可以提供針對(duì)某一特定領(lǐng)域產(chǎn)品訓(xùn)練時(shí)用到的特征詞、特征詞組、特定領(lǐng)域等關(guān)鍵詞進(jìn)行相關(guān)統(tǒng)計(jì)分析和可視化輸出,方便開發(fā)者更好地理解模型訓(xùn)練結(jié)果及提高訓(xùn)練效果。
3、結(jié)果輸出
輸出結(jié)果包含三種:
標(biāo)準(zhǔn)輸出:可供開發(fā)者進(jìn)行訓(xùn)練時(shí)使用,例如測(cè)試數(shù)據(jù)或檢測(cè)結(jié)果等;
標(biāo)準(zhǔn)輸出:供產(chǎn)品提供方進(jìn)行分析時(shí)使用,例如根據(jù)聲音參數(shù)、聲壓級(jí)等進(jìn)行相關(guān)參數(shù)的優(yōu)化等。
4、平臺(tái)管理
管理服務(wù):
包括對(duì)系統(tǒng)的維護(hù),修改及刪除等;
包括對(duì)設(shè)備的監(jiān)控和故障診斷的功能;
支持對(duì)系統(tǒng)中的所有功能進(jìn)行監(jiān)控。
管理方式:平臺(tái)端管理方式,可使用管理工具或軟件等進(jìn)行添加、刪除及修改服務(wù)列表;
5、其他功能
支持離線使用,可遠(yuǎn)程調(diào)用離線語(yǔ)音識(shí)別功能;
(文章轉(zhuǎn)載于天潤(rùn)融通)