本發(fā)明涉及一種智能語音交互,更具體的說是涉及一種基于嵌入式開發(fā)板的實(shí)時語音處理方法。
背景技術(shù):
1、在當(dāng)今智能化快速發(fā)展的時代,各類智能終端設(shè)備對實(shí)時、精準(zhǔn)且多樣化的語音交互需求愈發(fā)迫切。然而,傳統(tǒng)語音生成方案往往受限于硬件性能、算法復(fù)雜度或缺乏對復(fù)雜場景的適應(yīng)性,難以滿足諸如小型智能家居設(shè)備、便攜智能穿戴等資源受限場景下的即時、個性化語音需求。
2、如現(xiàn)有技術(shù)中有專利號為202310656368.2,名稱為復(fù)雜人機(jī)交互場景下的多模態(tài)融合的用戶意圖識別方法的發(fā)明專利公開了通過多模態(tài)融合的方式來實(shí)現(xiàn)對于復(fù)雜人機(jī)交互的用戶意圖識別,然而該方式的識別過程中需要較強(qiáng)的硬件支持,因此便會存在受限于硬件性能、算法復(fù)雜度或缺乏對復(fù)雜場景的適應(yīng)性,難以滿足諸如小型智能家居設(shè)備、便攜智能穿戴等資源受限場景下的即時、個性化語音需求。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種能夠充分挖掘esp32開發(fā)板自帶音頻輸入輸出設(shè)備、攝像頭等硬件資源潛力,結(jié)合創(chuàng)新性的語音算法架構(gòu),打破常規(guī)限制,實(shí)現(xiàn)低功耗、高適應(yīng)性、可靈活定制的實(shí)時語音生成功能,為用戶帶來更加流暢、智能的語音交互體驗(yàn)。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:一種基于嵌入式開發(fā)板的實(shí)時語音處理方法,其特征在于:包括如下步驟:
3、步驟一,基于嵌入式開發(fā)板搭建語音交互系統(tǒng),用于存儲音頻片段和實(shí)時捕捉聲音信號;
4、步驟二,對實(shí)時捕捉的聲音信號進(jìn)行解析,同時采集從外部輸入源獲取的文本信息后解析,之后進(jìn)行篩選動態(tài)樣本,然后基于注意力機(jī)制的進(jìn)行音頻融合生成,完成語音處理,最后進(jìn)行模型優(yōu)化與自適應(yīng)調(diào)整。
5、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟一中基于嵌入式開發(fā)板搭建語音交互系統(tǒng)的具體步驟如下:
6、步驟一一,以esp32開發(fā)板為核心搭建語音交互系統(tǒng),其內(nèi)置音頻輸入模塊實(shí)時捕捉聲音信號,經(jīng)預(yù)處理轉(zhuǎn)化為數(shù)字音頻流astream;攝像頭同步采集視覺圖像幀iframe,通過圖像識別模型mimg提取場景特征向量用于后續(xù)語音場景適配;
7、步驟一二,構(gòu)建本地微型音頻樣本庫laudio,存儲不同類型、風(fēng)格的音頻片段,每個樣本關(guān)聯(lián)多維元數(shù)據(jù),包括音色標(biāo)簽tlobel、情感傾向etag、語義場景適配度cscore,方便快速檢索調(diào)用。
8、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟二中對實(shí)時捕捉的聲音信號進(jìn)行解析,同時采集從外部輸入源獲取的文本信息后解析的具體方式為:從外部輸入源獲取文本信息tinput,通過自然語言處理模塊nlpmodule進(jìn)行分詞、詞性標(biāo)注、語義理解,生成結(jié)構(gòu)化文本表示同時,結(jié)合音頻輸入流astream分析當(dāng)前環(huán)境噪聲水平nlevel,利用攝像頭圖像幀判斷場景活躍度aactivity,上述環(huán)境因素作為后續(xù)語音生成的調(diào)節(jié)參數(shù)。
9、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟二中進(jìn)行篩選動態(tài)樣本的具體方式為:首先依據(jù)結(jié)構(gòu)化文本和環(huán)境因素,生成初始樣本篩選條件,然后在語音交互過程中,持續(xù)監(jiān)測生成語音的用戶反饋指標(biāo)ffeedback,根據(jù)反饋動態(tài)調(diào)整樣本篩選權(quán)重,若發(fā)現(xiàn)某類樣本導(dǎo)致較多負(fù)面反饋,降低其后續(xù)篩選優(yōu)先級,實(shí)現(xiàn)自適應(yīng)優(yōu)化,最后通過優(yōu)化完成的篩選條件篩選動態(tài)樣本。
10、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟二中生產(chǎn)初始樣本篩選條件的具體方式為:設(shè)文本中關(guān)鍵語義特征向量為計算樣本庫中各音頻樣本與的語義關(guān)聯(lián)度rsemantic(i),采用基于詞向量余弦相似度結(jié)合語義權(quán)重分配的方法
11、其中,wj為關(guān)鍵詞j的語義權(quán)重,為樣本i對應(yīng)關(guān)鍵詞j的語義特征向量。結(jié)合樣本的音色、情感標(biāo)簽與當(dāng)前環(huán)境適配度,綜合排序篩選出候選音頻樣本集csamples。
12、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟二中基于注意力機(jī)制的進(jìn)行音頻融合生成的具體步驟如下:
13、步驟二一,引入多頭注意力機(jī)制mmultihead對候選音頻樣本集csamples進(jìn)行處理;
14、步驟二二,對加權(quán)后的樣本特征進(jìn)行融合,生成融合特征向量并輸入至輕量級生成對抗網(wǎng)絡(luò)canlite中的生成器gnet,結(jié)合文本信息生成最終的語音信號voutput,表示為:
15、
16、步驟二三,生成對抗網(wǎng)絡(luò)的判別器dnet用于判別生成語音的真實(shí)性,通過對抗訓(xùn)練不斷提升生成語音的質(zhì)量,使其接近自然語音。
17、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟二一中引入多頭注意力機(jī)制mmultihead對候選音頻樣本集csamples進(jìn)行處理的具體步驟為:將每個樣本的特征向量作為輸入,通過注意力層計算各樣本在當(dāng)前語音生成任務(wù)中的注意力權(quán)重watt(i),使得模型能夠聚焦于與文本及場景最匹配的音頻特征
18、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟二中進(jìn)行模型優(yōu)化與自適應(yīng)調(diào)整的具體方式為:定期收集少量新的語音樣本及對應(yīng)的交互反饋數(shù)據(jù),利用在線學(xué)習(xí)算法olearn微調(diào)模型參數(shù),如在反向傳播更新生成器gnet參數(shù)θg時,使用小批量隨機(jī)梯度下降變體算法
19、
20、其中,η為學(xué)習(xí)率,lossgan為生成對抗損失,lossadapt為自適應(yīng)調(diào)整損失,λ為平衡系數(shù)。
21、本發(fā)明的有益效果,采用本實(shí)施例的語音處理方法,充分挖掘esp32開發(fā)板自帶音頻輸入輸出設(shè)備、攝像頭等硬件資源潛力,結(jié)合創(chuàng)新性的語音算法架構(gòu),打破常規(guī)限制,實(shí)現(xiàn)低功耗、高適應(yīng)性、可靈活定制的實(shí)時語音生成功能,為用戶帶來更加流暢、智能的語音交互體驗(yàn),為針對esp32開發(fā)板資源特性優(yōu)化算法:充分考慮esp32芯片的存儲容量、計算能力,設(shè)計輕量化且高效的語音處理流程,減少不必要的數(shù)據(jù)冗余與復(fù)雜運(yùn)算,確保在嵌入式環(huán)境下穩(wěn)定運(yùn)行,同時多模態(tài)融合感知增強(qiáng)語音生成:創(chuàng)新性地融合音頻輸入與攝像頭視覺信息,利用視覺場景輔助理解用戶意圖、環(huán)境氛圍,動態(tài)調(diào)整語音生成策略,使語音輸出更貼合實(shí)際情境,最后自適應(yīng)動態(tài)樣本匹配算法:摒棄傳統(tǒng)靜態(tài)音頻樣本檢索方式,根據(jù)實(shí)時語音交互反饋,動態(tài)更新樣本選取權(quán)重,優(yōu)化合成音頻樣本選取,提升語音生成的準(zhǔn)確性與靈活性。
1.一種基于嵌入式開發(fā)板的實(shí)時語音處理方法,其特征在于:包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于嵌入式開發(fā)板的實(shí)時語音處理方法,其特征在于:所述步驟一中基于嵌入式開發(fā)板搭建語音交互系統(tǒng)的具體步驟如下:
3.根據(jù)權(quán)利要求2所述的基于嵌入式開發(fā)板的實(shí)時語音處理方法,其特征在于:所述步驟二中對實(shí)時捕捉的聲音信號進(jìn)行解析,同時采集從外部輸入源獲取的文本信息后解析的具體方式為:從外部輸入源獲取文本信息tinput,通過自然語言處理模塊nlpmodule進(jìn)行分詞、詞性標(biāo)注、語義理解,生成結(jié)構(gòu)化文本表示同時,結(jié)合音頻輸入流astream分析當(dāng)前環(huán)境噪聲水平nlevel,利用攝像頭圖像幀判斷場景活躍度aactivity,上述環(huán)境因素作為后續(xù)語音生成的調(diào)節(jié)參數(shù)。
4.根據(jù)權(quán)利要求2或3所述的基于嵌入式開發(fā)板的實(shí)時語音處理方法,其特征在于:所述步驟二中進(jìn)行篩選動態(tài)樣本的具體方式為:首先依據(jù)結(jié)構(gòu)化文本和環(huán)境因素,生成初始樣本篩選條件,然后在語音交互過程中,持續(xù)監(jiān)測生成語音的用戶反饋指標(biāo)ffeedback,根據(jù)反饋動態(tài)調(diào)整樣本篩選權(quán)重,若發(fā)現(xiàn)某類樣本導(dǎo)致較多負(fù)面反饋,降低其后續(xù)篩選優(yōu)先級,實(shí)現(xiàn)自適應(yīng)優(yōu)化,最后通過優(yōu)化完成的篩選條件篩選動態(tài)樣本。
5.根據(jù)權(quán)利要求4所述的基于嵌入式開發(fā)板的實(shí)時語音處理方法,其特征在于:所述步驟二中生產(chǎn)初始樣本篩選條件的具體方式為:設(shè)文本中關(guān)鍵語義特征向量為計算樣本庫中各音頻樣本與的語義關(guān)聯(lián)度rsemantic(i),采用基于詞向量余弦相似度結(jié)合語義權(quán)重分配的方法
6.根據(jù)權(quán)利要求1或2或3所述的基于嵌入式開發(fā)板的實(shí)時語音處理方法,其特征在于:所述步驟二中基于注意力機(jī)制的進(jìn)行音頻融合生成的具體步驟如下:
7.根據(jù)權(quán)利要求6所述的基于嵌入式開發(fā)板的實(shí)時語音處理方法,其特征在于:所述步驟二一中引入多頭注意力機(jī)制mmultihead對候選音頻樣本集csamples進(jìn)行處理的具體步驟為:將每個樣本的特征向量作為輸入,通過注意力層計算各樣本在當(dāng)前語音生成任務(wù)中的注意力權(quán)重watt(i),使得模型能夠聚焦于與文本及場景最匹配的音頻特征
8.根據(jù)權(quán)利要求1或2或3所述的基于嵌入式開發(fā)板的實(shí)時語音處理方法,其特征在于:所述步驟二中進(jìn)行模型優(yōu)化與自適應(yīng)調(diào)整的具體方式為:定期收集少量新的語音樣本及對應(yīng)的交互反饋數(shù)據(jù),利用在線學(xué)習(xí)算法olearn微調(diào)模型參數(shù),如在反向傳播更新生成器gnet參數(shù)θg時,使用小批量隨機(jī)梯度下降變體算法