語(yǔ)音交互方法、裝置、車(chē)輛、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

文檔序號(hào)：42298391發(fā)布日期：2025-06-27 18:38閱讀：16來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開(kāi)涉及人工智能，尤其涉及語(yǔ)音交互方法、裝置、車(chē)輛、存儲(chǔ)介質(zhì)及程序產(chǎn)品。

背景技術(shù)：

1、在智能汽車(chē)中，車(chē)內(nèi)語(yǔ)音交互系統(tǒng)已經(jīng)得到了較為廣泛的應(yīng)用，其可以為駕乘人員提供諸多便利。但是，當(dāng)用戶處于車(chē)外時(shí)，可能難以通過(guò)語(yǔ)音系統(tǒng)來(lái)與車(chē)輛進(jìn)行交互。

技術(shù)實(shí)現(xiàn)思路

1、為克服相關(guān)技術(shù)中存在的問(wèn)題，本公開(kāi)提供一種語(yǔ)音交互方法、裝置、車(chē)輛、存儲(chǔ)介質(zhì)及程序產(chǎn)品。

2、根據(jù)本公開(kāi)實(shí)施例的第一方面，提供一種語(yǔ)音交互方法，包括：

3、響應(yīng)于用戶語(yǔ)音喚醒車(chē)輛，追蹤所述用戶的位置；

4、獲取與所述位置對(duì)應(yīng)的語(yǔ)音采集裝置采集到的音頻信號(hào)，得到第一音頻信號(hào)；

5、根據(jù)所述用戶的聲紋和所述第一音頻信號(hào)與所述用戶進(jìn)行語(yǔ)音交互。

6、可選地，所述根據(jù)所述用戶的聲紋和所述第一音頻信號(hào)與所述用戶進(jìn)行語(yǔ)音交互，包括：

7、對(duì)所述第一音頻信號(hào)進(jìn)行語(yǔ)音分離，得到主信號(hào)和參考信號(hào)；

8、將所述主信號(hào)和所述參考信號(hào)中，聲紋與所述用戶的聲紋匹配度較高的一者作為第二音頻信號(hào)；

9、通過(guò)所述第二音頻信號(hào)，與所述用戶進(jìn)行語(yǔ)音交互。

10、可選地，所述通過(guò)所述第二音頻信號(hào)，與所述用戶進(jìn)行語(yǔ)音交互，包括：

11、將所述第二音頻信號(hào)傳輸至處理裝置；

12、獲取所述處理裝置對(duì)所述第二音頻信號(hào)的語(yǔ)音識(shí)別結(jié)果；

13、根據(jù)所述語(yǔ)音識(shí)別結(jié)果執(zhí)行語(yǔ)音交互的響應(yīng)動(dòng)作。

14、可選地，包括：

15、響應(yīng)于用戶語(yǔ)音喚醒車(chē)輛，根據(jù)用戶語(yǔ)音提取所述用戶的聲紋；或者，

16、獲取所述用戶預(yù)先錄入的聲紋。

17、可選地，所述車(chē)輛包括多個(gè)采集裝置，所述方法包括：

18、確定距離所述位置最近的第一采集裝置，所述語(yǔ)音采集裝置包括所述第一采集裝置。

19、可選地，包括：

20、獲取所述車(chē)輛的采集裝置采集到的第二音頻信號(hào)；

21、對(duì)所述第二音頻信號(hào)進(jìn)行以下至少一種處理，得到對(duì)應(yīng)于所述采集裝置的第三音頻信號(hào)：回聲消除；降噪；去混響；盲源分離；

22、響應(yīng)于所述第三音頻信號(hào)與預(yù)設(shè)喚醒詞信號(hào)的聲學(xué)相似度大于閾值，喚醒所述車(chē)輛。

23、可選地，所述車(chē)輛包括多個(gè)采集裝置，所述方法包括：

24、對(duì)各個(gè)采集裝置的第三音頻信號(hào)，確定所述第三音頻信號(hào)與預(yù)設(shè)喚醒詞信號(hào)的聲學(xué)相似度，以及所述第三音頻信號(hào)中的喚醒詞信號(hào)的聲音能量；

25、根據(jù)所述聲學(xué)相似度和聲音能量，從所述多個(gè)采集裝置中確定第二采集裝置；

26、在所述第二采集裝置的音頻采集范圍中，識(shí)別所述用戶。

27、根據(jù)本公開(kāi)實(shí)施例的第二方面，提供一種語(yǔ)音交互裝置，包括：

28、第一模塊，被配置為響應(yīng)于用戶語(yǔ)音喚醒車(chē)輛，追蹤所述用戶的位置；

29、第二模塊，被配置為獲取與所述位置對(duì)應(yīng)的語(yǔ)音采集裝置采集到的音頻信號(hào)，得到第一音頻信號(hào)；

30、第三模塊，被配置為根據(jù)所述用戶的聲紋和所述第一音頻信號(hào)與所述用戶進(jìn)行語(yǔ)音交互。

31、可選地，所述第三模塊，被配置為：

32、對(duì)所述第一音頻信號(hào)進(jìn)行語(yǔ)音分離，得到主信號(hào)和參考信號(hào)；

33、將所述主信號(hào)和所述參考信號(hào)中，聲紋與所述用戶的聲紋匹配度較高的一者作為第二音頻信號(hào)；

34、通過(guò)所述第二音頻信號(hào)，與所述用戶進(jìn)行語(yǔ)音交互。

35、可選地，所述第三模塊，被配置為：

36、將所述第二音頻信號(hào)傳輸至處理裝置；

37、獲取所述處理裝置對(duì)所述第二音頻信號(hào)的語(yǔ)音識(shí)別結(jié)果；

38、根據(jù)所述語(yǔ)音識(shí)別結(jié)果執(zhí)行語(yǔ)音交互的響應(yīng)動(dòng)作。

39、可選地，包括：

40、第四模塊，被配置為響應(yīng)于用戶語(yǔ)音喚醒車(chē)輛，根據(jù)用戶語(yǔ)音提取所述用戶的聲紋；或者，獲取所述用戶預(yù)先錄入的聲紋。

41、可選地，所述車(chē)輛包括多個(gè)采集裝置，所述裝置包括：

42、第五模塊，被配置為確定距離所述位置最近的第一采集裝置，所述語(yǔ)音采集裝置包括所述第一采集裝置。

43、可選地，包括：

44、第六模塊，被配置為獲取所述車(chē)輛的采集裝置采集到的第二音頻信號(hào)；

45、第七模塊，被配置為對(duì)所述第二音頻信號(hào)進(jìn)行以下至少一種處理，得到對(duì)應(yīng)于所述采集裝置的第三音頻信號(hào)：回聲消除；降噪；去混響；盲源分離；

46、第八模塊，被配置為響應(yīng)于所述第三音頻信號(hào)與預(yù)設(shè)喚醒詞信號(hào)的聲學(xué)相似度大于閾值，喚醒所述車(chē)輛。

47、可選地，所述車(chē)輛包括多個(gè)采集裝置，所述裝置包括：

48、第九模塊，被配置為對(duì)各個(gè)采集裝置的第三音頻信號(hào)，確定所述第三音頻信號(hào)與預(yù)設(shè)喚醒詞信號(hào)的聲學(xué)相似度，以及所述第三音頻信號(hào)中的喚醒詞信號(hào)的聲音能量；

49、第十模塊，被配置為根據(jù)所述聲學(xué)相似度和聲音能量，從所述多個(gè)采集裝置中確定第二采集裝置；

50、第十一模塊，被配置為在所述第二采集裝置的音頻采集范圍中，識(shí)別所述用戶。

51、根據(jù)本公開(kāi)實(shí)施例的第三方面，提供一種車(chē)輛，包括：

52、處理器；

53、用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器；

54、其中，所述處理器被配置為執(zhí)行第一方面中任一項(xiàng)所述方法的步驟。

55、根據(jù)本公開(kāi)實(shí)施例的第四方面，提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面中任一項(xiàng)所述方法的步驟。

56、根據(jù)本公開(kāi)實(shí)施例的第五方面，提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面中任一項(xiàng)所述的方法的步驟。

57、上述方案中，可以響應(yīng)于用戶語(yǔ)音喚醒車(chē)輛，追蹤所述用戶的位置。并獲取與所述位置對(duì)應(yīng)的語(yǔ)音采集裝置采集到的第一音頻信號(hào)。這樣，可以根據(jù)所述用戶的聲紋和所述第一音頻信號(hào)與所述用戶進(jìn)行語(yǔ)音交互。

58、如此，在用戶語(yǔ)音喚醒車(chē)輛后，可以通過(guò)追蹤用戶的位置，從而選擇對(duì)應(yīng)的語(yǔ)音采集裝置來(lái)采集音頻信號(hào)。這樣，可以更為準(zhǔn)確地采集用戶的語(yǔ)音指令。此外，可以通過(guò)用戶的聲紋和所述第一音頻信號(hào)與所述用戶進(jìn)行語(yǔ)音交互。通過(guò)結(jié)合聲紋信息，有助于在語(yǔ)音交互中識(shí)別用戶，進(jìn)而有助于提升語(yǔ)音交互的準(zhǔn)確度。

59、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本公開(kāi)。

技術(shù)特征：

1.一種語(yǔ)音交互方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述用戶的聲紋和所述第一音頻信號(hào)與所述用戶進(jìn)行語(yǔ)音交互，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過(guò)所述第二音頻信號(hào)，與所述用戶進(jìn)行語(yǔ)音交互，包括：

4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法，其特征在于，包括：

5.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法，其特征在于，所述車(chē)輛包括多個(gè)采集裝置，所述方法包括：

6.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法，其特征在于，包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述車(chē)輛包括多個(gè)采集裝置，所述方法包括：

8.一種語(yǔ)音交互裝置，其特征在于，包括：

9.一種車(chē)輛，其特征在于，包括：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。

11.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，包括計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。

技術(shù)總結(jié)
本公開(kāi)涉及一種語(yǔ)音交互方法、裝置、車(chē)輛、存儲(chǔ)介質(zhì)及程序產(chǎn)品，屬于人工智能技術(shù)領(lǐng)域，所述方法包括：響應(yīng)于用戶語(yǔ)音喚醒車(chē)輛，追蹤所述用戶的位置；獲取與所述位置對(duì)應(yīng)的語(yǔ)音采集裝置采集到的音頻信號(hào)，得到第一音頻信號(hào)；根據(jù)所述用戶的聲紋和所述第一音頻信號(hào)與所述用戶進(jìn)行語(yǔ)音交互。如此，在用戶語(yǔ)音喚醒車(chē)輛后，可以通過(guò)追蹤用戶的位置，從而選擇對(duì)應(yīng)的語(yǔ)音采集裝置來(lái)采集音頻信號(hào)。這樣，可以更為準(zhǔn)確地采集用戶的語(yǔ)音指令。此外，可以通過(guò)用戶的聲紋和所述第一音頻信號(hào)與所述用戶進(jìn)行語(yǔ)音交互。通過(guò)結(jié)合聲紋信息，有助于在語(yǔ)音交互中識(shí)別用戶，進(jìn)而有助于提升語(yǔ)音交互的準(zhǔn)確度。

技術(shù)研發(fā)人員：吳俊楠,范利春,高鵬,王鵬,于博侖,于海龍,羅振波
受保護(hù)的技術(shù)使用者：小米汽車(chē)科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/26

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳俊楠,范利春,高鵬,王鵬,于博侖,于海龍,羅振波
技術(shù)所有人：小米汽車(chē)科技有限公司
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

殴美成人在线视频,亚州中文字幕,日韩精品视频大全,99久久亚洲精品,aa国产视频一区二区,天天爱夜夜,日韩夜精品精品免费观看

語(yǔ)音交互方法、裝置、車(chē)輛、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

語(yǔ)音交互方法、裝置、車(chē)輛、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程