一種語音交互方法及裝置與流程

文檔序號：42227045發(fā)布日期：2025-06-20 19:15閱讀：19來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開涉及數(shù)據(jù)處理領(lǐng)域，尤其涉及一種語音交互方法及裝置。

背景技術(shù)：

1、當(dāng)前的車載語音發(fā)展到全車全時、多人的交互能力，即在車內(nèi)任何時間、任何位置(多音區(qū))都可以通過語音下發(fā)指令，還可以多人參與同一個對話，在全車全時、多人交互的情形下，包含意圖的語音指令數(shù)據(jù)需要下發(fā)到合適的執(zhí)行側(cè)完成指令的執(zhí)行，例如主駕說“導(dǎo)航去天安門”、副駕說“我要聽相聲”、后排說“我要看電影”，這些指令被識別后，需要找到對應(yīng)的業(yè)務(wù)執(zhí)行方去執(zhí)行。然而，相關(guān)技術(shù)中語音交互方法在接收到多個指令包括不同意圖后，只能同時處理單個包含意圖的語音指令，例如相關(guān)技術(shù)需要處理完主駕的“導(dǎo)航去天安門”指令之后，才能繼續(xù)處理副駕的“我要聽相聲”指令，若同時處理多條包含不同意圖的語音指令，將會混淆業(yè)務(wù)執(zhí)行方，無法將多條包含不同意圖的語音指令分發(fā)到合適的業(yè)務(wù)執(zhí)行方執(zhí)行。

技術(shù)實現(xiàn)思路

1、本公開提供了一種語音交互方法、裝置、電子設(shè)備、存儲介質(zhì)、程序產(chǎn)品。根據(jù)本公開的第一方面，提供了一種語音交互方法，該方法包括：獲取用戶輸入的語音指令，通過人工智能大模型對語音指令進(jìn)行識別，得到用戶意圖；將用戶意圖與多個服務(wù)的注冊意圖進(jìn)行匹配得到匹配結(jié)果，并根據(jù)匹配結(jié)果確定目標(biāo)服務(wù)，目標(biāo)服務(wù)用于執(zhí)行與用戶意圖對應(yīng)的至少一個指令；在預(yù)設(shè)條件下生成與用戶意圖對應(yīng)的場景標(biāo)識并進(jìn)行場景注冊，得到注冊場景，注冊場景包括：場景對應(yīng)的意圖類型，場景標(biāo)識，以及場景標(biāo)識和目標(biāo)服務(wù)的對應(yīng)關(guān)系；預(yù)設(shè)條件包括用戶意圖為預(yù)設(shè)類型的意圖特征數(shù)據(jù)，預(yù)設(shè)類型包括對話交互、獲取數(shù)據(jù)信息中的至少一種；響應(yīng)于接收到新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)，基于新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)與注冊場景進(jìn)行匹配，若匹配到對應(yīng)的目標(biāo)注冊場景，則根據(jù)目標(biāo)注冊場景的場景標(biāo)識將新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)分發(fā)給目標(biāo)注冊場景對應(yīng)的目標(biāo)服務(wù)執(zhí)行。

2、在一些實施例中，獲取用戶輸入的語音指令，通過人工智能大模型對語音指令進(jìn)行識別，得到用戶意圖之后，方法還包括：響應(yīng)于對單句的語音指令進(jìn)行識別得到多個用戶意圖，輸出第一提示信息，第一提示信息用于引導(dǎo)用戶從多個用戶意圖中選擇至少一個用戶意圖；獲取用戶輸入的選擇信息，根據(jù)選擇信息從多個用戶意圖中確定語音指令的單個用戶意圖。

3、在一些實施例中，將用戶意圖與多個服務(wù)的注冊意圖進(jìn)行匹配得到匹配結(jié)果之前，方法還包括：根據(jù)多個服務(wù)的功能和業(yè)務(wù)場景，獲得服務(wù)對應(yīng)的意圖；分別為多個服務(wù)注冊至少一個意圖，得到多個服務(wù)的注冊意圖。

4、在一些實施例中，將用戶意圖與多個服務(wù)的注冊意圖進(jìn)行匹配得到匹配結(jié)果，并根據(jù)匹配結(jié)果確定目標(biāo)服務(wù)，包括：將多個執(zhí)行服務(wù)的注冊意圖與用戶意圖進(jìn)行匹配；響應(yīng)于多個服務(wù)中存在兩個及兩個以上服務(wù)的注冊意圖與用戶意圖相匹配，輸出第二提示信息，第二提示信息用于引導(dǎo)用戶從兩個或兩個以上服務(wù)中選擇至少一個；獲取用戶輸入的答復(fù)信息，根據(jù)答復(fù)信息的答復(fù)意圖確定對應(yīng)的服務(wù)，并將該服務(wù)確定為目標(biāo)服務(wù)。

5、在一些實施例中，注冊場景還包括場景參數(shù)信息，在預(yù)設(shè)條件下生成與用戶意圖對應(yīng)的場景標(biāo)識并進(jìn)行場景注冊，得到注冊場景包括：在預(yù)設(shè)條件下，獲取意圖類型，生成與用戶意圖對應(yīng)的場景標(biāo)識；建立場景標(biāo)識和目標(biāo)服務(wù)的對應(yīng)關(guān)系；通過目標(biāo)服務(wù)根據(jù)用戶意圖確定場景參數(shù)信息，場景參數(shù)信息包括：場景對應(yīng)的顯示設(shè)備信息、需要接收生成式人工智能數(shù)據(jù)的標(biāo)識、參與人白名單、注冊時間中的一個或多個。

6、在一些實施例中，響應(yīng)于接收到新的預(yù)設(shè)類型為對話交互的意圖特征數(shù)據(jù)，基于新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)與注冊場景進(jìn)行匹配包括：獲取用戶輸入的新的語音指令，通過人工智能大模型對新的語音指令進(jìn)行識別，得到新的預(yù)設(shè)類型為對話交互的意圖特征數(shù)據(jù)；將新的預(yù)設(shè)類型為對話交互的意圖特征數(shù)據(jù)與多個注冊場景對應(yīng)的意圖類型進(jìn)行匹配獲取意圖匹配結(jié)果；根據(jù)意圖匹配結(jié)果，從多個注冊場景中確定目標(biāo)注冊場景。

7、在一些實施例中，根據(jù)意圖匹配結(jié)果，從多個注冊場景中確定目標(biāo)注冊場景包括：若新的預(yù)設(shè)類型為對話交互的意圖特征數(shù)據(jù)與多個注冊場景中兩個及兩個以上注冊場景對應(yīng)的意圖類型相匹配，獲取新的用戶意圖的參數(shù)信息；將新的預(yù)設(shè)類型為對話交互的意圖特征數(shù)據(jù)的參數(shù)信息與兩個及兩個以上注冊場景的場景參數(shù)信息進(jìn)行匹配，獲取參數(shù)信息匹配結(jié)果；根據(jù)參數(shù)信息匹配結(jié)果，從兩個及兩個以上注冊場景中確定目標(biāo)場景。

8、在一些實施例中，數(shù)據(jù)信息包括生成式人工智能數(shù)據(jù)，響應(yīng)于接收到新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)，基于新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)與注冊場景進(jìn)行匹配包括：響應(yīng)于用戶意圖為預(yù)設(shè)類型的意圖特征數(shù)據(jù)且預(yù)設(shè)類型為獲取數(shù)據(jù)信息，通過人工智能大模型對用戶意圖和用戶意圖對應(yīng)的場景標(biāo)識進(jìn)行處理，得到生成式人工智能數(shù)據(jù)，其中，生成式人工智能數(shù)據(jù)與用戶意圖對應(yīng)的場景標(biāo)識綁定；將用戶意圖對應(yīng)的場景標(biāo)識與多個注冊場景的場景標(biāo)識進(jìn)行匹配，獲取標(biāo)識匹配結(jié)果；根據(jù)標(biāo)識匹配結(jié)果，從多個注冊場景中確定目標(biāo)注冊場景。

9、在一些實施例中，該方法還包括：根據(jù)注冊場景的場景參數(shù)信息確定注冊場景對應(yīng)的顯示設(shè)備；在預(yù)設(shè)的注銷情形下，注銷注冊場景，其中，預(yù)設(shè)的注銷情形包括持續(xù)預(yù)設(shè)的時間未接收到與注冊場景相匹配的新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)、用戶關(guān)閉了與注冊場景對應(yīng)的顯示設(shè)備中的至少一種。

10、根據(jù)本公開的第二方面，提供了一種語音交互裝置，該裝置包括：識別單元，用于獲取用戶輸入的語音指令，通過人工智能大模型對語音指令進(jìn)行識別，得到用戶意圖；匹配單元，用于將用戶意圖與多個服務(wù)的注冊意圖進(jìn)行匹配得到匹配結(jié)果，并根據(jù)匹配結(jié)果確定目標(biāo)服務(wù)，目標(biāo)服務(wù)用于執(zhí)行與用戶意圖對應(yīng)的至少一個指令；注冊單元，用于在預(yù)設(shè)條件下生成與用戶意圖對應(yīng)的場景標(biāo)識并進(jìn)行場景注冊，得到注冊場景，注冊場景包括：場景對應(yīng)的意圖類型，場景標(biāo)識，以及場景標(biāo)識和目標(biāo)服務(wù)的對應(yīng)關(guān)系；預(yù)設(shè)條件包括用戶意圖為預(yù)設(shè)類型的意圖特征數(shù)據(jù)，預(yù)設(shè)類型包括對話交互、獲取數(shù)據(jù)信息中的至少一種；分發(fā)單元，用于響應(yīng)于接收到新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)，基于新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)與注冊場景進(jìn)行匹配，若匹配到對應(yīng)的目標(biāo)注冊場景，則根據(jù)目標(biāo)注冊場景的場景標(biāo)識將新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)分發(fā)給目標(biāo)注冊場景對應(yīng)的目標(biāo)服務(wù)執(zhí)行。

11、根據(jù)本公開的第三方面，提供了一種電子設(shè)備，包括：至少一個處理器；以及與至少一個處理器語音交互連接的存儲器；其中，存儲器存儲有可被至少一個處理器執(zhí)行的指令，指令被至少一個處理器執(zhí)行，以使至少一個處理器能夠執(zhí)行前述第一方面的方法。

12、根據(jù)本公開的第四方面，提供了一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì)，其中，計算機(jī)指令用于使計算機(jī)執(zhí)行前述第一方面的方法。

13、根據(jù)本公開的第五方面，提供了一種計算機(jī)程序產(chǎn)品，包括計算機(jī)程序，計算機(jī)程序在被處理器執(zhí)行時實現(xiàn)如前述第一方面的方法。

14、本公開的實施例所提供的語音交互方法，包括獲取用戶輸入的語音指令，通過人工智能大模型對語音指令進(jìn)行識別，得到用戶意圖；將用戶意圖與多個服務(wù)的注冊意圖進(jìn)行匹配得到匹配結(jié)果，并根據(jù)匹配結(jié)果確定目標(biāo)服務(wù)，目標(biāo)服務(wù)用于執(zhí)行與用戶意圖對應(yīng)的至少一個指令；在預(yù)設(shè)條件下生成與用戶意圖對應(yīng)的場景標(biāo)識并進(jìn)行場景注冊，得到注冊場景，注冊場景包括：場景對應(yīng)的意圖類型，場景標(biāo)識，以及場景標(biāo)識和目標(biāo)服務(wù)的對應(yīng)關(guān)系；預(yù)設(shè)條件包括用戶意圖為預(yù)設(shè)類型的意圖特征數(shù)據(jù)，預(yù)設(shè)類型包括對話交互、獲取數(shù)據(jù)信息中的至少一種；響應(yīng)于接收到新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)，基于新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)與注冊場景進(jìn)行匹配，若匹配到對應(yīng)的目標(biāo)注冊場景，則根據(jù)目標(biāo)注冊場景的場景標(biāo)識將新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)分發(fā)給目標(biāo)注冊場景對應(yīng)的目標(biāo)服務(wù)執(zhí)行，本公開的方法實現(xiàn)將人工智能大模型引入全車全時的車載語音交互中，基于場景注冊將用戶意圖以及生成式內(nèi)容分發(fā)到合適的執(zhí)行方，在滿足全車全時交互下語音意圖分發(fā)同時，解決了大模型的生成式內(nèi)容的分發(fā)問題。

15、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識本技術(shù)的實施例的關(guān)鍵或重要特征，也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過以下的說明書而變得容易理解。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮高峰,勾曉菲
技術(shù)所有人：北京羅克維爾斯科技有限公司
我是此專利的發(fā)明人

上一篇：異質(zhì)結(jié)電池及其制備方法與流程
下一篇：行車路徑規(guī)劃方法、裝置及車輛與流程

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

殴美成人在线视频,亚州中文字幕,日韩精品视频大全,99久久亚洲精品,aa国产视频一区二区,天天爱夜夜,日韩夜精品精品免费观看

一種語音交互方法及裝置與流程