本公開涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種語音交互方法及裝置。
背景技術(shù):
1、當(dāng)前的車載語音發(fā)展到全車全時、多人的交互能力,即在車內(nèi)任何時間、任何位置(多音區(qū))都可以通過語音下發(fā)指令,還可以多人參與同一個對話,在全車全時、多人交互的情形下,包含意圖的語音指令數(shù)據(jù)需要下發(fā)到合適的執(zhí)行側(cè)完成指令的執(zhí)行,例如主駕說“導(dǎo)航去天安門”、副駕說“我要聽相聲”、后排說“我要看電影”,這些指令被識別后,需要找到對應(yīng)的業(yè)務(wù)執(zhí)行方去執(zhí)行。然而,相關(guān)技術(shù)中語音交互方法在接收到多個指令包括不同意圖后,只能同時處理單個包含意圖的語音指令,例如相關(guān)技術(shù)需要處理完主駕的“導(dǎo)航去天安門”指令之后,才能繼續(xù)處理副駕的“我要聽相聲”指令,若同時處理多條包含不同意圖的語音指令,將會混淆業(yè)務(wù)執(zhí)行方,無法將多條包含不同意圖的語音指令分發(fā)到合適的業(yè)務(wù)執(zhí)行方執(zhí)行。
技術(shù)實現(xiàn)思路
1、本公開提供了一種語音交互方法、裝置、電子設(shè)備、存儲介質(zhì)、程序產(chǎn)品。根據(jù)本公開的第一方面,提供了一種語音交互方法,該方法包括:獲取用戶輸入的語音指令,通過人工智能大模型對語音指令進(jìn)行識別,得到用戶意圖;將用戶意圖與多個服務(wù)的注冊意圖進(jìn)行匹配得到匹配結(jié)果,并根據(jù)匹配結(jié)果確定目標(biāo)服務(wù),目標(biāo)服務(wù)用于執(zhí)行與用戶意圖對應(yīng)的至少一個指令;在預(yù)設(shè)條件下生成與用戶意圖對應(yīng)的場景標(biāo)識并進(jìn)行場景注冊,得到注冊場景,注冊場景包括:場景對應(yīng)的意圖類型,場景標(biāo)識,以及場景標(biāo)識和目標(biāo)服務(wù)的對應(yīng)關(guān)系;預(yù)設(shè)條件包括用戶意圖為預(yù)設(shè)類型的意圖特征數(shù)據(jù),預(yù)設(shè)類型包括對話交互、獲取數(shù)據(jù)信息中的至少一種;響應(yīng)于接收到新的預(yù)設(shè)類型的意圖特征數(shù)據(jù),基于新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)與注冊場景進(jìn)行匹配,若匹配到對應(yīng)的目標(biāo)注冊場景,則根據(jù)目標(biāo)注冊場景的場景標(biāo)識將新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)分發(fā)給目標(biāo)注冊場景對應(yīng)的目標(biāo)服務(wù)執(zhí)行。
2、在一些實施例中,獲取用戶輸入的語音指令,通過人工智能大模型對語音指令進(jìn)行識別,得到用戶意圖之后,方法還包括:響應(yīng)于對單句的語音指令進(jìn)行識別得到多個用戶意圖,輸出第一提示信息,第一提示信息用于引導(dǎo)用戶從多個用戶意圖中選擇至少一個用戶意圖;獲取用戶輸入的選擇信息,根據(jù)選擇信息從多個用戶意圖中確定語音指令的單個用戶意圖。
3、在一些實施例中,將用戶意圖與多個服務(wù)的注冊意圖進(jìn)行匹配得到匹配結(jié)果之前,方法還包括:根據(jù)多個服務(wù)的功能和業(yè)務(wù)場景,獲得服務(wù)對應(yīng)的意圖;分別為多個服務(wù)注冊至少一個意圖,得到多個服務(wù)的注冊意圖。
4、在一些實施例中,將用戶意圖與多個服務(wù)的注冊意圖進(jìn)行匹配得到匹配結(jié)果,并根據(jù)匹配結(jié)果確定目標(biāo)服務(wù),包括:將多個執(zhí)行服務(wù)的注冊意圖與用戶意圖進(jìn)行匹配;響應(yīng)于多個服務(wù)中存在兩個及兩個以上服務(wù)的注冊意圖與用戶意圖相匹配,輸出第二提示信息,第二提示信息用于引導(dǎo)用戶從兩個或兩個以上服務(wù)中選擇至少一個;獲取用戶輸入的答復(fù)信息,根據(jù)答復(fù)信息的答復(fù)意圖確定對應(yīng)的服務(wù),并將該服務(wù)確定為目標(biāo)服務(wù)。
5、在一些實施例中,注冊場景還包括場景參數(shù)信息,在預(yù)設(shè)條件下生成與用戶意圖對應(yīng)的場景標(biāo)識并進(jìn)行場景注冊,得到注冊場景包括:在預(yù)設(shè)條件下,獲取意圖類型,生成與用戶意圖對應(yīng)的場景標(biāo)識;建立場景標(biāo)識和目標(biāo)服務(wù)的對應(yīng)關(guān)系;通過目標(biāo)服務(wù)根據(jù)用戶意圖確定場景參數(shù)信息,場景參數(shù)信息包括:場景對應(yīng)的顯示設(shè)備信息、需要接收生成式人工智能數(shù)據(jù)的標(biāo)識、參與人白名單、注冊時間中的一個或多個。
6、在一些實施例中,響應(yīng)于接收到新的預(yù)設(shè)類型為對話交互的意圖特征數(shù)據(jù),基于新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)與注冊場景進(jìn)行匹配包括:獲取用戶輸入的新的語音指令,通過人工智能大模型對新的語音指令進(jìn)行識別,得到新的預(yù)設(shè)類型為對話交互的意圖特征數(shù)據(jù);將新的預(yù)設(shè)類型為對話交互的意圖特征數(shù)據(jù)與多個注冊場景對應(yīng)的意圖類型進(jìn)行匹配獲取意圖匹配結(jié)果;根據(jù)意圖匹配結(jié)果,從多個注冊場景中確定目標(biāo)注冊場景。
7、在一些實施例中,根據(jù)意圖匹配結(jié)果,從多個注冊場景中確定目標(biāo)注冊場景包括:若新的預(yù)設(shè)類型為對話交互的意圖特征數(shù)據(jù)與多個注冊場景中兩個及兩個以上注冊場景對應(yīng)的意圖類型相匹配,獲取新的用戶意圖的參數(shù)信息;將新的預(yù)設(shè)類型為對話交互的意圖特征數(shù)據(jù)的參數(shù)信息與兩個及兩個以上注冊場景的場景參數(shù)信息進(jìn)行匹配,獲取參數(shù)信息匹配結(jié)果;根據(jù)參數(shù)信息匹配結(jié)果,從兩個及兩個以上注冊場景中確定目標(biāo)場景。
8、在一些實施例中,數(shù)據(jù)信息包括生成式人工智能數(shù)據(jù),響應(yīng)于接收到新的預(yù)設(shè)類型的意圖特征數(shù)據(jù),基于新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)與注冊場景進(jìn)行匹配包括:響應(yīng)于用戶意圖為預(yù)設(shè)類型的意圖特征數(shù)據(jù)且預(yù)設(shè)類型為獲取數(shù)據(jù)信息,通過人工智能大模型對用戶意圖和用戶意圖對應(yīng)的場景標(biāo)識進(jìn)行處理,得到生成式人工智能數(shù)據(jù),其中,生成式人工智能數(shù)據(jù)與用戶意圖對應(yīng)的場景標(biāo)識綁定;將用戶意圖對應(yīng)的場景標(biāo)識與多個注冊場景的場景標(biāo)識進(jìn)行匹配,獲取標(biāo)識匹配結(jié)果;根據(jù)標(biāo)識匹配結(jié)果,從多個注冊場景中確定目標(biāo)注冊場景。
9、在一些實施例中,該方法還包括:根據(jù)注冊場景的場景參數(shù)信息確定注冊場景對應(yīng)的顯示設(shè)備;在預(yù)設(shè)的注銷情形下,注銷注冊場景,其中,預(yù)設(shè)的注銷情形包括持續(xù)預(yù)設(shè)的時間未接收到與注冊場景相匹配的新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)、用戶關(guān)閉了與注冊場景對應(yīng)的顯示設(shè)備中的至少一種。
10、根據(jù)本公開的第二方面,提供了一種語音交互裝置,該裝置包括:識別單元,用于獲取用戶輸入的語音指令,通過人工智能大模型對語音指令進(jìn)行識別,得到用戶意圖;匹配單元,用于將用戶意圖與多個服務(wù)的注冊意圖進(jìn)行匹配得到匹配結(jié)果,并根據(jù)匹配結(jié)果確定目標(biāo)服務(wù),目標(biāo)服務(wù)用于執(zhí)行與用戶意圖對應(yīng)的至少一個指令;注冊單元,用于在預(yù)設(shè)條件下生成與用戶意圖對應(yīng)的場景標(biāo)識并進(jìn)行場景注冊,得到注冊場景,注冊場景包括:場景對應(yīng)的意圖類型,場景標(biāo)識,以及場景標(biāo)識和目標(biāo)服務(wù)的對應(yīng)關(guān)系;預(yù)設(shè)條件包括用戶意圖為預(yù)設(shè)類型的意圖特征數(shù)據(jù),預(yù)設(shè)類型包括對話交互、獲取數(shù)據(jù)信息中的至少一種;分發(fā)單元,用于響應(yīng)于接收到新的預(yù)設(shè)類型的意圖特征數(shù)據(jù),基于新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)與注冊場景進(jìn)行匹配,若匹配到對應(yīng)的目標(biāo)注冊場景,則根據(jù)目標(biāo)注冊場景的場景標(biāo)識將新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)分發(fā)給目標(biāo)注冊場景對應(yīng)的目標(biāo)服務(wù)執(zhí)行。
11、根據(jù)本公開的第三方面,提供了一種電子設(shè)備,包括:至少一個處理器;以及與至少一個處理器語音交互連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行前述第一方面的方法。
12、根據(jù)本公開的第四方面,提供了一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),其中,計算機(jī)指令用于使計算機(jī)執(zhí)行前述第一方面的方法。
13、根據(jù)本公開的第五方面,提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,計算機(jī)程序在被處理器執(zhí)行時實現(xiàn)如前述第一方面的方法。
14、本公開的實施例所提供的語音交互方法,包括獲取用戶輸入的語音指令,通過人工智能大模型對語音指令進(jìn)行識別,得到用戶意圖;將用戶意圖與多個服務(wù)的注冊意圖進(jìn)行匹配得到匹配結(jié)果,并根據(jù)匹配結(jié)果確定目標(biāo)服務(wù),目標(biāo)服務(wù)用于執(zhí)行與用戶意圖對應(yīng)的至少一個指令;在預(yù)設(shè)條件下生成與用戶意圖對應(yīng)的場景標(biāo)識并進(jìn)行場景注冊,得到注冊場景,注冊場景包括:場景對應(yīng)的意圖類型,場景標(biāo)識,以及場景標(biāo)識和目標(biāo)服務(wù)的對應(yīng)關(guān)系;預(yù)設(shè)條件包括用戶意圖為預(yù)設(shè)類型的意圖特征數(shù)據(jù),預(yù)設(shè)類型包括對話交互、獲取數(shù)據(jù)信息中的至少一種;響應(yīng)于接收到新的預(yù)設(shè)類型的意圖特征數(shù)據(jù),基于新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)與注冊場景進(jìn)行匹配,若匹配到對應(yīng)的目標(biāo)注冊場景,則根據(jù)目標(biāo)注冊場景的場景標(biāo)識將新的預(yù)設(shè)類型的意圖特征數(shù)據(jù)分發(fā)給目標(biāo)注冊場景對應(yīng)的目標(biāo)服務(wù)執(zhí)行,本公開的方法實現(xiàn)將人工智能大模型引入全車全時的車載語音交互中,基于場景注冊將用戶意圖以及生成式內(nèi)容分發(fā)到合適的執(zhí)行方,在滿足全車全時交互下語音意圖分發(fā)同時,解決了大模型的生成式內(nèi)容的分發(fā)問題。
15、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本技術(shù)的實施例的關(guān)鍵或重要特征,也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過以下的說明書而變得容易理解。