本發(fā)明涉及同聲傳譯,尤其涉及一種同聲傳譯方法、裝置、電子設備及存儲介質。
背景技術:
1、隨著科學技術的發(fā)展,同聲傳譯成為人們關注的熱點,其中,同聲傳譯可以理解為在講話人講話的同時將講話人的語言翻譯成不同的語言。
2、在現有技術中,一方面,同聲傳譯大都通過人工來實現,譯員的詞匯量掌握情況各不相同,因此會產生影響翻譯的準確度,另一方面,采用翻譯機等翻譯設備來進行同聲傳譯,以得到機器翻譯語言的輸出。
3、因此,現有技術中存在對同聲傳譯中的翻譯效果較差的問題。
技術實現思路
1、本發(fā)明實施例提供一種同聲傳譯方法、裝置、電子設備及存儲介質,以解決現有技術中存在對同聲傳譯中的翻譯效果較差的問題。
2、第一方面,本發(fā)明實施例提供了一種同聲傳譯方法,包括:
3、獲取第一目標用戶所在區(qū)域的目標信息,并在第二目標用戶所在區(qū)域搭建目標虛擬場景,所述目標信息包括如下至少一項:所述區(qū)域內的目標對象的圖像信息,所述目標虛擬場景包括所述目標對象的虛擬圖像,且所述目標對象包括所述第一目標用戶;
4、在所述目標虛擬場景搭建完成的情況下,采集所述第一目標用戶的第一語音信息;
5、將所述第一語音信息轉化為第一目標文本信息,并將所述第一目標文本信息翻譯為第二目標文本信息;
6、依據所述第二目標文本信息生成第二語音信息,并輸出所述第二語音信息,以及控制所述目標虛擬場景中所述第一目標用戶的虛擬圖像展示與所述第二語音信息匹配的動作。
7、可選地,所述在所述第二目標用戶所在區(qū)域搭建目標虛擬場景,包括:
8、獲取待搭建的所述目標虛擬場景中多個目標對象的屬性特征,所述屬性特征包括如下至少兩項:視野范圍特征、立體特征、空間交互特征、運動時長特征、運動邏輯特征和聲音特征;
9、基于所述目標對象的屬性特征,確定創(chuàng)建所述目標對象的目標方式,所述目標方式包括全景圖像和全景視頻中的一種;
10、基于所述目標方式創(chuàng)建所述目標對象,以搭建所述目標虛擬場景。
11、可選地,所述采集所述第一目標用戶的第一語音信息,包括:
12、采集所述第一目標用戶的所述第一語音信息,其中,所述第一語音信息包括所述第一目標用戶的講話內容;
13、對所述第一目標用戶的講話內容進行拆解,以得到音素信息,所述音素信息包括至少一個詞語音素和/或至少一個發(fā)音特征音素;
14、依據所述音素信息確定所述第一目標用戶的講話特征。
15、可選地,所述將所述第一語音信息轉化為第一目標文本信息,并將所述第一目標文本信息翻譯為第二目標文本信息,包括:
16、將所述第一語音信息轉化為所述第一目標文本信息,并對所述第一目標文本信息進行語義校準;
17、獲取當前翻譯方式;
18、按照所述預設語言類型和所述翻譯方式翻譯所述第一目標文本信息,得到所述第二目標文本信息。
19、可選地,所述依據所述第二目標文本信息生成第二語音信息,并輸出所述第二語音信息,以及控制所述目標虛擬場景中所述第一目標用戶的虛擬圖像展示與所述第二語音信息匹配的動作,包括:
20、根據所述第二目標文本和所述講話特征生成第二語音信息;
21、根據所述第二語音信息設置所述目標虛擬場景中虛擬人物的動作,并將所述第二語音信息作為輸出音頻進行輸出,所述虛擬人物的動作包括如下至少一項:肢體動作和面部表情;
22、其中,所述虛擬人物為所述目標虛擬場景中所述第一目標用戶的虛擬圖像,所述第一目標用戶的語言類型與預設語言類型不同。
23、可選地,在所述依據所述第二目標文本信息生成第二語音信息,并輸出所述第二語音信息,以及控制所述目標虛擬場景中所述第一目標用戶的虛擬圖像展示與所述第二語音信息匹配的動作之后,所述方法還包括:
24、獲取所述第二目標用戶通過第一目標設備發(fā)送的調節(jié)指令,所述調節(jié)指令包括如下至少一項:音量調節(jié)、預設語言調節(jié)以及翻譯模式調節(jié);
25、根據所述調節(jié)指令對第二目標設備進行調節(jié);
26、其中,所述第一目標設備為用戶端的操作設備,所述第二目標設備為音頻輸出設備和/或翻譯設備。
27、可選地,所述目標對象還包括如下至少一項:
28、所述區(qū)域的物體、所述區(qū)域的除所述第一目標用戶之外的其他用戶。
29、第二方面,本發(fā)明實施例還提供了一種同聲傳譯裝置,包括:
30、第一獲取模塊,用于獲取第一目標用戶所在區(qū)域的目標信息,并在第二目標用戶所在區(qū)域搭建目標虛擬場景,所述目標信息包括如下至少一項:所述區(qū)域內的目標對象的圖像信息,所述目標虛擬場景包括所述目標對象的虛擬圖像,且所述目標對象包括所述第一目標用戶;
31、采集模塊,用于在所述目標虛擬場景搭建完成的情況下,采集所述第一目標用戶的第一語音信息;
32、第一處理模塊,用于將所述第一語音信息轉化為第一目標文本信息,并將所述第一目標文本信息翻譯為第二目標文本信息;
33、第二處理模塊,用于依據所述第二目標文本信息生成第二語音信息,并輸出所述第二語音信息,以及控制所述目標虛擬場景中所述第一目標用戶的虛擬圖像展示與所述第二語音信息匹配的動作。
34、可選地,所述第一獲取模塊包括:
35、第一獲取單元,用于獲取待搭建的所述目標虛擬場景中多個目標對象的屬性特征,所述屬性特征包括如下至少兩項:視野范圍特征、立體特征、空間交互特征、運動時長特征、運動邏輯特征和聲音特征;
36、第一確定單元,用于基于所述目標對象的屬性特征,確定創(chuàng)建所述目標對象的目標方式,所述目標方式包括全景圖像和全景視頻中的一種;
37、搭建單元,用于基于所述目標方式創(chuàng)建所述目標對象,以搭建所述目標虛擬場景。
38、可選地,所述采集模塊包括:
39、采集單元,用于采集所述第一目標用戶的所述第一語音信息,其中,所述第一語音信息包括所述第一目標用戶的講話內容;
40、拆解單元,用于對所述第一目標用戶的講話內容進行拆解,以得到音素信息,所述音素信息包括至少一個詞語音素和/或至少一個發(fā)音特征音素;
41、第二確定單元,用于依據所述音素信息確定所述第一目標用戶的講話特征。
42、可選地,所述第一處理模塊包括:
43、轉換單元,用于將所述第一語音信息轉化為所述第一目標文本信息,并對所述第一目標文本信息進行語義校準;
44、第二獲取單元,用于獲取當前翻譯方式;
45、翻譯單元,用于按照所述預設語言類型和所述翻譯方式翻譯所述第一目標文本信息,得到所述第二目標文本信息。
46、可選地,所述第二處理模塊包括:
47、根據所述第二目標文本和所述講話特征生成第二語音信息;
48、根據所述第二語音信息設置所述目標虛擬場景中虛擬人物的動作,并將所述第二語音信息作為輸出音頻進行輸出,所述虛擬人物的動作包括如下至少一項:肢體動作和面部表情;
49、其中,所述虛擬人物為所述目標虛擬場景中所述第一目標用戶的虛擬圖像,所述第一目標用戶的語言類型與預設語言類型不同。
50、可選地,所述裝置還包括:
51、第二獲取模塊,用于獲取所述第二目標用戶通過第一目標設備發(fā)送的調節(jié)指令,所述調節(jié)指令包括如下至少一項:音量調節(jié)、預設語言調節(jié)以及翻譯模式調節(jié);
52、調節(jié)模塊,用于根據所述調節(jié)指令對第二目標設備進行調節(jié);
53、其中,所述第一目標設備為用戶端的操作設備,所述第二目標設備為音頻輸出設備和/或翻譯設備。
54、可選地,所述目標對象還包括如下至少一項:
55、所述區(qū)域的物體、所述區(qū)域的除所述第一目標用戶之外的其他用戶。
56、第三方面,本發(fā)明實施例還提供一種電子設備,包括收發(fā)機和處理器,
57、所述收發(fā)機,用于獲取第一目標用戶所在區(qū)域的目標信息,并在第二目標用戶所在區(qū)域搭建目標虛擬場景,所述目標信息包括如下至少一項:所述區(qū)域內的目標對象的圖像信息,所述目標虛擬場景包括所述目標對象的虛擬圖像,且所述目標對象包括所述第一目標用戶;
58、所述收發(fā)機,還用于在所述目標虛擬場景搭建完成的情況下,采集所述第一目標用戶的第一語音信息;
59、所述處理器,用于將所述第一語音信息轉化為第一目標文本信息,并將所述第一目標文本信息翻譯為第二目標文本信息;
60、所述處理器,還用于依據所述第二目標文本信息生成第二語音信息,并輸出所述第二語音信息,以及控制所述目標虛擬場景中所述第一目標用戶的虛擬圖像展示與所述第二語音信息匹配的動作。
61、第四方面,本發(fā)明實施例還提供一種電子設備,包括:處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的程序,所述程序被所述處理器執(zhí)行時實現如第一方面所述的同聲傳譯方法的步驟。
62、第五方面,本發(fā)明實施例還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現如第一方面所述的同聲傳譯方法的步驟。
63、第六方面,本發(fā)明實施例還提供一種計算機程序產品,包括計算機指令,所述計算機指令被處理器執(zhí)行時實現如第一方面所述的同聲傳譯方法的步驟。
64、本發(fā)明實施例中,首先獲取第一目標用戶所在區(qū)域的目標信息,并在第二目標用戶所在區(qū)域搭建目標虛擬場景,目標虛擬場景中包括有目標對象的虛擬圖像,并且所述目標對象包括所述第一目標用戶,接著在所述目標虛擬場景搭建完成的情況下,采集所述第一目標用戶的第一語音信息,然后將所述第一語音信息轉化為第一目標文本信息,并將所述第一目標文本信息翻譯為第二目標文本信息,最后依據所述第二目標文本信息生成第二語音信息,并輸出所述第二語音信息,以及控制所述目標虛擬場景中所述第一目標用戶的虛擬圖像展示與所述第二語音信息匹配的動作。通過該方法,可以將第一目標用戶的語音信息翻譯為第二語音信息并進行輸入,與此同時,根據第二語音信息可以控制所述目標虛擬場景中所述第一目標用戶的虛擬圖像展示與所述第二語音信息匹配的動作,為第二目標用戶提供了沉浸式的跨語言交流體驗,提高了整體的同聲傳譯的翻譯效果。