数据处理方法、装置、电子设备及存储介质与流程

1.本公开涉及计算机技术领域，具体涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术：

2.在一些艺术场景中，会通过增加显示屏显示演员的台词来解决听力障碍的人观看演出的需求，但是该方案中需要对每一句台词进行人工操作，效率不高，并且可能存在一些观众无法看清台上字幕情形，而且这种方式只能呈现台词内容，无法在此基础上呈现多元化的信息。

技术实现要素：

3.本公开实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质。
4.第一方面，本公开实施例中提供了一种数据处理方法，包括：
5.获取采集区域内的语音数据；
6.对所述语音数据进行处理获得虚拟信息，所述虚拟信息包括所述语音数据对应的文字内容；
7.将所述虚拟信息输出至用户区域内的至少一个显示设备，以便在所述显示设备上显示所述虚拟信息，使得用户通过所述显示设备观看采集区域时在用户视线范围内能够观看到所述虚拟信息。
8.进一步地，对所述语音数据进行处理获得虚拟信息，包括：
9.对所述语音数据进行预处理；
10.利用声学模型对经过预处理的所述语音数据进行识别获得对应的候选内容；
11.利用语义模型对所述候选内容进行语义处理得到所述文字内容。
12.进一步地，对所述语音数据进行处理获得虚拟信息之后，还包括：
13.将所述文字内容翻译成所述显示设备关联的目标语言对应的目标内容。
14.进一步地，所述显示设备包括ar显示设备。
15.第二方面，本公开实施例中提供了一种数据处理方法，所述方法在显示设备上执行，包括：
16.获取虚拟信息；所述虚拟信息包括通过采集区域内采集到的语音数据识别得到的文字内容；
17.显示所述虚拟信息，以便所述用户通过所述显示设备观看采集区域时能够在用户视线范围内观看到所述虚拟信息。
18.进一步地，显示所述虚拟信息，包括：
19.采集所述采集区域内的图像数据；
20.通过将所述虚拟信息叠加在所述图像数据获取显示图像；
21.显示所述显示图像。
22.进一步地，所述显示设备包括透明显示单元，显示所述虚拟信息，包括：
23.将所述文字内容显示在所述透明显示单元上，使得所述文字内容叠加显示在用户透过所述透明显示单元观看到的信息上。
24.进一步地，所述方法还包括：
25.接收用户配置的目标语言；
26.显示所述虚拟信息之前，还包括：
27.在所述虚拟信息中的文字内容与所述目标语言不相匹配时，将所述虚拟信息中的文字内容翻译成所述目标语言对应的目标内容。
28.第三方面，本公开实施例中提供了一种数据处理方法，所述方法在显示设备上执行，所述显示设备包括语音采集单元和显示单元，包括：
29.获取所述语音采集单元采集的语音数据；
30.对所述语音数据进行处理获得虚拟信息，所述虚拟信息包括所述语音数据对应的文字内容；
31.将所述虚拟信息输出至所述显示单元，以在所述显示单元上显示所述虚拟信息。
32.进一步地，对所述语音数据进行处理获得虚拟信息，包括：
33.对所述语音数据进行预处理；
34.利用声学模型对经过预处理的所述语音数据进行识别获得对应的候选内容；
35.利用语义模型对所述候选内容进行语义处理得到所述文字内容。
36.进一步地，所述显示设备包括图像采集单元，将所述虚拟信息输出至所述显示单元，以在所述显示单元上显示所述虚拟信息，包括：
37.获取所述图像采集单元采集到的图像数据；
38.通过将所述虚拟信息叠加在所述图像数据获取显示图像；
39.将所述显示图像输出至所述显示单元上进行显示。
40.进一步地，所述显示单元包括透明显示单元，将所述虚拟信息输出至所述显示单元，以在所述显示单元上显示所述虚拟信息，包括：
41.将所述文字内容输出至所述透明显示单元上进行显示，使得所述文字内容叠加显示在用户透过所述透明显示单元观看到的信息上。
42.进一步地，所述方法还包括：
43.接收用户配置的目标语言；
44.将所述虚拟信息输出至所述显示单元之前，还包括：
45.在所述虚拟信息中的文字内容与所述目标语言不相匹配时，将所述虚拟信息中的文字内容翻译成所述目标语言对应的目标内容。
46.第四方面，本发明实施例中提供了一种数据处理装置，包括：
47.第一获取模块，被配置为获取采集区域内的语音数据；
48.第一处理模块，被配置为对所述语音数据进行处理获得虚拟信息，所述虚拟信息包括所述语音数据对应的文字内容；
49.第一输出模块，被配置为将所述虚拟信息输出至用户区域内的至少一个显示设备，以便在所述显示设备上显示所述虚拟信息，使得用户通过所述显示设备观看采集区域时在用户视线范围内能够观看到所述虚拟信息。
50.第五方面，本发明实施例中提供了一种数据处理装置，所述装置位于显示设备上，所述装置包括：
51.第二获取模块，被配置为获取虚拟信息；所述虚拟信息包括通过采集区域内采集到的语音数据识别得到的文字内容；
52.显示模块，被配置为显示所述虚拟信息，以便所述用户通过所述显示设备观看采集区域时能够在用户视线范围内观看到所述虚拟信息。
53.第六方面，本发明实施例中提供了一种数据处理装置，所述装置位于显示设备，所述显示设备包括语音采集单元和显示单元，所述装置包括：
54.第三获取模块，被配置为获取所述语音采集单元采集的语音数据；
55.第二处理模块，被配置为对所述语音数据进行处理获得虚拟信息，所述虚拟信息包括所述语音数据对应的文字内容；
56.第二输出模块，被配置为将所述虚拟信息输出至所述显示单元，以在所述显示单元上显示所述虚拟信息。
57.所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
58.在一个可能的设计中，上述装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口，用于上述装置与其他设备或通信网络通信。
59.第七方面，本公开实施例提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述任一方面所述的方法。
60.第八方面，本公开实施例提供了一种计算机可读存储介质，用于存储上述任一装置所用的计算机指令，其包含用于执行上述任一方面所述方法所涉及的计算机指令。
61.本公开实施例提供的技术方案可以包括以下有益效果：
62.通过本公开实施例，可以将采集区域内目标对象的语音实时转化成文字内容，以及将包括文字内容的虚拟信息发送至显示设备显示给用户，使得用户在观看采集区域的同时能够通过显示设备观看到采集区域内语音数据对应的文字内容。上述实施例通过将虚拟显示技术与语音识别技术进行融合，解决了一些特殊场景和/或听力有障碍人员在观看表演等现场信息时无法准确接收到语音信息的技术问题。
63.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
64.结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：
65.图1示出根据本公开一实施方式的数据处理方法的流程图；
66.图2示出根据本公开另一实施方式的数据处理方法的流程图；
67.图3示出根据本公开又一实施方式的数据处理方法的流程图；
68.图4示出根据本公开一实施方式在舞台表演场景下的应用流程示意图；
69.图5是适于用来实现根据本公开一实施方式的数据处理方法的电子设备的结构示意图。
具体实施方式
70.下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。
71.在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
72.另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
73.下面通过具体实施例详细介绍本公开实施例的细节。
74.图1示出根据本公开一实施方式的数据处理方法的流程图。如图1所示，该数据处理方法包括以下步骤：
75.在步骤s101中，获取采集区域内的语音数据；
76.在步骤s102中，对所述语音数据进行处理获得虚拟信息，所述虚拟信息包括所述语音数据对应的文字内容；
77.在步骤s103中，将所述虚拟信息输出至用户区域内的至少一个显示设备，以便在所述显示设备上显示所述虚拟信息，使得用户通过所述显示设备观看采集区域时在用户视线范围内能够观看到所述虚拟信息。
78.本实施例中，该数据处理方法可以在处理器上实现，该处理器可以位于服务器或者与显示设备不同的其他处理设备上。采集区域和用户区域可以是预先确定好的，例如采集区域可以是输出语音的目标对象所在的区域，而用户区域可以为接收语音的对象所在的区域。例如，在艺术应用场景下，采集区域可以是表演者所在的舞台区域，而用户区域可以是观众所在的区域。在采集区域可以设置语音采集设备如麦克风等，语音采集设备将实时采集到的语音数据输出给处理器，处理器通过对语音数据进行实时处理之后转化成对应的文字内容，以及将包括文字内容的虚拟信息发送至用户区域内的显示设备。
79.在一些实施例中，虚拟信息还可以包括文字内容的显示信息及其他相关信息，显示信息例如可以包括显示位置、显示方式、显示格式等信息。虚拟信息还可以包括同步信息，例如该文字内容对应的语音数据的发生时间等。
80.本实施例中，用户区域内可以包括一个或多个显示设备，以便供一个或多个用户使用。显示设备在接收到虚拟信息之后，可以在用户通过显示设备观看采集区域时将虚拟信息显示在用户的视线范围内。在一些实施例中，显示设备可以是ar显示设备。例如显示设备可以是ar眼镜，用户佩戴ar眼镜观看采集区域时，可以将虚拟信息显示在眼镜上，使得用户在透过ar眼镜看到采集区域内的真实画面的同时能够看到对应的虚拟信息，例如观众通过ar眼镜设备观看舞台表演时，能够通过ar眼镜观看到舞台上的真实表演画面的同时，还能够看到对应的字幕等虚拟信息。
81.通过本公开实施例，可以将采集区域内目标对象的语音实时转化成文字内容，以及将包括文字内容的虚拟信息发送至显示设备显示给用户，使得用户在观看采集区域的同时能够通过显示设备观看到采集区域内语音数据对应的文字内容。上述实施例通过将虚拟显示技术与语音识别技术进行融合，解决了一些特殊场景和/或听力有障碍人员在观看表演等现场信息时无法准确接收到语音信息的技术问题。
82.在本实施例的一个可选实现方式中，步骤s101，即获取采集区域内的语音数据的步骤，进一步包括以下步骤：
83.从设置在所述采集区域内的语音采集设备获取所述语音采集设备实时采集到的语音数据。
84.该可选的实现方式中，可以在采集区域内设置语音采集设备，用于实时获取采集区域内的语音数据。语音采集设备例如可以是360度麦克风陈列，语音采集设备在采集到的语音数据之后可以对采集到的语音数据进行放大等预处理，之后再输出至服务器端。可以理解的是，该服务器端可以是设置在本地的能够用于处理语音数据的计算机设备，也可以是设置远程的服务器设备，具体可以根据实际需要设置，在此不做限制。
85.在本实施例的一个可选实现方式中，步骤s102，即对所述语音数据进行处理获得虚拟信息的步骤，进一步包括以下步骤：
86.对所述语音数据进行预处理；
87.利用声学模型对经过预处理的所述语音数据进行识别获得对应的候选内容；
88.利用语义模型对所述候选内容进行语义处理得到所述文字内容。
89.该可选的实现方式中，对于语音数据可以进行降噪、过滤等预处理，并从中提取出采集区域内目标对象的音频内容。目标对象可以是采集区域内的发出语音的任意一个对象，也可以是其中一个或多个对象，可以通过音频识别等功能从经过预处理的语音数据中提取出目标对象的音频内容，之后再利用声学模型对音频内容进行语音识别，得到对应的候选内容。之后还可以利用语义模型对候选内容进行上下文语义处理，最终输出符合语义逻辑的文字内容，语义模型可以由演出场景常用的台词，以及剧本训练得到。声学模型和语义模型可以采用相关技术中已经实现的模型，在此不做限制。
90.在一些实施例中，采集区域还可以设置图像采集设备，用于采集与语音数据同步的图像数据，图像数据以及与语音数据的同步信息可以发送至服务器端，服务器端可以识别出语音数据是否为图像数据中目标对象所发出，并根据识别结果进行相应的预处理。例如，在观看舞台剧的应用场景下，服务器端如果根据与语音数据同步的图像数据识别出当前的声音不是演员所发出的声音，而是周围的杂音或者其他人员发出的，则可以将这部分声音过滤掉，而仅保留舞台上演员口中发出的声音。当然可以理解的是，通常情况下，舞台剧这种应用场景中，演员的声音相较于周围的杂音会比较突出，因此也可以通过常用的滤波器仅对语音数据进行过滤，而保留演员的声音，具体可以根据实际需要而设置，在此不做限制。
91.在另一些实施例中，服务器还可以根据与语音数据同步的图像数据识别声音指向性，也即目标对象发出的声音指向的是哪个方向，之后可以基于声音指向性做相应的处理。在用户区域对应有多个显示设备的情况下，服务器可以根据声音指向性将处理得到的虚拟信息发送至声音所指向的显示设备上，而不发送至其他显示设备。例如，在演出场景下，演
员希望与台下的观众进行互动，并且在不同时间面向不同区域的观众发出声音，此时服务器可以根据演员当前的声音指向性而将虚拟信息发送至所指向区域的观众们的显示设备上。
92.在观看舞台演出的应用场景下，显示设备上还可以显示围绕演员的弹幕信息。用户可以通过语音控制或者显示设备上的设置接口等添加弹幕，或者可以通过与显示设备交互的用户设备添加弹幕。显示设备还可以将用户添加的弹幕上传至服务器端，服务器端可以将弹幕信息分享到其他显示设备上。
93.在本实施例的一个可选实现方式中，步骤s102，即对所述语音数据进行处理获得虚拟信息的步骤之后，该方法进一步还包括以下步骤：
94.将所述文字内容翻译成所述显示设备关联的目标语言对应的目标内容。
95.该可选的实现方式中，可以针对语音数据识别得到的文字内容翻译成目标语言对应的目标内容。目标语言可以是与显示设备相关联的语言类型，例如中文、英文等。显示设备可以包括多个，并且不同的显示设备可以关联不同的目标语言，在确定语音数据对应的文字内容之后，可以将文字内容自动翻译成相关联的目标语言对应的目标内容之后，将包括目标内容的虚拟信息输出给对应的显示设备。通过这种方式，不但可以解决特殊场景或者听力有障碍人群无法有效接收到采集区域内目标对象输出的语音信息的问题，还能够解决目标对象与显示设备的用户之间的语言差异问题。例如，针对艺术表演场景，可以通过这种方式将不同语种的剧目带给全球的观众进行观赏，大大的降低了文化欣赏的门槛。
96.图2示出根据本公开另一实施方式的数据处理方法的流程图。如图2所示，该数据处理方法包括以下步骤：
97.在步骤s201中，获取虚拟信息；所述虚拟信息包括通过采集区域内采集到的语音数据识别得到的文字内容；
98.在步骤s202中，显示所述虚拟信息，以便所述用户通过所述显示设备观看采集区域时能够在用户视线范围内观看到所述虚拟信息。
99.本实施例中，该数据处理方法可以在显示设备上实现，例如ar显示设备。采集区域和用户区域可以是预先确定好的，例如采集区域可以是输出语音的目标对象所在的区域，而用户区域可以为接收语音的对象所在的区域。例如在艺术应用场景下，采集区域可以是表演者所在的舞台区域，而用户区域可以是观众所在的区域。在采集区域可以设置语音采集设备如麦克风等，语音采集设备将实时采集到的语音数据输出给相应设备，相应设备上的处理器通过对语音数据进行实时处理之后转化成对应的文字内容，以及将包括文字内容的虚拟信息发送至用户区域内的显示设备。
100.在一些实施例中，显示设备可以是ar显示设备，例如ar眼镜。
101.用户可以通过ar显示设备观看采集区域内的对象，例如人、物、场景等。ar显示设备上可以设置显示单元，在获取到虚拟信息之后，可以在ar显示设备上显示该虚拟信息，使得用户通过ar显示设备观看采集区域内的对象时能够将该虚拟信息叠加显示在用户视线范围内。例如，观众区的用户佩戴ar眼镜观看舞台表演时，可以将舞台表演者的语音叠加显示在用户通过ar眼镜观看到的舞台场景中。
102.在一些实施例中，虚拟信息还可以包括文字内容的显示信息及其他相关信息，例如显示位置、显示方式、显示格式等信息。显示设备可以根据虚拟信息中的显示信息及其他
相关信息将文字内容显示在适当的位置，使得用户观看采集区域内的对象时不遮挡观看视线，显示设备还可以通过检测用户的视角、双眼距离等，经过计算之后对显示的文字大小进行调整，避免出现用户观看字幕失焦或头晕等体验问题。
103.本公开实施例中的其它细节还可以参见上述图1及相关实施例中对数据处理方法的描述，在此不再赘述。
104.本公开实施例通过将虚拟显示技术与语音识别技术进行融合，解决了一些特殊场景和/或听力有障碍人员等在观看表演等现场信息时无法准确接收到语音信息的技术问题。
105.在本实施例的一个可选实现方式中，步骤s202，即显示所述虚拟信息的步骤，进一步包括以下步骤：
106.采集所述采集区域内的图像数据；
107.通过将所述虚拟信息叠加在所述图像数据获取显示图像；
108.根据所述显示图像显示在所述显示单元上。
109.该可选的实现方式中，显示设备还包括图像采集单元，例如单目摄像头或者多目摄像头。从采集区域实时采集得到的图像数据可以是二维图像也可以是三维图像。显示设备在接收到虚拟信息之后，可以将该虚拟信息中的文字内容与图像数据进行计算机渲染得到显示图像，以便将该文字内容叠加显示在该图像数据上，并将该显示图像显示在显示单元上。可以理解的是，在需要的情况下还可以在图像数据上叠加其他虚拟信息。
110.在本实施例的一个可选实现方式中，该显示设备包括透明显示单元，步骤s202，即显示所述虚拟信息的步骤，进一步包括以下步骤：
111.将所述文字内容显示在所述透明显示单元上，使得所述文字内容叠加显示在用户通过所述透明显示单元观看到的信息上。
112.该可选的实现方式中，该显示设备可以是ar显示设备，例如ar眼镜。显示设备上的显示单元可以是透明显示单元，用户佩戴该显示设备时，该透明显示单元可以位于眼睛部位，使得用户能够透过该透明单元上观看环境中的信息。该透明显示单元还具有显示功能，可以显示虚拟信息，例如文字内容，使得用户透过该透明显示单元观看采集区域内的信息时，能够将文字内容叠加显示在所观看到的信息上。由于周围环境中的自然反射光能够正常通过该透明显示单元，因此用户可以通过透明显示单元查看周围环境和事物，不会影响穿戴者的视线。通过这种方式，用户观看到的采集区域中的信息是真实的，而同时还能够在不做任何干预的情况下看到采集区域中对象发出的语音数据对应的文字内容，这种方式尤其适用于艺术场景，在不破坏艺术表演的前提下能够实现字幕的自动采集及显示。
113.在本实施例的一个可选实现方式中，该方法进一步还包括以下步骤：
114.接收用户配置的目标语言；
115.显示所述虚拟信息之前，还包括：
116.在所述虚拟信息中的文字内容与所述目标语言不相匹配时，将所述虚拟信息中的文字内容翻译成所述目标语言对应的目标内容。
117.该可选的实现方式中，用户可以通过客户端为显示设备配置目标语言，在接收到的虚拟信息中的文字内容与用户所配置的目标语言不匹配时，可以将该虚拟信息中的文字内容翻译成目标语言对应的目标内容，之后再显示在显示设备上。通过这种方式，显示设备
可以适用于使用任何语言的目标用户。
118.在一些实施例中，用户可以在显示设备或者与显示设备进行交互的用户设备如手机上设置语言类别，也即显示设备上可以预先设置多种可选的语言类别，用户可以根据自身熟悉的语种选择对应的类别，显示设备在接收到的虚拟信息中的文字内容与用户所选择的语言类别不一致时，将该文字内容自动翻译成用户选择的语言类别。
119.在另一些实施例中，用户还可以佩戴耳机，在显示设备上显示虚拟信息的同时，在耳机上播放对应的语音数据。用户还可以在耳机上设置语言类别，在接收到的语音数据与所选择的语言类别不一致时，可以将语音数据自动翻译成用户选择的语言类别。当然，可以理解的是，自动翻译的过程可以是在服务器端完成，用户通过耳机选择配置语言类别后，耳机将所配置的语言类别发送至服务器，服务器可以在使用过程中将语音数据翻译成所配置的语言类别对应的语音后发送至耳机。
120.图3示出根据本公开又一实施方式的数据处理方法的流程图。如图2所示，该数据处理方法包括以下步骤：
121.在步骤s301中，获取所述语音采集单元采集的语音数据；
122.在步骤s302中，对所述语音数据进行处理获得虚拟信息，所述虚拟信息包括所述语音数据对应的文字内容；
123.在步骤s303中，将所述虚拟信息输出至所述显示单元，以在所述显示单元上显示所述虚拟信息。
124.本实施例中，该数据处理方法可以在显示设备上实现，例如ar显示设备。显示设备可以包括语音采集单元和显示单元。语音采集单元例如可以是麦克风阵列。显示设备可以是眼镜，显示单元可以设置在镜片上。该显示设备的使用过程中，语音采集单元可以实时采集周围环境中的语音数据，并将采集到的语音数据输出给显示设备上的处理单元，处理单元通过对语音数据进行处理获得虚拟信息，该虚拟信息可以包括语音数据对应的文字内容，该虚拟信息输出至显示单元之后进行显示。采集区域和用户区域可以是预先确定好的，例如采集区域可以是输出语音的目标对象所在的区域，而用户区域可以为接收语音的对象所在的区域。
125.用户可以通过显示设备上的显示单元可以观看环境中的信息，例如人、物、场景等。用户通过显示单元观看环境中的信息时能够将该虚拟信息叠加显示在用户视线范围内。例如，用户佩戴眼镜观看舞台表演时，可以将舞台表演者的语音叠加显示在用户通过眼镜观看到的舞台场景中。
126.在一些实施例中，虚拟信息还可以包括文字内容的显示信息及其他相关信息，例如显示位置、显示方式、显示格式等信息。显示设备可以根据虚拟信息中的显示信息及其他相关信息将文字内容显示在适当的位置，使得用户观看采集区域内的对象时不遮挡观看视线，显示设备还可以通过检测用户的视角、双眼距离等，经过计算之后对显示的文字大小进行调整，避免出现用户观看字幕失焦或头晕等体验问题。
127.通过本公开实施例，可以利用显示设备将采集到的语音实时转化成文字内容，以及将包括文字内容的虚拟信息显示给用户，使得用户在观看环境中信息的同时能够通过显示设备观看到环境中对象发出的语音数据对应的文字内容。上述实施例通过将虚拟显示技术与语音识别技术进行融合，解决了一些特殊场景和/或听力有障碍人员在观看表演等现
场信息时无法准确接收到语音信息的技术问题。
128.在本实施例的一个可选实现方式中，步骤s302，即对所述语音数据进行处理获得虚拟信息的步骤，进一步包括以下步骤：
129.对所述语音数据进行预处理；
130.利用声学模型对经过预处理的所述语音数据进行识别获得对应的候选内容；
131.利用语义模型对所述候选内容进行语义处理得到所述文字内容。
132.该可选的实现方式中，对于语音数据可以进行降噪、过滤等预处理，并从中提取出采集区域内目标对象的音频内容。目标对象可以是采集区域内的发出语音的任意一个对象，也可以是其中一个或多个对象，可以通过音频识别等功能从经过预处理的语音数据中提取出目标对象的音频内容，之后再利用声学模型对音频内容进行语音识别，得到对应的候选内容。之后还可以利用语义模型对候选内容进行上下文语义处理，最终输出符合语义逻辑的文字内容，语义模型可以由演出场景常用的台词，以及剧本训练得到。声学模型和语义模型可以采用相关技术中已经实现的模型，在此不做限制。
133.在本实施例的一个可选实现方式中，所述显示设备包括图像采集单元，步骤s302，即将所述虚拟信息输出至所述显示单元，以在所述显示单元上显示所述虚拟信息的步骤，进一步包括以下步骤：
134.获取所述图像采集单元实时采集到的图像数据；
135.通过将所述虚拟信息叠加在所述图像数据获取显示图像；
136.将所述显示图像输出至所述显示单元上进行显示。
137.该可选的实现方式中，显示设备还包括图像采集单元，例如单目摄像头或者多目摄像头。图像采集单元用于实时采集环境中的图像数据，该图像数据可以是二维图像也可以是三维图像。处理单元利用语音采集单元采集到的语音数据获得对应的虚拟信息之后，可以将该虚拟信息中的文字内容与图像数据进行计算机渲染得到显示图像，以便将该文字内容叠加显示在该图像数据上，并将该显示图像显示在显示单元上。可以理解的是，在需要的情况下还可以在图像数据上叠加其他虚拟信息。
138.在本实施例的一个可选实现方式中，该显示单元包括透明显示单元，步骤s302，即将所述虚拟信息输出至所述显示单元，以在所述显示单元上显示所述虚拟信息的步骤，进一步包括以下步骤：
139.将所述文字内容显示在所述透明显示单元上，使得所述文字内容叠加显示在用户通过所述透明显示单元观看到的信息上。
140.该可选的实现方式中，显示设备上的显示单元可以是透明显示单元，用户佩戴该显示设备时，该透明显示单元可以位于眼睛部位，使得用户能够透过该透明单元上观看环境中的信息。该透明显示单元还具有显示功能，可以显示虚拟信息，例如文字内容，使得用户透过该透明显示单元观看采集区域内的信息时，能够将文字内容叠加显示在所观看到的信息上。由于周围环境中的自然反射光能够正常通过该透明显示单元，因此用户可以通过透明显示单元查看周围环境和事物，不会影响穿戴者的视线。通过这种方式，用户观看到的采集区域中的信息是真实的，而同时还能够在不做任何干预的情况下看到环境中对象发出的语音数据对应的文字内容，这种方式尤其适用于艺术场景，在不破坏艺术表演的前提下能够实现字幕的自动采集及显示。
141.在本实施例的一个可选实现方式中，该方法进一步还包括以下步骤：
142.接收用户配置的目标语言；
143.将所述虚拟信息输出至所述显示单元之前，还包括：
144.在所述虚拟信息中的文字内容与所述目标语言不相匹配时，将所述虚拟信息中的文字内容翻译成所述目标语言对应的目标内容。
145.该可选的实现方式中，用户可以通过客户端为显示设备配置目标语言，在接收到的虚拟信息中的文字内容与用户所配置的目标语言不匹配时，可以将该虚拟信息中的文字内容翻译成目标语言对应的目标内容，之后再显示在显示设备上。通过这种方式，显示设备可以适用于使用任何语言的目标用户。
146.图4示出根据本公开一实施方式在舞台表演场景下的应用流程示意图。如图4所示，在舞台周围设置有360度麦克风阵列401，用于实时采集舞台上表演者发出的语音数据。处理设备402可以设置在舞台所在的空间内，或者设置在远程，通过通信网络与麦克风阵列401进行通信。在观众区域，观众可以佩戴ar眼镜403观看舞台上的表演。ar眼镜可以通过通信网络与处理设备402进行通信。在表演过程中，麦克风阵列401将实时采集到的语音数据通过网络发送给处理设备402，经过处理设备402处理之后可以获得字幕信息，该字幕信息通过网络发送至观众区域中观众佩戴的ar眼镜403，并且实时显示在ar眼镜403上，使得观众观看物体表演的同时能够在ar眼镜403上叠加显示字幕。
147.下述为本公开装置实施例，可以用于执行本公开方法实施例。
148.根据本公开一实施方式的数据处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该数据处理装置包括：
149.第一获取模块，被配置为获取采集区域内的语音数据；
150.第一处理模块，被配置为对所述语音数据进行处理获得虚拟信息，所述虚拟信息包括所述语音数据对应的文字内容；
151.第一输出模块，被配置为将所述虚拟信息输出至用户区域内的至少一个显示设备，以便在所述显示设备上显示所述虚拟信息，使得用户通过所述显示设备观看采集区域时在用户视线范围内能够观看到所述虚拟信息。
152.在本实施例的一个可选实现方式中，所述第一获取模块，包括：
153.第一获取子模块，被配置为从设置在所述采集区域内的语音采集设备获取所述语音采集设备采集到的语音数据。
154.在本实施例的一个可选实现方式中，所述第一处理模块，包括：
155.第一预处理子模块，被配置为对所述语音数据进行预处理；
156.第一识别子模块，被配置为利用声学模型对经过预处理的所述语音数据进行识别获得对应的候选内容；
157.第一语义处理子模块，被配置为利用语义模型对所述候选内容进行语义处理得到所述文字内容。
158.在本实施例的一个可选实现方式中，所述第一处理模块之后，该装置还包括：
159.第一翻译模块，被配置为将所述文字内容翻译成所述显示设备关联的目标语言对应的目标内容。
160.在本实施例的一个可选实现方式中，显示设备包括ar显示设备。
161.本实施例中的数据处理装置与图1所示实施例及相关实施例中的数据处理方法对应一致，具体细节可以参见上述对图1所示实施例及相关实施例中的数据处理方法的描述，在此不再赘述。
162.根据本公开另一实施方式的数据处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。所述装置位于显示设备上，该数据处理装置包括：
163.第二获取模块，被配置为获取虚拟信息；所述虚拟信息包括通过采集区域内采集到的语音数据识别得到的文字内容；
164.显示模块，被配置为显示所述虚拟信息，以便所述用户通过所述显示设备观看采集区域时能够在用户视线范围内观看到所述虚拟信息。
165.在本实施例的一个可选实现方式中，所述显示模块，包括：
166.采集子模块，被配置为采集所述采集区域内的图像数据；
167.第二获取子模块，被配置为通过将所述虚拟信息叠加在所述图像数据获取显示图像；
168.第一显示子模块，被配置为显示所述显示图像。
169.在本实施例的一个可选实现方式中，该显示设备包括透明显示单元，所述显示模块，包括：
170.第二显示子模块，被配置为将所述文字内容显示在所述透明显示单元上，使得所述文字内容叠加显示在用户透过所述透明显示单元观看到的信息上。
171.在本实施例的一个可选实现方式中，该方法还包括：
172.第一接收模块，被配置为接收用户配置的目标语言；
173.所述显示模块之前，该方法还包括：
174.第二翻译模块，被配置为在所述虚拟信息中的文字内容与所述目标语言不相匹配时，将所述虚拟信息中的文字内容翻译成所述目标语言对应的目标内容。
175.本实施例中的数据处理装置与图2所示实施例及相关实施例中的数据处理方法对应一致，具体细节可以参见上述对图2所示实施例及相关实施例中的数据处理方法的描述，在此不再赘述。
176.根据本公开又一实施方式的数据处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该装置位于显示设备，该显示设备包括语音采集单元和显示单元，该数据处理装置包括：
177.第三获取模块，被配置为获取所述语音采集单元采集的语音数据；
178.第二处理模块，被配置为对所述语音数据进行处理获得虚拟信息，所述虚拟信息包括所述语音数据对应的文字内容；
179.第二输出模块，被配置为将所述虚拟信息输出至所述显示单元，以在所述显示单元上显示所述虚拟信息。
180.在本实施例的一个可选实现方式中，所述第二处理模块，包括：
181.第二预处理子模块，被配置为对所述语音数据进行预处理；
182.第二识别子模块，被配置为利用声学模型对经过预处理的所述语音数据进行识别获得对应的候选内容；
183.第二语义处理子模块，被配置为利用语义模型对所述候选内容进行语义处理得到所述文字内容。
184.在本实施例的一个可选实现方式中，所述显示设备包括图像采集单元，所述第二输出模块，包括：
185.第三获取子模块，被配置为获取所述图像采集单元采集到的图像数据；
186.第四获取子模块，被配置为通过将所述虚拟信息叠加在所述图像数据获取显示图像；
187.第一输出子模块，被配置为将所述显示图像输出至所述显示单元上进行显示。
188.在本实施例的一个可选实现方式中，所述显示单元包括透明显示单元，所述第二输出模块，包括：
189.第二输出子模块，被配置为将所述文字内容输出至所述透明显示单元上进行显示，使得所述文字内容叠加显示在用户透过所述透明显示单元观看到的信息上。
190.在本实施例的一个可选实现方式中，该装置还包括：
191.第二接收模块，被配置为接收用户配置的目标语言；
192.所述第二输出模块之前，所述装置还包括：
193.第三翻译模块，被配置为在所述虚拟信息中的文字内容与所述目标语言不相匹配时，将所述虚拟信息中的文字内容翻译成所述目标语言对应的目标内容。
194.本实施例中的数据处理装置与图3所示实施例及相关实施例中的数据处理方法对应一致，具体细节可以参见上述对图3所示实施例及相关实施例中的数据处理方法的描述，在此不再赘述。
195.图5是适于用来实现根据本公开实施方式的数据处理方法的电子设备的结构示意图。
196.如图5所示，电子设备500包括处理单元501，其可实现为cpu、gpu、fpga、npu等处理单元。处理单元501可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行本公开上述任一方法的实施方式中的各种处理。在ram503中，还存储有电子设备500操作所需的各种程序和数据。处理单元501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
197.以下部件连接至i/o接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。
198.特别地，根据本公开的实施方式，上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。
199.附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机
程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
200.描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
201.作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
202.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。