跨终端语音交互系统和方法与流程

1.本发明涉及终端交互技术领域，具体涉及一种跨终端语音交互系统和一种跨终端语音交互方法。

背景技术：

2.随着信息产业的迅速发展各种计算机业务系统的日渐复杂，人机交互的场景已不仅仅局限与传统的pc端键盘鼠标的操作方式。得益于本身的便携性与性能，手机、平板电脑等移动设备在人机交互中扮演了越来越重要的角色，语音交互作为一种更自然的交互方式也在快速发展。特别地，在数据可视化应用开发领域通过手机、平板电脑使用语音跨终端交互更是能让用户直接对可视化应用进行控制。
3.相关技术中，跨终端语音交互的方式一般是基于“长轮询”的技术通过控制端设备拾音后转换的结果与受控端进行通讯，再转换成交互指令。该方式存在以下缺点：(1)ai语音识别sdk对控制端设备软硬件限制要求高，技术实现成本不可控；(2)“长轮询”技术实现的实时性不佳，由于需要受控端主动拉取最新业务状态而非服务端主动推送，在两次不同的拉取之间可能产生一定的延时。

技术实现要素：

4.本发明为解决上述技术问题，提供了一种跨终端语音交互系统，在web端采用语音识别api接口获取语音识别结果，对控制端设备软硬件要求较低，大大降低了实现成本，并且采用基于websocket协议的常链接技术，能够有效地保证交互的实时性。
5.本发明采用的技术方案如下：
6.一种跨终端语音交互系统，包括：控制端设备、服务器和终端设备，其中，所述服务器通过websocket协议与所述终端设备相连；所述控制端设备用于根据语音识别api接口返回的语音识别结果生成相应的命令信息，并发送给所述服务器；所述服务器用于将所述命令信息派发给所述终端设备；所述终端设备用于根据所述命令信息执行相应的响应交互动作。
7.所述控制端设备具体用于：获取浏览器录音权限；采用浏览器录音功能进行录音，并获取相应的音频信息；调用所述语音识别api接口，并通过所述语音识别api接口对所述音频识别进行识别，以生成相应的语音识别结果。
8.所述控制端设备具体用于：对所述语音识别api接口进行信息认证，并判断信息认证是否成功；如果信息认证成功，则调用所述语音识别api接口。
9.一种跨终端语音交互方法，包括以下步骤：在控制端设备和终端设备之间设置服务器，其中，所述服务器通过websocket协议与所述终端设备相连；通过控制端设备根据语音识别api接口返回的语音识别结果生成相应的命令信息，并发送给所述服务器；通过所述服务器将所述命令信息派发给所述终端设备，其中，所述终端设备根据所述命令信息执行相应的相应交互动作。
10.跨终端语音交互方法还包括：获取浏览器录音权限；采用浏览器录音功能进行录音，并获取相应的音频信息；调用所述语音识别api接口，并通过所述语音识别api接口对所述音频识别进行识别，以生成相应的语音识别结果。
11.跨终端语音交互方法还包括：对所述语音识别api接口进行信息认证，并判断信息认证是否成功；如果信息认证成功，则调用所述语音识别api接口。
12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的跨终端语音交互方法。
13.一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的跨终端语音交互方法。
14.本发明的有益效果：
15.本发明在web端采用语音识别api接口获取语音识别结果，对控制端设备软硬件要求较低，大大降低了实现成本，并且采用基于websocket协议的常链接技术，能够有效地保证交互的实时性。
附图说明
16.图1为本发明实施例的跨终端语音交互系统的方框示意图；
17.图2为本发明实施例的跨终端语音交互方法的流程图。
具体实施方式
18.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.图1是根据本发明实施例的跨终端语音交互系统的方框示意图。
20.如图1所示，本发明实施例的跨终端语音交互系统可包括：控制端设备100、服务器200和终端设备300，其中，服务器200通过websocket协议与终端设备300相连。
21.其中，控制端设备100用于根据语音识别api接口返回的语音识别结果生成相应的命令信息，并发送给服务器；服务器200用于将命令信息派发给终端设备；终端设备300用于根据命令信息执行相应的响应交互动作。
22.具体而言，可在控制端设备100与终端设备300(即受控端设备)之间架设一台用于中转交互请求的服务器200，服务器200通过websocket协议与终端设备300相连，其中，终端设备300可为1台，也可为多台，如果终端设备300为多台，则多台终端设备300分别通过websocket协议与服务器200相连。控制端设备100在接收到语音识别api接口返回的语音识别结果后，可根据语音识别结果生成相应的命令信息，该命令信息包括交互指令。其中，不同的命令信息可对应不同的交互指令。
23.进一步而言，服务器200在接收到命令信息后，可将命令信息派发给相应的终端设备300，终端设备根据命令信息执行相应的响应交互动作。由此，利用websocket协议的服务端推送技术，能有效避免命令信息通信延时的问题。
24.可以理解的是，控制端设备100在对终端设备300进行控制时，可从语音识别api接
口直接调用语音识别结果，也就是说，可先再web端实现语音交互，并输出相应的语言识别结果。
25.根据本发明的一个实施例，控制端设备100具体用于：获取浏览器录音权限；采用浏览器录音功能进行录音，并获取相应的音频信息；调用语音识别api接口，并通过语音识别api接口对音频识别进行识别，以生成相应的语音识别结果。
26.根据本发明的一个实施例，控制端设备100具体用于：对语音识别api接口进行信息认证，并判断信息认证是否成功；如果信息认证成功，则调用语音识别api接口。
27.具体而言，可先在控制端设备100中安装浏览器，在创建音频环境后获取浏览器录音权限，并在成功获取浏览器音频权限后采用浏览器录音功能进行录音并获取相应的音频信息。
28.进一步而言，可申请适合ai语音识别的厂商的语音识别服务api接口的认证信息，以对语音识别api接口进行信息认证，以及在信息认证成功后调用语音识别api接口，并通过语音识别api接口对所述音频识别进行识别，以生成相应的语音识别结果。
29.由此，本发明使用浏览器录音功能在web端实现录音，然后通过websocket实现接口传输，获取对应的识别结果，对控制端设备软硬件要求低，安装浏览器即可。此外，基于websocket协议的“常链接”技术只需要在系统初始化时发送一次链接请求，链接成功后，服务器便能将最新的业务状态实时推送给受控端，能够能有效避免命令信息通信延时的问题。
30.综上所述，根据本发明实施例的跨终端语音交互系统，在控制端设备和终端设备之间设备服务器，服务器通过websocket协议与所述终端设备相连，通过控制端设备根据语音识别api接口返回的语音识别结果生成相应的命令信息，并发送给所述服务器，以及通过服务器将所述命令信息派发给所述终端设备，并通过终端设备根据所述命令信息执行相应的响应交互动作。由此，在web端采用语音识别api接口获取语音识别结果，对控制端设备软硬件要求较低，大大降低了实现成本，并且采用基于websocket协议的常链接技术，能够有效地保证交互的实时性。
31.对应上述实施例，本发明还提出一种跨终端语音交互方法。
32.如图2所示，本发明实施例的跨终端语音交互方法可包括以下步骤：
33.s1，在控制端设备和终端设备之间设置服务器。其中，服务器通过websocket协议与终端设备相连。
34.s2，通过控制端设备根据语音识别api接口返回的语音识别结果生成相应的命令信息，并发送给服务器。
35.s3，通过服务器将命令信息派发给终端设备。其中，终端设备根据命令信息执行相应的相应交互动作。
36.根据本发明的一个实施例，跨终端语音交互方法还包括：获取浏览器录音权限；采用浏览器录音功能进行录音，并获取相应的音频信息；调用语音识别api接口，并通过语音识别api接口对音频识别进行识别，以生成相应的语音识别结果。
37.根据本发明的一个实施例，跨终端语音交互方法还包括：对语音识别api接口进行信息认证，并判断信息认证是否成功；如果信息认证成功，则调用语音识别api接口。
38.需要说明的是，本发明实施例的跨终端语音交互方法可参照上述跨终端语音交互
系统的实施例，在此不再赘述。
39.根据本发明实施例的跨终端语音交互方法，在控制端设备和终端设备之间设置服务器，其中，服务器通过websocket协议与终端设备相连，以及通过控制端设备根据语音识别api接口返回的语音识别结果生成相应的命令信息，并发送给服务器，以及通过服务器将命令信息派发给终端设备，其中，终端设备根据命令信息执行相应的相应交互动作。由此，在web端采用语音识别api接口获取语音识别结果，对控制端设备软硬件要求较低，大大降低了实现成本，并且采用基于websocket协议的常链接技术，能够有效地保证交互的实时性。
40.对应上述实施例，本发明还提出一种计算机设备。
41.本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现上述实施例的跨终端语音交互方法。
42.根据本发明实施例的计算机设备，在web端采用语音识别api接口获取语音识别结果，对控制端设备软硬件要求较低，大大降低了实现成本，并且采用基于websocket协议的常链接技术，能够有效地保证交互的实时性。
43.对应上述实施例，本发明还提出一种非临时性计算机可读存储介质。
44.本发明实施例的非临时性计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例的跨终端语音交互方法。
45.根据本发明实施例的非临时性计算机可读存储介质，在web端采用语音识别api接口获取语音识别结果，对控制端设备软硬件要求较低，大大降低了实现成本，并且采用基于websocket协议的常链接技术，能够有效地保证交互的实时性。
46.在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。
47.在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
48.在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。
49.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员
可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
50.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
51.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
52.应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
53.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
54.此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
55.上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。