具有互补语言模型的识别引擎
2020-01-08

具有互补语言模型的识别引擎

一种用于识别口语单词序列的巨大词汇量语音识别系统(300),它包括输入装置,用于接收表示口语单词序列的时序的输入模式(320)。该系统进一步包括多个大词汇量的语音识别器(331、332、333),每个识别器与对应的不同大词汇量识别模型相关联。每个识别模型以巨大词汇量的一个特定部分为目标。所述系统包括控制器(350),该控制器用于将输入模式导入多个语音识别器中,并用于从多个语音识别器识别的单词序列中选择被识别的单词序列。

在另一实施例中,根据与语音输入相关的文件确定的语境选择至少一个识别模型。例如,如果用户口授有关健康主题的文件,则一个识别器可装载对识别有关健康的语音最佳的特定识别模型。例如,用户可通过从与系统模型相对应的可能语境目录中进行选择来明确确定文件的语境。在该情况下,例如,系统300可利用窗口中的选择箱以传统方式将这样一种目录呈现给用户。例如,系统也可以通过扫描已在文件中出现的文本或至此为止的口语并检查哪一个模型最适合识别该文本(例如,哪一个模型与此范围的文本具有最多的相同单词或单词序列)自动地确定语境。另外,语境识别符也可以与文件关联起来,系统300获得该识别符以确定最适合的模型。对于涉及诸如HTML网页的网页的语音,优选的是,在文件中确定文件的语境,或使文件语境与文件相关联。这能以标签的形式来完成,并由与语音相关的初始网页的创建者将其密封起来。例如标签能以类似运动、健康、娱乐等的文本主题形式明确确定语境。该确定也可以是非直接的,例如它可以是诸如语境编号的识别符的形式,或者甚至是确定语境位置的链接(例如超文本链接)。在后一种情况下,系统300能从隐含的语境确定中导出实际语境(例如通过将语境编号映射给一个识别模型,或通过访问超文本链接而获得语境信息)。

对于完全识别,优选的是也利用句子级别匹配系统140,该匹配系统基于语言模型(LM)进一步对匹配进行限制,以便使被研究的路径是与作为正确序列的单词序列相对应的那些路径,其中所述正确序列是由语言模型确定的。因而这些语言模型构成了等式(1)的第二项P(W)。将声模型与语言模型的结果相结合产生了单元匹配子系统120的输出,该输出就是被识别的句子(RS)152。模式识别中使用的语言模型可包括语言和识别任务的句法和/或语义约束142。基于句法约束的语言模型通常是指语法144。语言模型使用的语法144提供了单词序列W=w1w2w3...wq的概率,原则上其由下式给出:P(W)=P(w1)P(w2|w1).P(w3|w1w2)...P(wq|w1w2w3...wq)由于实际上不能为给定语言中的所有单词和所有序列长度可靠地估算条件单词概率,因此广泛使用N个字母组的单词模型。在N个字母组模型中,项P(wj|w1w2w3...wj-1)与P(wj|wj+N+1...wj-1)接近。实际上使用双字母组或三字母组。在三字母组中,项P(wj|w1w2w3...wj-1)与P(wj|wj-2wj-1)接近。

在一个优选实施例中,模型选择器360通过检查哪一个可用识别模型最适合当时的识别,从而能积极设法改进识别。为此模型选择器360至少控制一个检验识别器,该识别器示为识别器334。检验识别器334与一个还没有被有效识别器331到333利用的识别模型耦合。也将部分(或者甚至全部)接收到的语音馈入到检验识别器中。将检验识别的输出与控制器350的选择输出或各有效识别器331到333的输出作比较。如果检验识别器334的识别结果优于有效识别器331到333中一个的识别结果,则装入该检验识别模型(即,检验识别器334使用时的模型),使其供一个有效识别器使用。优选地,换掉给出最差识别结果的识别模型(可能除基础识别模型以外,该模型总是被使用着)。

图1表示大/巨大词汇量识别器的结构;图2表示完整的单词模型;图3表示根据本发明的系统的方框图;图4表示识别模型的层级;以及图5表示根据本发明分布的系统的方框图。

为实现该目的,系统的特征在于:该系统包括数量为N的多个大词汇量语音识别器,每个识别器都与相应的、不同的大词汇量识别模型关联;每个识别模型都以巨大词汇量的特定部分为目标;而且该系统包括控制器,所述控制器能将输入模式导入多个语音识别器,并从被多个语音识别器识别的单词序列中选择被识别的单词序列。

在优选实施例中,如图5所示,识别系统是分布式的。分布式系统包括服务器站540和至少一个用户站。所示为三个用户站510、520和530,其中仅为用户站520示出了进一步的细节。可利用传统计算机技术实现该站。例如,用户站520可由台式个人计算机或工作站构成,而服务器站540可由PC服务器或工作站服务器构成。计算机可在计算机处理器中装载的适当程序的控制下运行。服务器站540和用户站510、520和530通过网络550连接。例如,网络550可以是office环境下的局域网、或宽域网、优选为因特网的任何合适网络。为了通过网络550进行通信,这些站分别包括通信装置522和542。可以使用任何适于结合网络550一起使用的通信装置。通常,通过结合硬件和软件构成通信装置,所述硬件是例如通信接口或调制解调器,软件是支持诸如因特网TCP/IP协议的特定通信协议的软件驱动器的形式。用户站520包括例如通过接口528从用户处接收语音的装置。用户站520进一步包括对语音信号进行预处理以便使其适合于向服务器站540传送的装置。例如,用户站可包括与图1的频谱分析子系统110类似的频谱分析子系统526。服务器站540执行如针对图3的系统300描述的所有其它任务。例如,服务器站540包括具有多个识别器的识别系统543(与图3的识别系统335类似)、控制器544(与图3的控制器350类似)、模型选择器545(与图3的选择器360类似)、和存储模型的存储器546(与图3的存储器340类似)。

发明内容

具有互补语言模型的识别引擎

一种用于识别口语单词序列的巨大词汇量语音识别系统(300),它包括输入装置,用于接收表示口语单词序列的时序的输入模式(320)。该系统进一步包括多个大词汇量的语音识别器(331、332、333),每个识别器与对应的不同大词汇量识别模型相关联。每个识别模型以巨大词汇量的一个特定部分为目标。所述系统包括控制器(350),该控制器用于将输入模式导入多个语音识别器中,并用于从多个语音识别器识别的单词序列中选择被识别的单词序列。

附图说明

背景技术

在图3中示出了独立系统300,其优选利用诸如PC的计算机实施。标记310表示用于从用户处接收语音表示信号的互连装置。例如,话筒可与互连装置310连接。可以理解的是,例如,也可以通过电话或网络从远处预先录下或检索语音表示信号。系统300包括接口320,用以接收来自用户的输入。例如,这也可以利用传统的声卡实现。如果接口具有用于接收模拟形式语音的输入端,则接口优选包括用于将模拟语音转化成适合于语音识别系统330进一步处理的格式的数字样本。如果接口具有用于接收数字形式语音的输入端,优选地,转换器能够将数字数据转化成可进一步处理的合适的数字格式。例如,正象针对图1的频谱分析子系统110所描述的,语音识别系统330通常分析输入信号。根据本发明,语音识别系统330包括多个大词汇量的语音识别器,每个识别器都与对应的、不同的大词汇量识别模型关联。正如图3的标记335所示,对于图1所述的典型识别,各识别器可共用图1中不受模型约束的频谱分析子系统110。图3表示利用三个分离的识别器331、332和333。识别器可使用相同算法,其中差别在于所用的诸如词汇表和语言模型的模型。语言识别最好与说话者无关,并能允许连续语音输入。实质上,语音识别是公知的,而在许多文件中已经公开了该内容,这些文件包括例如与US序列号08/425304(PDH91136)对应的EP92202782.6,与US序列号08/751377(PDH91138)对应的EP92202783.4,与US5634083(PDH93034)对应的EP94200475.5,所有这些申请都转让给本申请的受让人。从识别器几乎在同一时刻独立识别同一语音输入的意义上看,识别器“并行”操作。这可利用每个识别器的单独资源来实现,这些资源例如是“并行”操作处理器中的单独处理器或处理单元,其中并行操作处理器例如是VLIW处理器。利用具有足够高性能的传统顺序处理器也可能获得类似的“并行”性能,其中每个识别器执行独立任务。优选地,在系统已经接收到单词后的单词识别过程中不会出现明显延迟的意义上,识别是实时的。

图3表示根据本发明的语音识别系统300的方框图。为将被识别的语音转换成文本或类似表达的应用而具体描述了系统工作的例子。这些原文表达可用于口授目的,其中将文本表达输入(enter)到例如单词处理器或用于确定数据库中的字段等的文本字段中。对于口授,当前大词汇量识别器可支持高达60000个单词的有效词汇表和字典。很难获得足够的相关数据建立精度足够高地识别更大量单词的模型。通常,用户可将有限数量的单词增添到有效词汇表/字典中。这些单词可从300000到500000个单词的后台词汇表(其还包括单词的声录音)中检索到。为了口授或类似目的,例如巨大词汇表可由至少100000个有效单词或甚至超过300000个有效单词组成。可以理解的是,具体对于通过单击链接产生完全不同语境的因特网环境来说,优选的是能有效地识别许多后台词汇表的单词。对于其它诸如识别名称的识别任务,通常将其模型建立成具有附属于它的某种优先命名概率形式的平面目录,但对于它不具备高质量的语言模型,因此总是将超过50000个单词的词汇表归入巨大词汇表。

应当注意的是,利用并行语音识别引擎是公知的。US5754978描述了并行利用识别引擎的内容。所有引擎具有较高精度,例如95%。如果引擎的5%的不准确度不重叠,就能提高识别精度。为确保不准确度不会完全重叠,引擎是不同的。可以选择的是,引擎可以类似,在该情况下,一个引擎的输入信号会受到轻微干扰或一个引擎受到轻微干扰。比较器根据引擎输出之间的一致度比较被识别的文本并接受或拒绝该文本。由于该系统需要精确的识别引擎,其不存在巨大词汇表,因此该系统不能提供解决巨大词汇量识别的方案。系统也不使用以巨大词汇表的特定部分为目标的不同模型。