JP5852550B2 - Acoustic model generation apparatus, method and program thereof - Google Patents
Acoustic model generation apparatus, method and program thereof Download PDFInfo
- Publication number
- JP5852550B2 JP5852550B2 JP2012244756A JP2012244756A JP5852550B2 JP 5852550 B2 JP5852550 B2 JP 5852550B2 JP 2012244756 A JP2012244756 A JP 2012244756A JP 2012244756 A JP2012244756 A JP 2012244756A JP 5852550 B2 JP5852550 B2 JP 5852550B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- acoustic
- label
- likelihood
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、教師なし適応によって音響モデルを生成する音響モデル生成装置とその方法とプログラムに関する。 The present invention relates to an acoustic model generation apparatus, method and program for generating an acoustic model by unsupervised adaptation.
音声認識では、一般的に音声ファイルと音声ファイルの発話内容を表す正解テキストとを学習データとして、音響モデルの学習(適応)を行う。なお「音響モデルの学習(適応)」とは、学習処理により、学習データ中の事例ができるだけ多く正しく認識できるように、音響モデルのパラメータを最適化する処理を意味する。また、この音響モデルの適応は、音声ファイルに対応する読みを人が書き起こすこと等によって作成される正解テキストを学習データとして用いる教師あり適応と、音声認識結果等を学習データとして用いる教師なし適応とに大別される。 In speech recognition, generally, learning (adaptation) of an acoustic model is performed using a speech file and correct text representing the utterance content of the speech file as learning data. Note that “acoustic model learning (adaptation)” means a process of optimizing the parameters of the acoustic model so that as many examples as possible in the learning data can be correctly recognized by the learning process. In addition, the adaptation of the acoustic model is based on supervised adaptation using the correct text created as a learning data by the person writing up the reading corresponding to the speech file, and unsupervised adaptation using the speech recognition result as the learning data. It is roughly divided into
ここで、教師なし適応によって音響モデルの適応を行う場合、認識精度の高い音声認識結果を正解テキストとして用いる必要がある。しかし、認識精度の低い音声認識結果を正解テキストとして用いた場合、音響モデルの誤った適応によって、音響モデルの精度を低下させてしまう可能性がある。 Here, when the acoustic model is adapted by unsupervised adaptation, it is necessary to use a speech recognition result with high recognition accuracy as the correct text. However, when a speech recognition result with low recognition accuracy is used as a correct text, there is a possibility that the accuracy of the acoustic model is lowered due to incorrect adaptation of the acoustic model.
この問題に対して、音声認識結果に信頼度を付与し、信頼度の高さに応じて音声認識結果を選択し、選択した音声認識結果を用いて音響モデルの適応を行う手法(例えば特許文献1)が知られている。その手法は、信頼度が基準値を超える発話系列を学習用データとして用いる考えである。 To solve this problem, a method of assigning a confidence level to a speech recognition result, selecting a speech recognition result according to the reliability level, and adapting an acoustic model using the selected speech recognition result (for example, Patent Documents) 1) is known. The technique is based on the idea of using an utterance sequence whose reliability exceeds a reference value as learning data.
従来の、信頼度が基準値を超える発話系列を学習用データとして用いる手法では、学習効率が高くない課題があった。つまり、信頼度がある一定値以上の値を示すということは、音響モデルがその音響特徴量に既に適応できていることに他ならない。よって、そのような発話系列を用いても音響モデルの精度を低下させてしまうことは無いが、音響モデル学習の進捗が遅く効率的でない。 The conventional method of using an utterance sequence whose reliability exceeds a reference value as learning data has a problem that the learning efficiency is not high. That is, the fact that the reliability indicates a value equal to or greater than a certain value is nothing other than that the acoustic model has already been adapted to the acoustic feature amount. Therefore, even if such an utterance sequence is used, the accuracy of the acoustic model is not reduced, but the progress of acoustic model learning is slow and not efficient.
本発明は、この課題に鑑みてなされたものであり、音響モデル学習を効率よく行うことのできる音響モデル生成装置とその方法とプログラムを提供することを目的とする。 The present invention has been made in view of this problem, and an object of the present invention is to provide an acoustic model generation apparatus, method and program capable of efficiently performing acoustic model learning.
本発明の音響モデル生成装置は、ラベル生成用音声認識部と、データ選択部と、音響モデル学習部と、を具備する。ラベル生成用音声認識部は、入力される音声信号を言語モデルとベース音響モデルを参照して音声認識し、当該音声認識結果にラベルを付与すると共にその信頼度と音響尤度を出力する。データ選択部は、ラベル生成用音声認識部が出力する音声信号とそのラベルと信頼度を入力として、上記信頼度が信頼度閾値より大でかつ音響尤度が尤度閾値よりも小さな音声信号を選択する。音響モデル学習部は、データ選択部が選択した音声信号に、ベース音響モデルを学習させて学習済み音響モデルを生成する。 The acoustic model generation device of the present invention includes a label generation speech recognition unit, a data selection unit, and an acoustic model learning unit. The label generation speech recognition unit recognizes the input speech signal by referring to the language model and the base acoustic model, assigns a label to the speech recognition result, and outputs its reliability and acoustic likelihood. The data selection unit receives the speech signal output from the label recognition speech recognition unit, its label, and the reliability, and receives the speech signal having the reliability greater than the reliability threshold and the acoustic likelihood smaller than the likelihood threshold. select. The acoustic model learning unit generates a learned acoustic model by causing the audio signal selected by the data selection unit to learn the base acoustic model.
本発明の音響モデル生成装置によれば、音声認識結果の信頼度が所定値以上でかつ音響尤度が所定値よりも小さな音声信号を、音響モデルの学習に用いることができる。つまり、音響モデルの学習が十分進んでいないが言語的には正しい音声信号を用いることで、音響モデルの学習効率を向上させることが可能になる。 According to the acoustic model generation device of the present invention, a speech signal having a speech recognition result having a reliability greater than or equal to a predetermined value and an acoustic likelihood smaller than the predetermined value can be used for learning the acoustic model. In other words, the learning efficiency of the acoustic model can be improved by using a speech signal that is not sufficiently advanced but is linguistically correct.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
図1に、この発明の音響モデル生成装置100の機能構成例を示す。その動作フローを図2に示す。音響モデル生成装置100は、ラベル生成用音声認識部10と、言語モデル20と、ベース音響モデル30と、データ選択部40と、音響モデル学習部50と、制御部60と、を具備する。音響モデル生成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
FIG. 1 shows an example of the functional configuration of an acoustic model generation apparatus 100 according to the present invention. The operation flow is shown in FIG. The acoustic model generation device 100 includes a label generation
ラベル生成用音声認識部10は、音声信号を入力として言語モデルとベース音響モデルを参照して上記音声信号にラベルを付与すると共にその信頼度と音響尤度を出力する(ステップS10)。入力される音声信号は、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換され、離散値化された音声信号の所定数(例えば320個)を1フレームとしたフレーム毎に音響特徴量に変換される。図1ではA/D変換部及び特徴量算出部の表記は省略している。音響特徴量は、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。
The label generation
ラベル生成用音声認識部10は、フレーム毎に算出される音響特徴量のベース音響モデル30内の音響尤度と、言語モデル20を参照して言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する。この時、音声認識結果として出力される音声ファイル毎に、漢字かなまじりの形態素と読みから成る音声認識結果に、音響モデル学習時に用いる読みを元にしたラベルと音響尤度と信頼度とが付与される。音声ファイルとは、音声認識対象の例えば一文単位のことである。
The speech recognition unit for
図3に、音声ファイルの音響尤度と言語尤度と信頼度の例を示す。音声ファイル1の音声認識結果が「お電話ありがとうございます。」とした場合のラベルが「、おでんわ、ありがとう、ござい、ます、」、例えばその音響尤度が8000、言語尤度が-800、信頼度が0.80である。音声ファイル2の音声認識結果が「ご用件を伺います。」、そのラベルが「、ごようけん、を、うかがい、ます、」、例えばその音響尤度が4500、言語尤度が-900、信頼度が0.80である。 FIG. 3 shows an example of acoustic likelihood, language likelihood, and reliability of an audio file. When the voice recognition result of the voice file 1 is “Thank you for calling”, the label is “Thank you, odenwa, thank you,” for example, the acoustic likelihood is 8000, the language likelihood is -800, The reliability is 0.80. The voice recognition result of the voice file 2 is “I will ask you for your business.”, Its label is “, Goyoken, wa ga suru, wa”, for example, its acoustic likelihood is 4500, language likelihood is -900, The reliability is 0.80.
このように、ラベル生成用音声認識部10の出力する音声信号と音声認識結果に対して、ラベルと音響尤度と言語尤度と信頼度が付与される。ラベル生成用音声認識部10は公知の音声認識技術によって実現される。
As described above, the label, the acoustic likelihood, the language likelihood, and the reliability are given to the voice signal output from the label generating
データ選択部40は、ラベル生成用音声認識部10が出力する音声信号とそのラベルと信頼度を入力として、上記信頼度が信頼度閾値より大でかつ音響尤度が尤度閾値よりも小さな音声信号他を含む音声データを選択する(ステップS40)。つまり、データ選択部40は、音声認識結果の信頼度が一定程度あるが、音響尤度が低い音声データを選択する。図3の例では、例えば音声ファイル2の「ご用件を伺います。」が選択される。選択された音声データは、図1に破線で示すように教師なし学習音声DB70に教師なし学習音声として、一旦、蓄えても良い。
The
データ選択部40は、例えば信頼度が0.80以上で、音響尤度が4500と例えば音響尤度が平均値よりも低い音声データを選択する。このような音声データは、音声認識は正しく行われているが、その音声データに対する音響モデルの学習が進んでいない音声データである。
The
音響モデル学習部50は、データ選択部40が選択した音声データに含まれる音声信号に、ベース音響モデル30を学習させて学習済み音響モデルを生成する(ステップS50)。音響モデルの学習は、データ選択部40が選択した音声信号を用いて、ベース音響モデル30を学習させて学習済み音響モデル生成する。学習データ量が多い場合は、繰り返し学習を行う。音響モデルの適応手法は限定されない。例えば、バームウェルチ(Baum-Weltch)のアルゴリズムによる最尤推定に基づくML(Maximum Likelihood)学習、または識別学習の手法を用いても良い。音響モデル学習部50が出力する学習済み音響モデルは、外部の学習済み音響モデル80に蓄えられる。制御部60は、上記した各部の時系列的な動作を音響モデル生成装置100が動作を終了するまで制御する(ステップS60)。
The acoustic
以上説明したように、この発明の音響モデル生成装置100によれば、音声認識結果の信頼度が所定値以上でかつ音響尤度が所定値よりも小さな音声データ、つまり、音声認識は正しく行われているが音響モデルの学習が進んでいない音声データを音響モデルの学習に用いるので、音響モデルの学習効率を向上させることが可能になる。 As described above, according to the acoustic model generation device 100 of the present invention, the voice data whose reliability of the voice recognition result is equal to or higher than the predetermined value and whose acoustic likelihood is smaller than the predetermined value, that is, the voice recognition is correctly performed. However, since the sound data that has not yet been learned for the acoustic model is used for the learning of the acoustic model, the learning efficiency of the acoustic model can be improved.
図4に、この発明の音響モデル生成装置200の機能構成例を示す。その動作フローを図5に示す。音響モデル生成装置200は、上記した音響モデル生成装置100に対してラベル変換再認識部210を備える点のみが異なる。
FIG. 4 shows a functional configuration example of the acoustic model generation apparatus 200 of the present invention. The operation flow is shown in FIG. The acoustic model generation device 200 is different from the above acoustic model generation device 100 only in that a label
ラベル変換再認識部210は、ラベル生成用音声認識部10が出力するラベルを用いて、ベース音響モデル30を参照して文法型音声認識を行い、音響尤度を再付与して上記データ選択部40に出力する(ステップS210)。ここで、文法型音声認識とは、読みの決定や無音の挿入位置の決定を形態素の並び、すなわち文法に従って音声認識する方法である。
The label
音声認識結果に含まれる信頼度は、言語モデルの制約も受けたものになるため、無音の挿入位置を音響モデルのみで決定する場合と異なる可能性がある。そこで、読みの決定や無音の挿入位置の決定について、言語モデルを用いず音響モデルのみを用いた文法型音声認識で再認識を行う。 Since the reliability included in the speech recognition result is also limited by the language model, it may be different from the case where the silence insertion position is determined only by the acoustic model. Therefore, re-recognition is performed by grammatical speech recognition using only the acoustic model, not the language model, for the determination of reading or the insertion position of silence.
図6に、音声ファイル「今日は晴れです」の一文に対応する文法の例を示す。この一文に対する開始〜終了までの状態遷移の累積尤度が最大の経路(パス)を、音声認識結果とする。この時に、無音の長さと、複数の読みを持つ単語の読みも決定される。 FIG. 6 shows an example of a grammar corresponding to one sentence of an audio file “It is sunny today”. A route (path) having the maximum cumulative likelihood of state transition from the start to the end for this sentence is taken as a speech recognition result. At this time, the length of silence and the reading of a word having a plurality of readings are also determined.
音響モデル生成装置200のデータ選択部40は、無音の長さと単語の読みが文法に基づいて決定された音声データを選択するので、無音の精度向上や複数読みへの対応が可能となり、音響モデル学習部50における音響モデルの学習精度をより向上させることが出来る。
Since the
図7に、この発明の音響モデル生成装置300の機能構成例を示す。音響モデル生成装置300は、上記した音響モデル生成装置100に対して、ラベル生成用音声認識部10がラベル生成用音声認識部310に置き換わった点のみが異なる。
FIG. 7 shows a functional configuration example of the acoustic model generation apparatus 300 of the present invention. The acoustic model generation apparatus 300 is different from the above-described acoustic model generation apparatus 100 only in that the label generation
ラベル生成用音声認識部310は、音声信号を入力として言語モデル20とベース音響モデル30を参照して音声信号の音声認識を行い信頼度が所定値以上の音声信号のみにラベルを付与して出力するものである。つまり、信頼度の低い音声データは捨て、信頼度の高い音声データを音響モデルの学習用のデータに用いる考えである。このようにすることで、データ選択部40の処理の前で信頼度の低い音声データが除外される。
The label generation speech recognition unit 310 receives speech signals, performs speech recognition of the speech signals with reference to the
信頼度の所定値は、音声認識結果を信じるか否かの閾値であり、例えば0.8等と設定する。信頼度の所定値を、例えば高めに設定すると、データ選択部40で選択されるデータ量が減少するため、同じ量の入力音声信号に対する音響モデル生成装置300の処理時間は短縮される。このように、音響モデル生成装置300の処理速度を、音響モデル生成装置100よりも短縮することが出来る。
The predetermined value of the reliability is a threshold value for determining whether or not to believe the voice recognition result, and is set to 0.8, for example. If the predetermined value of the reliability is set to a high value, for example, the amount of data selected by the
図8に、この発明の音響モデル生成装置400の機能構成例を示す。音響モデル生成装置400は、上記した音響モデル生成装置100に対して、データ選択部40がデータ選択部440に置き換わった点のみが異なる。
FIG. 8 shows a functional configuration example of the acoustic model generation apparatus 400 of the present invention. The acoustic model generation device 400 differs from the acoustic model generation device 100 described above only in that the
データ選択部440は、ラベル生成用音声認識部10が出力する音声信号とそのラベルと信頼度を入力として、信頼度が信頼度閾値より大(例えば信頼度>0.8)でかつ音響尤度が尤度閾値よりも小さくかつ第2尤度閾値よりも大きな音声データを選択するものである。尤度閾値を例えば、音響尤度の分布の平均値μとし、第2尤度閾値を例えばμ−σとする。そのようにすると音響尤度が平均よりも1σ以上小さいものは、学習の対象外にすることが出来る。
The
この結果、音響尤度が小さすぎる音声データを音響モデルの学習対象から除外することができ、音響モデルの学習精度を向上させる効果が期待できる。 As a result, it is possible to exclude voice data having an acoustic likelihood that is too small from the learning target of the acoustic model, and expect the effect of improving the learning accuracy of the acoustic model.
図9に、この発明の音響モデル生成装置500の機能構成例を示す。音響モデル生成装置500は、上記した音響モデル生成装置100に対して、音響尤度閾値決定部510を備える点と、データ選択部40が音響尤度閾値決定部510で決定した閾値を用いてデータ選択を行うデータ選択部540である点で異なる。
FIG. 9 shows a functional configuration example of the acoustic model generation apparatus 500 of the present invention. The acoustic model generation device 500 uses the points provided with the acoustic likelihood threshold
音響尤度閾値決定部510は、ラベル変換再認識部10が出力する音響尤度の分布に対応させて尤度閾値を自動的に生成する。音響尤度は、確率値(0〜1の値)とは異なり対数尤度値であるため所定の範囲を決めるのが難しい。そこで、音響尤度閾値決定部510は、ラベル生成用音声認識部10が出力する音響尤度の分布から例えば平均μと標準偏差σを求め、閾値を、例えば平均μ、又はμ−σ、又はμ+σ等の値に自動的に決定する。
The acoustic likelihood
また、音響尤度のヒストグラムを作成して、そのヒストグラムから頻度の多い範囲に閾値を設定するようにしても良い。例えば、ヒストグラムの頻度の平均を取り、その頻度平均より多い範囲を頻度が多い範囲とする。データ選択部540は、音響尤度閾値決定部510で決定した閾値に基づいて音声データを選択する。音響モデル生成装置500によれば、データ選択部540の尤度閾値を設定する手間が省ける効果が得られる。
Alternatively, a histogram of acoustic likelihood may be created, and a threshold value may be set in a frequency range from the histogram. For example, the frequency of the histogram is averaged, and a range higher than the frequency average is set as a frequency-high range. The
図10に、この発明の音響モデル生成装置600の機能構成例を示す。音響モデル生成装置600は、上記した音響モデル生成装置100に対して、教師なし学習音声データベース670(以降データベースはDBと表記)と音響モデル適応部650と閾値評価部660とを備える点と、データ選択部40が複数データ選択部640に置き換わった点で異なる。
FIG. 10 shows a functional configuration example of the acoustic model generation apparatus 600 of the present invention. The acoustic model generation device 600 includes an unsupervised learning speech database 670 (hereinafter referred to as DB), an acoustic
複数データ選択部640は、複数の信頼度の音声尤度データを選択する。例えば、信頼度0.9以上、信頼度0.8以上、信頼度0.75以上、の音声データを選択する。各信頼度値で選択された音声データは、教師なし学習音声DB670に蓄えられる。
The multiple
音響モデル適応部650は、1回の学習で済む適応音響モデルを例えばMAP適応(最大事後確率推定)等で作成する。音響モデル適応部650は、ベース音響モデル30の音響モデルを教師なし学習音声DB670に蓄えられた信頼度値毎にMAP適応させる。
The acoustic
閾値評価部660は、信頼度値毎にMAP適応させた音響モデルを、開発データセットを用いて評価する。開発データセットとは書き起こしテキスト付きの音声データのことである。閾値評価部660は、開発データセットに対する音声認識精度あるいは音響尤度が最も高い信頼度値を用いて音声データを選択し、音響モデル学習部50はその音声データに含まれる音声信号を、教師なし学習データとしてML(尤度最大化)学習や識別学習を繰り返し行う。
The
音響モデル生成装置600によれば、複数の信頼度閾値をMAP適応等の少ない計算量で得られる音響モデルで評価して最適な信頼度閾値を求め、その最適な信頼度閾値を用いて音響モデルの繰り返し学習を行うので、複数の信頼度閾値の全てについて繰り返し学習を行うよりも音響モデルの生成に要する時間を削減することが出来る。 According to the acoustic model generation apparatus 600, an optimum reliability threshold value is obtained by evaluating a plurality of reliability threshold values with an acoustic model obtained with a small amount of calculation such as MAP adaptation, and the acoustic model is obtained using the optimum reliability threshold value. Therefore, it is possible to reduce the time required for generating the acoustic model, compared to the case where the learning is repeatedly performed for all of the plurality of reliability threshold values.
図11に、この発明の音響モデル生成装置700の機能構成例を示す。音響モデル生成装置700は、上記した音響モデル生成装置100に対して、既存音声DB710を備える点と、音響モデル学習部50が音響モデル学習部750に置き換わった点で異なる。
FIG. 11 shows a functional configuration example of the acoustic
既存音声DB710は、ベース音響モデル30を作成するのに用いた音声データを蓄えたデータベースである。音響モデル学習部750は、ベース音響モデル30を、データ選択部40が選択した音声データと既存音声DB710の音声データとを参照して適応学習させる。
The existing voice DB 710 is a database that stores voice data used to create the base
音響モデル生成装置700によれば、既存音声DB710と、生成された教師なし学習音声とを組み合わせて音響モデルを学習するので、音響モデルの精度を向上させる効果が期待できる。つまり、教師なし学習音声には誤りが含まれる可能性があるのに対して、既存音声DB710の音声に誤りは無い、その誤りの無い音声データを用いることで教師なし学習音声で学習する音響モデルを矯正することが出来る。要するに、誤りの無い音声データを音響モデル学習に併用することで、教師なし学習音声のみで音響モデルを学習するよりも音響モデルの精度を向上させることが出来る。
According to the acoustic
図12に、この発明の音響モデル生成装置800の機能構成例を示す。音響モデル生成装置800は、音響モデル精製装置700に対して擬似非認識対象信号DB820を備える点で異なる。
FIG. 12 shows a functional configuration example of the acoustic
擬似非認識対象信号DB820は、擬似非認識対象信号を記録している。擬似非認識対象信号は、妨害用信号に1以下のゲインを乗じて音量レベルを小さくした信号である。妨害用信号は、例えば駅のホーム上の雑踏の背景雑音に人の話声が重畳したような音声信号であり、例えば、定常的な背景雑音に非定常な人の声が重なって収音された音声信号である。背景雑音の雑踏音はなくても良い。クリーン音声の人の声で有っても良い。つまり、非定常な音声信号であることが妨害用信号のポイントである。
The pseudo non-recognition
擬似非認識対象信号は、妨害用信号に1以下のゲインを乗じて音量レベルを小さくすることで、認識対象の音声と区別し、認識対象の音声を非音声として学習してしまう可能性を低減させ、非音声モデルの雑音耐性を高めるものである。擬似非認識対象信号は、妨害用信号を入力とするゲイン調整部810で生成することが出来る。
The pseudo non-recognition target signal is reduced from the recognition target voice by multiplying the interference signal by a gain of 1 or less to reduce the volume level, thereby reducing the possibility of learning the recognition target voice as non-speech. This increases the noise resistance of the non-voice model. The pseudo non-recognition target signal can be generated by the
音響モデル学習部850は、ベース音響モデル30を、データ選択部40が選択した音声データと既存音声DB710の音声データとを参照して適応学習すると共に、擬似非認識対象信号を非音声信号としてベース音響モデル20の非音声モデルを学習する。この非音声モデルは、擬似非認識対象信号に適応させることによって、非定常的な妨害用信号、つまり背景雑音による誤認識結果の湧き出しを低減するモデルとすることが出来る。
The acoustic
このように音響モデル生成装置800は、音響モデル生成装置700の効果に加えて、非音声モデルの雑音耐性を向上させることが可能である。
Thus, in addition to the effects of the acoustic
以上説明したようにこの発明の音響モデル生成装置によれば、音声認識結果の信頼度が所定値以上でかつ音響尤度が所定値よりも小さな音声データを、音響モデルの学習に用いることができる。この結果、音響モデルの学習効率を向上させることが可能になる。 As described above, according to the acoustic model generation device of the present invention, it is possible to use speech data whose speech recognition result reliability is equal to or higher than a predetermined value and whose acoustic likelihood is smaller than the predetermined value for learning an acoustic model. . As a result, the learning efficiency of the acoustic model can be improved.
なお、上記した音響モデル生成装置100に、音響モデル生成装置200の文法型音声認識を用いる考えを組み合わせても良い。また、音響モデル生成装置100と200に、音響モデル生成装置300の信頼度の低い音声データは捨てる考えを組み合わせても良い。また、それらの音響モデル生成装置100と200と300に、音響尤度が低過ぎる音声データは取り除いて教師なし適応を行う音響モデル生成装置400の考えを組み合わせても良い。また、音響モデル生成装置100と200と300と400に、音響尤度の閾値を自動設定する音響モデル生成装置500の考えを組み合わせても良い。また、音響モデル生成装置100と200と300と400と500に、複数の信頼度閾値をMAP適応等の少ない計算量で得られる音響モデルで評価して最適な信頼度閾値を求め、その最適な信頼度閾値を用いる考えの音響モデル生成装置500の考えを組み合わせても良い。更に、既存音声DB710を組み合わせて用いる音響モデル生成装置700の考えを組み合わせても良い。また、非音声モデルの雑音耐性を向上させた音響モデル生成装置800の考えを組み合わせも良い。このように、各実施例はそれぞれを組み合わせて構成することが可能であり、それぞれの効果を得ることが出来る。
The above-described acoustic model generation apparatus 100 may be combined with the idea of using the grammatical speech recognition of the acoustic model generation apparatus 200. Further, the acoustic model generation apparatuses 100 and 200 may be combined with the idea of discarding audio data with low reliability of the acoustic model generation apparatus 300. Further, the acoustic model generation apparatuses 100, 200, and 300 may be combined with the idea of the acoustic model generation apparatus 400 that performs unsupervised adaptation by removing voice data whose acoustic likelihood is too low. Further, the acoustic model generation apparatuses 100, 200, 300, and 400 may be combined with the idea of the acoustic model generation apparatus 500 that automatically sets a threshold value of acoustic likelihood. In addition, the acoustic model generation apparatuses 100, 200, 300, 400, and 500 evaluate a plurality of reliability thresholds with an acoustic model obtained with a small amount of calculation such as MAP adaptation to obtain an optimal reliability threshold, You may combine the idea of the acoustic model production | generation apparatus 500 of the idea which uses a reliability threshold value. Furthermore, you may combine the idea of the acoustic model production |
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 When the processing means in the above apparatus is realized by a computer, the processing contents of the functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることが出来る。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording media, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (6)
上記ラベル生成用音声認識部が出力する音声信号とそのラベルと信頼度と音響尤度を入力として、上記信頼度が信頼度閾値より大でかつ上記音響尤度が尤度閾値よりも小さな音声信号を選択するデータ選択部と、
上記データ選択部が選択した上記音声信号に、上記ベース音響モデルを学習させて学習済み音響モデルを生成する音響モデル学習部と、
上記ラベル生成用音声認識部が出力する音響尤度の分布から平均、標準偏差、ヒストグラムの何れか一つを求め、上記平均、上記標準偏差、上記ヒストグラムのうち、少なくとも何れか一つを用いて、上記尤度閾値を自動的に生成する音響尤度閾値決定部
を具備する音響モデル生成装置。 A speech recognition unit for label generation that recognizes speech by referring to an input speech signal with reference to a language model and a base acoustic model, gives a label to the speech recognition result, and outputs its reliability and acoustic likelihood;
The speech signal output from the label generating speech recognition unit, its label, reliability, and acoustic likelihood, and the reliability is greater than the reliability threshold and the acoustic likelihood is smaller than the likelihood threshold. A data selection section for selecting
An acoustic model learning unit for generating the learned acoustic model by learning the base acoustic model to the audio signal selected by the data selection unit;
Obtain one of average, standard deviation, and histogram from the distribution of acoustic likelihood output by the label generating speech recognition unit, and use at least one of the average, standard deviation, and histogram An acoustic model generation apparatus comprising an acoustic likelihood threshold determination unit that automatically generates the likelihood threshold .
更に、
上記ラベル生成用音声認識部が出力する上記ラベルを用いて、上記音響モデルを参照して文法型音声認識を行い音響尤度を再付与して上記データ選択部に出力するラベル変換再認識部を、
具備することを特徴とする音響モデル生成装置。 The acoustic model generation device according to claim 1,
Furthermore,
A label conversion re-recognition unit that performs grammatical speech recognition with reference to the acoustic model and re-assigns acoustic likelihood and outputs to the data selection unit using the label output by the label generation speech recognition unit ,
An acoustic model generation apparatus comprising the acoustic model generation apparatus.
上記ラベル生成用音声認識部は、
音声信号を入力として言語モデルとベース音響モデルを参照して上記音声信号の音声認識を行い信頼度が所定値以上の音声信号のみにラベルを付与して出力するものであることを特徴とする音響モデル生成装置。 In the acoustic model generation device according to claim 1 or 2,
The label generating voice recognition unit
The sound is characterized in that the speech signal is recognized by referring to the language model and the base acoustic model with the speech signal as an input, and only a speech signal having a reliability of a predetermined value or higher is given a label and output. Model generator.
上記データ選択部は、
上記ラベル生成用音声認識部が出力する音声信号とそのラベルと信頼度を入力として、上記信頼度が信頼度閾値より大でかつ音響尤度が尤度閾値よりも小さくかつ第2尤度閾値よりも大きな音声信号を選択するものであることを特徴とする音響モデル生成装置。 The acoustic model generation device according to any one of claims 1 to 3,
The data selection part
With the speech signal output from the label generating speech recognition unit, its label and reliability as input, the reliability is greater than the reliability threshold, the acoustic likelihood is less than the likelihood threshold, and is greater than the second likelihood threshold. An acoustic model generation apparatus characterized by selecting a large audio signal.
上記ラベル生成用音声認識過程が出力する音声信号とそのラベルと信頼度を入力として、上記信頼度が信頼度閾値より大でかつ上記音響尤度が尤度閾値よりも小さな音声信号を選択するデータ選択過程と、
上記データ選択過程が選択した上記音声信号に、上記ベース音響モデルを学習させて学習済み音響モデルを生成する音響モデル学習過程と、
上記ラベル生成用音声認識過程が出力する音響尤度の分布から平均、標準偏差、ヒストグラムの何れか一つを求め、上記平均、上記標準偏差、上記ヒストグラムのうち、少なくとも何れか一つを用いて、上記尤度閾値を自動的に生成する音響尤度閾値決定過程
を備える音響モデル生成方法。 A speech recognition process for label generation that recognizes speech by referring to a speech model and a base acoustic model, gives a label to the speech recognition result, and outputs its reliability and acoustic likelihood;
An input audio signal and the reliability thereof label the label generation speech recognition process outputs, the reliability is large at and the acoustic likelihood than confidence threshold to select a small audio signal than the likelihood threshold The data selection process,
To the audio signal which the data selection process selected, the acoustic model training process for generating the learned acoustic model by learning the base acoustic model,
Obtain one of average, standard deviation, and histogram from the distribution of acoustic likelihood output by the label generation speech recognition process, and use at least one of the average, standard deviation, and histogram An acoustic model generation method comprising an acoustic likelihood threshold determination process for automatically generating the likelihood threshold .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012244756A JP5852550B2 (en) | 2012-11-06 | 2012-11-06 | Acoustic model generation apparatus, method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012244756A JP5852550B2 (en) | 2012-11-06 | 2012-11-06 | Acoustic model generation apparatus, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014092750A JP2014092750A (en) | 2014-05-19 |
JP5852550B2 true JP5852550B2 (en) | 2016-02-03 |
Family
ID=50936840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012244756A Active JP5852550B2 (en) | 2012-11-06 | 2012-11-06 | Acoustic model generation apparatus, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5852550B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6839342B2 (en) * | 2016-09-16 | 2021-03-10 | 富士通株式会社 | Information processing equipment, information processing methods and programs |
JP7075064B2 (en) | 2018-03-09 | 2022-05-25 | 日本電気株式会社 | Signal source identification device, signal source identification method, program |
KR102409873B1 (en) * | 2020-09-02 | 2022-06-16 | 네이버 주식회사 | Method and system for training speech recognition models using augmented consistency regularization |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69833987T2 (en) * | 1998-12-17 | 2006-11-16 | Sony Corp. | Semi-monitored speaker adaptation |
JP4594885B2 (en) * | 2006-03-15 | 2010-12-08 | 日本電信電話株式会社 | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium |
-
2012
- 2012-11-06 JP JP2012244756A patent/JP5852550B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014092750A (en) | 2014-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9368116B2 (en) | Speaker separation in diarization | |
US8650029B2 (en) | Leveraging speech recognizer feedback for voice activity detection | |
US8972260B2 (en) | Speech recognition using multiple language models | |
US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
JP6578049B2 (en) | Learning data generation apparatus and program thereof | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
JPWO2010128560A1 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP7409381B2 (en) | Utterance section detection device, utterance section detection method, program | |
JP2018004947A (en) | Text correction device, text correction method, and program | |
JP5852550B2 (en) | Acoustic model generation apparatus, method and program thereof | |
JPWO2018163279A1 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
KR20200102309A (en) | System and method for voice recognition using word similarity | |
JP4922377B2 (en) | Speech recognition apparatus, method and program | |
JP5980101B2 (en) | Acoustic model learning text creation apparatus, method and program thereof | |
JP5961530B2 (en) | Acoustic model generation apparatus, method and program thereof | |
JP5427140B2 (en) | Speech recognition method, speech recognition apparatus, and speech recognition program | |
JP5113797B2 (en) | Dissimilarity utilization type discriminative learning apparatus and method, and program thereof | |
JP5982265B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP5166195B2 (en) | Acoustic analysis parameter generation method and apparatus, program, and recording medium | |
KR20230118165A (en) | Adapting Automated Speech Recognition Parameters Based on Hotword Attributes | |
JP4981850B2 (en) | Voice recognition apparatus and method, program, and recording medium | |
JP4843646B2 (en) | Voice recognition apparatus and method, program, and recording medium | |
JP5089651B2 (en) | Speech recognition device, acoustic model creation device, method thereof, program, and recording medium | |
WO2021044606A1 (en) | Learning device, estimation device, methods therefor, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150507 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5852550 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |