[論文読み]音声認識に向けた超高齢者音声のコーパス構築

メタデータ

概要

高齢者向け音声認識精度の向上を目指して、高齢者の音声コーパスを集め、認識実験をした研究。

102名の高齢者にJNAS(若者向け音素バランスコーパス)とS-JNAS(高齢者向け音素バランスコーパス)を読んでもらい、感情ラベルや認知症スケール(HDS-R)などのラベルもつけた。(102名中11名が認知症傾向)

音声認識器Kaldiにより比較実験。

結果、若者の学習データ(JNAS)に若者の評価データ(JNAS)を使うとWordErrorRateがGMM(2.79)、DNN(2.34)。

若者の学習データ(JNAS)に高齢者の評価データ(S-JNAS)を使うとWordErrorRateがGMM(6.79)、DNN(3.41)。

高齢者の学習データ(S-JNAS)に高齢者の評価データ(S-JNAS)を使うとWordErrorRateがGMM(4.05)、DNN(3.41)。

何故か今回収集したコーパスは学習に使っていない模様

年代に合わせた音響モデル作成の必要性を確認

知見

やはり、高齢者には高齢者専用の音響モデルで音声認識をしたほうが精度が高くなる。

若者の音響モデルで高齢者の声を認識しようとすると認識率が低下する。

高齢者は加齢とともに、調音器官の筋肉が衰えて、音声が不明瞭になり、音声認識に影響を及ぼす。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください