[論文読み]音声認識に向けた超高齢者音声のコーパス構築

メタデータ 入部百合絵(愛知県立大学) 北岡教英(徳島大学) 日本音響学会誌 2017 https://www.jstage.jst.go.jp/article/jasj/73/5/73_303/_article/-char/ja 概要 高齢者向け音声認識精度の向上を目指して、高齢者の音声コーパスを集め、認識実験をした研究。 102名の高齢者にJNAS(若者向け音素バランスコーパス)とS-JNAS(高齢者向け音素バランスコーパス)を読んでもらい、感情ラベルや認知症スケール(HDS-R)などのラベルもつけた。(102名中11名が認知症傾向) 音声認識器Kaldiにより比較実験。 結果、若者の学習データ(JNAS)に若者の評価データ(JNAS)を使うとWordErrorRateがGMM(2.79)、DNN(2.34)。 若者の学習データ(JNAS)に高齢者の評価データ(S-JNAS)を使うとWordErrorRateがGMM(6.79)、DNN(3.41)。 高齢者の学習データ(S-JNAS)に高齢者の評価データ(S-JNAS)を使うとWordErrorRateがGMM(4.05)、DNN(3.41)。 何故か今回収集したコーパスは学習に使っていない模様 年代に合わせた音響モデル作成の必要性を確認 知見 やはり、高齢者には高齢者専用の音響モデルで音声認識をしたほうが精度が高くなる。 若者の音響モデルで高齢者の声を認識しようとすると認識率が低下する。 高齢者は加齢とともに、調音器官の筋肉が衰えて、音声が不明瞭になり、音声認識に影響を及ぼす。

[論文読み]Recognizing emotions from speech using a physical model

論文 The Acoustical society of japan 2018 Kitaokaら 徳島大学、名古屋大学 https://www.jstage.jst.go.jp/article/ast/39/2/39_E1753/_pdf 概要 自然な会話のできるロボットの構築を目指してユーザー発話の音響情報からユーザーの感情を推定刷る研究 対話の中からユーザーに感情アノテーションをしてもらい、推定器を用いて推定 分類する感情はPassiveNegative、ActiveNegative、ActivePositive、PassivePositiveの4種類 特徴量はopenSMILE IS10をPCAで次元削減したものと物理的な現象をシミュレートしたものを使用して比較 2つの特徴量を組み合わせてF値0.564 知見 感情モデリングの手法として、Russell’s circumplex model of affect(感情円環モデル)がある PassiveNegative、ActiveNegative、ActivePositive、PassivePositiveの4種類に分類するとのこと [1]J. A. Russell, ‘‘A circumplex model of affect,’’ J. Pers. Soc.Psychol., pp. 1161–1178 (1980). 音声を使用した感情認識はpitchを用いる手法が主流 [2]T. Ba¨nziger and K. R. Scherer, ‘‘The role of intonation in emotional expression,’’ Speech Commun., 46,…

[論文読み]発話タグの統計的特性を考慮した対話における適切な発話タイミング

論文 ヒューマンインターフェース学会論文誌 Vol.20,No.1,2018 金沢工業大学大学院 工学研究科 情報工学専攻 吉田ら https://www.jstage.jst.go.jp/article/his/20/1/20_21/_pdf 概要 音声対話システムにおいてどのぐらいの応答速度がユーザーにとって良いと感じられるかについて分析。 対話の種類によっても応答速度の良さは変わるようなので対話カテゴリの出現頻度ごとに分類し、各々において良いとされる応答速度を分析 実験 -200ms、0ms、400ms、600ms、800msの応答速度で応答を生成して各対話の応答速度の良さを実験 知見 対話コミュニケーションにおいて、非言語音響情報は対話全体の65%または93%の情報量を持つと言われている 対話コーパスを用いた発話カテゴリごとの出現頻度 小林ら、音声対話システムにおける挨拶発話の適切なタイミング生成,計測自動制御学会論文誌,2015によると600msが最も良い応答速度とのこと。 陳述(Statement)を含む対話の適切な応答速度は400-600ms 相槌を含む対話の適切な応答速度も400-600ms Yes-No質問を含む対話の適切な応答速度は800ms 5W1H質問を含む対話の適切な応答速度は600ms

[論文読み]ルールベース発話生成と統計的発話生成の融合に基づく対話システムの構築

論文 28回 人工知能学会 年次会 (2014) 目黒 豊美ら NTTコミュニケーション科学基礎研究所ほか https://kaigi.org/jsai/webprogram/2014/pdf/752.pdf 概要 雑談対話システムにおける発話生成においては、ルールベースで発話を生成するとユーザーの欲求に正確に応答できる可能性があるがドメイン外の発話になった場合に対応できない恐れがある。この研究ではルールベースの対話発話生成手法の比較を行うとともに、ルールベースと統計ベースの発話手法の適切な切り替えをする識別器を作成している。 ルールベース手法性能検証実験 実験用にコーパスを2つ用意している。 雑談対話コーパス Twitterから収集したコーパス ルールベース発話生成に用いる特徴量は発話中の自立語(名詞、動詞、形容詞、終助詞、連体詞など)以外をワイルドカードとしたパターンマッチルールを作成する ルールベースの比較実験をするために4つの発話生成手法を提案 ルールベース(ルール) TF-IDFで最も近いするルールを選択 文節ペアの係り受けを利用した発話生成(統計) 係り受け構造を統計的に抽出し、発話を生成? 単語間の係り受けを利用した発話生成(統計) 単語間の係り受け関係をテンプレートに入れて発話生成 IR-status Twitterの発話に紐づいた返信文を発話とする IR-response Twitterの返信文を発話文として検索する 結果、入力文がコーパス内の発話だった場合、ルールベースの評価が高いがTwitterコーパスのようなオープンな入力文の場合、ルールベースは評価が下がった。 この実験の結論としてはルールベースで応答すべき時はルールベースを使うべきであるが、それ以外の場合は別の手法を使う必要があるということ。 ルールベースと統計ベースの融合 ルールベースと統計ベースを融合するために、ルールベースで応答すべきか否かを判定する識別器を作る。 以下の特徴量をSVMでルールベースを使用すべきか否か識別する。 品詞、語彙体系、単語unigram ルールとの一致度 パープレキシティ 結果、雑談コーパスでは78.7%、Twitterコーパスでは53.4%の精度となった。