[論文読み]Recognizing emotions from speech using a physical model

論文 The Acoustical society of japan 2018 Kitaokaら 徳島大学、名古屋大学 https://www.jstage.jst.go.jp/article/ast/39/2/39_E1753/_pdf 概要 自然な会話のできるロボットの構築を目指してユーザー発話の音響情報からユーザーの感情を推定刷る研究 対話の中からユーザーに感情アノテーションをしてもらい、推定器を用いて推定 分類する感情はPassiveNegative、ActiveNegative、ActivePositive、PassivePositiveの4種類 特徴量はopenSMILE IS10をPCAで次元削減したものと物理的な現象をシミュレートしたものを使用して比較 2つの特徴量を組み合わせてF値0.564 知見 感情モデリングの手法として、Russell’s circumplex model of affect(感情円環モデル)がある PassiveNegative、ActiveNegative、ActivePositive、PassivePositiveの4種類に分類するとのこと [1]J. A. Russell, ‘‘A circumplex model of affect,’’ J. Pers. Soc.Psychol., pp. 1161–1178 (1980). 音声を使用した感情認識はpitchを用いる手法が主流 [2]T. Ba¨nziger and K. R. Scherer, ‘‘The role of intonation in emotional expression,’’ Speech Commun., 46,…

[論文読み]発話タグの統計的特性を考慮した対話における適切な発話タイミング

論文 ヒューマンインターフェース学会論文誌 Vol.20,No.1,2018 金沢工業大学大学院 工学研究科 情報工学専攻 吉田ら https://www.jstage.jst.go.jp/article/his/20/1/20_21/_pdf 概要 音声対話システムにおいてどのぐらいの応答速度がユーザーにとって良いと感じられるかについて分析。 対話の種類によっても応答速度の良さは変わるようなので対話カテゴリの出現頻度ごとに分類し、各々において良いとされる応答速度を分析 実験 -200ms、0ms、400ms、600ms、800msの応答速度で応答を生成して各対話の応答速度の良さを実験 知見 対話コミュニケーションにおいて、非言語音響情報は対話全体の65%または93%の情報量を持つと言われている 対話コーパスを用いた発話カテゴリごとの出現頻度 小林ら、音声対話システムにおける挨拶発話の適切なタイミング生成,計測自動制御学会論文誌,2015によると600msが最も良い応答速度とのこと。 陳述(Statement)を含む対話の適切な応答速度は400-600ms 相槌を含む対話の適切な応答速度も400-600ms Yes-No質問を含む対話の適切な応答速度は800ms 5W1H質問を含む対話の適切な応答速度は600ms