コンピュータの中で音量はどう扱われるか

音声情報処理の研究室にいたはずなのに理解がとても曖昧だったので調べたことのメモ 当方、学習中の身です。間違いがあったらご指摘ください。   音量の話。人は音の大きさについて自然と「うるさい」と思ったり「静かだ」と思うわけで、うるさい音量というのは確かに存在します。しかしながら、その「うるさい音量」は具体的にどれ位の数で表すことができるのか、さらにはコンピュータの中でサンプリングされた音はどのようなスケールで扱われるのか、詳細を教えてくれるところはあまりありません。今回はそんな話について調べたことをまとめます。 自然界での音量 まずは自然界の話。よくオスプレイとかの騒音を騒音計を使って騒音レベルを計測している映像をニュースとかで見ますが、その時使われる単位として「デシベル(dB)」があります。これは音に限った単位ではなく、電気回路等では電圧利得などの単位として使われます。利得とはすなわち、入出力の比であり、入力に対してどれだけの出力を得ることができたか。そのような指標で調べたい時、dBが使われます。ではデシベル音量に関しては何の比率なのでしょうか。音量は「ある基準音圧」に対し、「対象の音圧」がどれぐらいの比率かで表されます。基準音圧は人間の耳で聞こえる最小の音圧です。つまり、自然界で聞こえる音量(dB)とは、人間が聞こえる最小の音圧に対し、どれぐらいの音圧を持っているかの比率で表されます。音量の式を下記に示します。 なぜ20logなのかですが、利得は元々電力から来ているそうで、電力の時は10logを使っていたが電圧になおすために変換した結果だそうです。 下記参考文献によると、デシベルで表すことによってこの音はどれぐらいの音と同じぐらいかを知ることができます。 120デシベル ・飛行機のエンジンの近く 110デシベル ・自動車の警笛(前方2m)・リベット打ち 100デシベル ・電車が通るときのガードの下 90デシベル ・犬の鳴き声(正面5m)・騒々しい工場の中・カラオケ(店内客席中央) 80デシベル ・地下鉄の車内・電車の車内・ピアノ(正面1m) 70デシベル ・ステレオ(正面1m、夜間)・騒々しい事務所の中・騒々しい街頭 60デシベル ・静かな乗用車・普通の会話 50デシベル ・静かな事務所・クーラー(屋外機、始動時) 40デシベル ・市内の深夜・図書館・静かな住宅の昼 30デシベル ・郊外の深夜・ささやき声 20デシベル ・木の葉のふれあう音・置時計の秒針の音(前方1m) dBデシベルの話し 音の大きさ http://www.geocities.jp/fkmtf928/dB_sound.html まとめるとデシベル音量は相対値であり、人間の聞こえる最小音圧に対し、どれぐらいの音圧があるかで表されるということです。 参考文献 dBデシベルの話し 音の大きさ http://www.geocities.jp/fkmtf928/dB_sound.html コンピュータでの音量 では自然界ではなく、デジタルの世界。コンピュータでの音量の扱い方を見ていきます。 音というのは空気の振動であり、波形です。コンピュータはデジタル回路なので波形のような連続値を扱うことはできません。そこでサンプリングを行なうことによって波形を離散データとして扱います。一定時間(周期)ごとにマイクに入る電圧を記録し、音をデータとして保存します。電圧を記録するとき、どのぐらいの細かさ(分解能)で記録するかを「量子化ビット」と呼びます(下図縦軸)。この量子化ビットが8bitならば(signedの場合)-128〜+128までの数値で記録することができます。16bitならば-32768〜32767までの数値で記録することができます。量子化ビット数が大きければ大きいほどより分解能が高く、細かいマイク電圧の変化を記録できるので鮮明に音を記録できます。一方、データサイズが大きくなってしまう問題もあります。 ではこのビットで記録された音の大きさは何デシベルぐらいなのでしょうか。サンプリングされたデータの大きさは量子化ビットの数によって変わってしまうので量子化ビット8bitで記録された音声の大きさと量子化ビット16bitで記録された音声の大きさを、データで直接比較することはできません。そこで何かしらの変換をかけて、デシベルに直せると比較できて便利そうです。 ビットからデシベルへの変換 先程も述べたように、音量というものは基準からの比率です。自然界では基準は「人間が聞こえる最小音量」でしたが、コンピュータの世界では「記録すべき最大音量」が基準となります。なのでコンピュータで音量は「最大音量からどれぐらい小さいか」の比率で表されます。以下量子化ビット数16bitで解説をします。16bit量子化でunsignedの場合、0〜最大65535までの数値で音を表現できます。ではこの値の範囲は最大でどれ位の利得を表現できるかを計算すると、最大利得は96.3dBとなります。つまり、デシベルスケールになおすと0dB〜96.3dBまでの範囲で音を表現することができます。これをダイナミックレンジと呼びます。 音波形の音量はすなわち振幅の大きさです。しかし波形はマイナスの方向にも言ってしまうので、正しく音量を得るために波形の絶対値をとります。さらに、その平均値をとると、だいたい下図赤線の値となり、音の大きさを得ることができます(マイナスをなくすために2乗する場合もあります)。音量は基準からの比率であり、今回の基準は最大音量ですので下図の式のようになり、デシベル音量を得ることができます。ダイナミックレンジを見ると、16bit量子化では0〜-96.3dBまでの値を得ることができます。マイナスの方向に向かっているのは最大値を基準としているからであり、自然界で扱われるデシベルと逆のスケールになっていますがコンピュータでは一般的なようです。 参考文献 あちゃぴーの自転車通勤: dB(デシベル)とbit(ビット)の関係について http://achapi2718.blogspot.jp/2011/12/dbbit.html まとめ まとめると、量子化ビットAbitな音声信号のサンプル値Bのダイナミックレンジとデシベル音量は以下の式で表すことができます。対数のおかげで、処理時間がかかる除算を減算へと変化させることができ、プログラムからも扱いやすそうです。

[論文読み]音声認識に向けた超高齢者音声のコーパス構築

メタデータ 入部百合絵(愛知県立大学) 北岡教英(徳島大学) 日本音響学会誌 2017 https://www.jstage.jst.go.jp/article/jasj/73/5/73_303/_article/-char/ja 概要 高齢者向け音声認識精度の向上を目指して、高齢者の音声コーパスを集め、認識実験をした研究。 102名の高齢者にJNAS(若者向け音素バランスコーパス)とS-JNAS(高齢者向け音素バランスコーパス)を読んでもらい、感情ラベルや認知症スケール(HDS-R)などのラベルもつけた。(102名中11名が認知症傾向) 音声認識器Kaldiにより比較実験。 結果、若者の学習データ(JNAS)に若者の評価データ(JNAS)を使うとWordErrorRateがGMM(2.79)、DNN(2.34)。 若者の学習データ(JNAS)に高齢者の評価データ(S-JNAS)を使うとWordErrorRateがGMM(6.79)、DNN(3.41)。 高齢者の学習データ(S-JNAS)に高齢者の評価データ(S-JNAS)を使うとWordErrorRateがGMM(4.05)、DNN(3.41)。 何故か今回収集したコーパスは学習に使っていない模様 年代に合わせた音響モデル作成の必要性を確認 知見 やはり、高齢者には高齢者専用の音響モデルで音声認識をしたほうが精度が高くなる。 若者の音響モデルで高齢者の声を認識しようとすると認識率が低下する。 高齢者は加齢とともに、調音器官の筋肉が衰えて、音声が不明瞭になり、音声認識に影響を及ぼす。

引越し祝いにもらったTENGAを使ってインスタ映えするルームランプを作る

※この記事には若干の下ネタがあります。気分を害する方はブラウザバックを推奨します。   この間新居に引っ越したわけですが、そのときにWish Listを公開したところ、なぜかWish Listに入っていないTENGAプレミアムがsoiya1919によって送られてきました。 写真つけるの忘れてた pic.twitter.com/dq4QtL4dXY — garicchi (@garicchi) 2018年3月23日 私の独り身を思って、TENGAを送ってくれた気持ちはありがたいのですが、このままではインスタ映えせず、女子が見たら完全にドン引き案件なのでインスタ映えするTENGAを目指してルームランプに改造することにしました。 先行研究 【作ってみた】TENGAをルームランプにしてみた http://nico.ms/sm10099599 先駆者兄貴がおられました。しかしながら、先行研究には AC電源からの豆電球による高消費電力 遠隔操作ができない などの問題点がありました。 そこで本研究ではUSB電源のLEDを採用することで、低消費電力とPC等からのカジュアルな電源供給を実現することとしました。 さらに、赤外線リモコンによる遠隔操作も可能としました。 それでは作り方に入ります。 LEDを購入する インスタ映えするTENGAルームランプを作るために、高輝度フルカラーなLEDは絶対条件でした。 加えて、TENGAという小さな筐体の中に収めるためには、複雑な回路を入れることはできませんでした。 そのような条件で探していたところ、こちらのUSB電源でフルカラーテープLEDを点灯させることができ、さらに赤外線で光るパターンを制御できるLEDを購入しました。 USBテープLED RGB(TPLED1M-RGBR) こちら、こんな感じで高輝度に光ってくれます。 TENGAの中身を取り出す TENGAの中にLEDを埋め込むために少々改造していきます。当たり前ですが未使用です。 まず、中身を取り出しやすくするために上がわにある空気弁のシールを剥がします。 続いてTENGAロゴを傷つけないように、下側のビニールだけはがします。 下蓋を剥がし、中身とカバーの間に指を入れ、丁寧に剥がしていきます。 結構強引にやると剥がれていきます。 芯を取り出すことができたら、その外側にあるスチロールを取り出します。 この夢のあるTENGAの中は意外としょぼいスチロールで構成されていて、少し悲しくなりました。 すべて中身を取り出すことができたら、下蓋にローションがついているため、水洗いします。 水洗いできたら、下蓋の一部に配線を出すための穴をニッパー等で開けます。 LEDを貼り付ける 筐体が完成したら、芯を作ってLEDを貼り付けていきます。 ダンボール等で下蓋と合うぐらいの芯を作っていきます。 LEDを芯に巻きつけていきます。今回購入したLEDは裏側がシールになっているのでとても助かりました。 端の部分は、シールでは剥がれやすくなってしまうので、ホットボンド等で固定していきます。 最後に蓋をかぶせて完成です。 完成 こんな感じで光ります。 なんだこれは…完全にオシャレすぎるインテリアが完成してしまいました。 LEDの色を時間で変化させることもできます。完全にインスタ待ったなしですねコレ。 男性諸君の部屋には必ずありそうなのに人に見られるとヤバイTENGAですが、少しの工夫でこのようにインスタ映え間違いないインテリアへと変貌することができました。 もし新居に女性を呼ぶようなことがあれば、このおしゃれすぎるルームランプでいい雰囲気を作っていきたい所存です。

Wishリストからプレゼントを送ってくださった方々

  感謝の気持ちを忘れないように、広告主的な感じで 石坂さん(@ishisaaka) – カップスープ30袋 Ovisさん(@Pandora_Ovis) – カップスープ 30袋 近江さん(@takekazuomi) – カップスープ 90袋、日本100名城にいこう(本) TKT – カップスープ 90袋 soiya1919(@soiya1919) – TENGA Premium ぶちぞうせんせい(@kosmosebi) – カップスープ30袋 西端先生(@r_nishibata) – 紅茶250パック うるしま先生(@Promaniaxxx) – レトルトカレー20袋、お茶パック50袋、ANKER充電器、ANKERモバイルバッテリー、USBTypeCケーブル、MicroUSBケーブル、ごはん20食 erudotさん(@erudot) – カレー10袋 水城さん(@mizukiX9) – Amazonギフトカード2000円分 松岡さん(@matsujirushi12) – ご飯10食 ムッシュ先生(@Masayuki_Ozawa) – 紅茶50パック、カレー10食、ごはん10食 ラルフくん(@r_ralph_h) – ごはん10食 ぼんぷろ先生(@bonprosoft) – お茶パック50袋、カレー10食 みそ先生(@miso_soup3) – 紅茶50パック、お茶50袋、USBTypeCケーブル るいす君(@5rui3) – USB TypeCケーブル…

大学を修了してMicrosoftMVPを引退して台東区に引っ越してエンジニアになります

やっと引っ越しが完了しましたのでいろいろとご報告します。 静岡県で4年間大学&院生として対話システムの研究を行っていましたが この度研究室を脱獄卒業させていただき、ありがたいことに東京でエンジニアとして働く事になりました。 それに伴っていろいろと人生を変えていこうと思ったのでポエムらせていただきます。 大学を修了した 高専から編入させていただいた大学を無事卒業することになりました。 大学では音声情報処理の研究室へ配属され、「対話システム(Siriみたいなものです)」の研究を行っていました。 弊研究室は我々の世代が第1期生で先輩や先行研究がなく、我々自身で考えて自分の研究をすすめて行く必要がありました。 特に私の研究分野は教授の専門外なので割と放置されていたこともあり、つらいこともあった反面、 自ら必要なことを考えて必要な行動をする、今流行りの受け身ではない人間力を鍛えれたと思っています。 研究成果はろくなものができませんでしたが学会発表7本、国際ワークショップ1本、共同研究2社を教授、先輩の強いサポートなしでこなしていたのは自分でも褒めてあげたいです。(もちろんもっとやってる人はもっとやってるわけですが…) 仕事では対話システム関連のことはやりませんが、自分の興味のある研究分野ですので今後も趣味として論文調査&研究していきたいとおもっています。 Microsoft MVPを引退した 2014年〜2018年の4年間、Microsoft MVP for Windows Developmentとしてコミュニティ活動をさせていただいておりましたがこの度引退をさせていただくこととなりました。 理由は1つ、「人生で好きなことをしたい時間が足りなくなったから」です。 2014年当所はWindows8が出始めてメトロアプリ(現Universal Windows Platform)が登場し、私の興味はとてもそこに引き寄せられ、Tipsサイトなどを作り、Microsoft MVPを受賞させていただきました。 その後、コミュニティ登壇や雑誌執筆などの活動をしておりましたがだんだん私の興味、人生で成し遂げたいこととして「対話システム」の文字が大きくなってきました。 すると、「対話システム」のこともしつつ、4月から仕事も始めていては、「WindowsDevelopment MVPとしてのコミュニティ活動」をしている時間と優先度が少なくなってしまうことが予想できました、そして自分の中の自己評価で自分はMVPである資格がないと判断し、引退を決意しました(重要:審査に落ちたわけではないです)。 ありがたいことにMicrosoft MVPというものは1年間の活動記録に対して表彰されるので、いつでも出入りできる表彰制度であると担当の方も言っておられたので、また自分の中で優先度の高い分野が登場したら再度MVPを応募するかもしれません。 4年前、完全に今で言うイキリオタクの典型だった青二才学生(ご迷惑をおかけした方々、本当に申し訳ありませんでした)をMVPまで引き上げてくれたMicrosoft関連のコミュニティの方々にはとても感謝をしています。 今までMicrosoft MVPというだけで実力以上の評価をいただいていた部分もあったので、キャリアをリセットするという意味でも新たな門出を祝っていただけると幸いです。 コミュニティ活動は引き続き行いますので登壇依頼などお待ちしております。 台東区に引っ越した 就職に伴って台東区へ引っ越しをしました。 台東区のどここらへんかはご想像におまかせします。 家はスーパーの近くで、駅まで徒歩3分で、とりあえずアキバに電車で行けるところに住んでいるのでとても快適です。 私は主に日比谷線を利用していますので秋葉原でお会いしましょう。 エンジニアになった 晴れてエンジニア見習いになりました。 作るものはソシャゲを作ります。 (オイオイ今更ソシャゲとか儲からないでしょ)と思ったそこのアナタ。 実は昔からゲーム作りが大好きで最近こそやっていなかったものの、ゲームエンジニアは1つの夢でもありました。 特に私は物語が大好きなので物語を提供する側の一部に関われることを嬉しく思っています。 でもまあ実際に先が有るのか無いのかわからないのは確かなので 業界がやばい感じになったらみなさんよろしくおねがいします。 分野はサーバーサイドをやる予定です。 ソシャゲはよく落ちるので、大量のトラフィックをさばいて安全に動くサーバーサイド設計は この先枯れない技術であり、Webエンジニアでは得られない知識が得られると思っています。 おわりに 本当に学生時代にお世話になった方々、本当にありがとうございました。引き続きよろしくお願いします。 ありがたいことにwish listからものを送りたいと言ってくれている方がおられるのですが 実際部屋に置くスペースがないので、消耗品だけ入れさせていただきました。 http://amzn.asia/0yGrymj…