WAVファイルを扱うときに出てくるFrameSizeとは何か

WAVファイルを扱っているときにたびたび、Frameという概念が出現します。

通常、Frameとは音響解析時に、解析の最小単位を表し、Frameをwindowsサイズシフトを繰り返しながら分析していきます。

しかしそれは解析時の話であって、解析も何もしていないWAVファイルに出現するFrameとはなにか、調べてみました。

実際に2チャンネル16bit PCMのWAVファイルをjavaで読み込んで、AudioFormatをデバッグ表示してみたのが以下の図になります。

screenshot-from-2016-10-10-20-50-00

FrameSizeは「4」と出ています。

FrameSizeの算出式は以下のようになっています。

SampleSizeInBitsとは何ビットずつサンプリングしていくか、つまり16bitPCMの場合16という数字が入ります。

Channelはチャンネル数を表します。今回は2チャンネル録音なので2が入ります。

 

2チャンネル 16bit PCMの場合、16bitで表現した1サンプルのデータが時間軸(横向き)に並んでいきます。

FrameSizeというのはこの縦幅がどれぐらいのサイズあるかということをバイト単位で表したものとなります。

今回は16bitPCMなので2byte×2チャンネルなので4byteとなります。

img_20161010_205826-min

なぜFrameSizeという概念が必要になるかというと、WAVファイルのデータを実際にbyte単位で読み込んで行く時、チャンネル関係なくすべて横並びにデータが並んでいきます。

この中で「何byteで1サンプルなのか」という情報(どこでデータを区切るべきか)がFrameSizeとなります。

今回の場合だと、4byteずつ区切っていけば2チャンネルの1サンプルを取ることができるというわけです。

img_20161010_205830-min