pythonで音声信号のリアルタイムプロット
やりたいこと
pydubで読み込んだ音声信号に対し、Sliding Windowをしながら波形をプロットしたい。
音声信号処理を行う場合は、読み込んだ信号全体に対して一気に処理を施すのではなく、短い時間の区間ごとに処理を施すそうです。
Computer Visionで言うならば、信号全体に対する処理が大局的画像処理にあたり、短い区間に区切った処理が局所的画像処理やSliding Windowになるのでしょうか?
音声波形は時間毎に性質が異なっていくはずなので、局所的な処理を施すのは納得が行きますね。
続きを読む