音声インタフェース

はじめに
- 「音声信号処理の基礎」の講義スライドはここ。
- 最終的な「音声リモコンロボット」の動画はここ。
- 「音声インタフェースの構築」テキストはここ。
- 「追加実験」テキストはここ。

準備２：音声波形データの読み出しとGNUPLOTによる表示
- 音声サンプルのダウンロードはここをクリック。
  - xxx.wav は wav データ。xxx.dat はヘッダの付いていない short integer の配列データ（little endian）。いずれもバイナリーデータである。
  - エンディアン（endian）って何？という人はここ。big endian のデータは用意していない。
- GNUPLOTの使い方については，ここや，ここが役立つでしょう。
- xxx.dat の読み込みには fread() を使う。ライブラリ関数の仕様についてはここ。

課題１：自己相関関数を用いたピッチ抽出
- 3.3 節の自己相関関数の式を幾何学的に解釈するとどうなりますか？（ヒント：内積）
- 何故，この式のように「掛けたものを足す」という操作が「相関関係」を示す量になるのかを考えてみなさい。この式は s_t と s_{t+tau} の相関（つまり自己相関）ですが，x_t と y_t の場合は相互相関と言われます。
- ここまでが第一日目か。

課題２：DFT/FFTを用いたスペクトルの算出を描画
- DFT のソースファイルはここ。前期実験のソースと若干異なる。DFT と IDFT(Inverse DFT) の関数を作成せよ。
  - テキスト 3.4 節の DFT の式をそのままプログラミングするだけである。
- FFT のソースファイルはここ。FFT と IFFT(Inverse FFT) の関数を作成せよ。
  - 穴埋め部分はバタフライ計算のところだけである。
  - FFT はこの複素行列計算を，IFFT はこいつをプログラミングすればよい。なお，b_i はビット反転順序で並び替えられた入力である。
  - また，ソースの見易さを優先して，無用な処理も入れている。FFT の実装としては遅いバージョンだと思えばよい。
  - なお，授業で配布している蝶蝶の絵を見ながらソースを眺めたい人はこちら。
- 作成したプログラムの実行時間を計測する場合は time コマンドを使うとよい。先頭512個のデータに対する DFT/FFT を各々1000回行うと何秒かかるか？
  - % time ./FFT speech_sample/A_a.dat 0 512 > FFT_A_a.dat
  - などとやれば良い。表示の解釈は，"man time" でもしなさい。

課題３：FFTを用いたケプストラム係数の計算とスペクトル包絡の推定
- ケプストラム係数の一部を操作する場合，スペクトルの対称性を崩さないようにすること。
- ここまでが，第二日目か。

課題４：パワースペクトルと自己相関関数（Wiener-Khintchineの定理）
- Wiener-Khintchine の定理を知らない学生は，ここ。つまり，自己相関関数のフーリエ変換が何になるのか？ということです。

課題７：孤立単語音声認識システムの構築
- 孤立単語音声認識ツールキットのダウンロードはここ。
- 孤立単語音声認識に関する講義スライドはここ。
- システムをあれこれいじってみて，性能評価して下さい（3.10の課題）。認識システムの個々のモジュールをいじってシステムの概要を把握すること，及び，ここまでの課題において学習・知識が不十分だった部分を補うのが，第四，五日目，となります。
- 後半のロボット課題は，ここまでの知識が「既知」であることが前提となっています。

レポートについて
- 〆切最終日から2週間後。
- 実験の区分けについて
  - 第一部　各自で行った音声の音響分析，
  - 第二部　音声認識／話者認識の原理の習得，
  - 第三部　各班で統合システムを構築＋プレゼン，
- レポート執筆について
- レポート提出について
  レポートは PDF （プレゼンはパワポ相当のファイルでよい）にして提出する。メールで提出する。
  班番号をA01, A02, A03, A04（前半のグループ），B01, B02, B03, B04（後半のグループ）とする。
  
  考察レポートの場合，班番号_学籍番号_kousatsu.pdf とし，
  プレゼンファイルは，班番号_学籍番号_kousatsu.ppt とする。
  
  総合レポートの場合，第一部・第二部（と第三部の各自記述）は，班番号_学籍番号_sougou.pdf とする。
  総合レポートの班単位でのレポートは，班番号_sougou.pdf or 班番号_sougou.ppt などとする。
- 提出はメールに添付して下記に送付する。
  speech_ta [at] gavo.t.u-tokyo.ac.jp