音声データ収録の手引 [1] 発声上の留意事項(発声者へのコメント) 別途配布した 「はじめに」 「発音記号に関する注意事項」 「単語発声に関する注意事項」 「文発声に関する注意事項」 以外の注意事項を以下に示します。 01. 録音時間は,練習も含め,1〜3時間程かかる(発声者に大きく依存します) ことが予想されます。 [2] 収録上の留意事項(オペレータへのコメント) 01. 「はじめに」 「発音記号に関する注意事項」 「単語発声に関する注意事項」 「文発声に関する注意事項」 を熟読して下さい。 02. 最初に,録音レベル調整のため,5文程度を読んでもらう。 03. 各単語/文発声の前に必要に応じて発音練習をさせる。発音練習は録音す る必要は無い。 04. テープの操作(発声毎の ON/OFF)は,基本的にオペレータが行なう。なお, 環境により,オペレータによる操作が困難な場合は,話者が行なう。 05. 話者本人が気付かなかった間違いなどは,オペレータがチェックして,そ の都度,間違えた単語,文を再度収録する。 3回連続して誤った場合は発声をスキップしてもよい。スキップする場合 の手順は,「単語/文発声に関する注意事項」を参照のこと。 06. 接話マイクをLチャンネルに録音する。 07. 録音レベルの設定は平均レベルで「最大値−15dB」を基準とする。 08. 収録の終ったテープは再生/聴取し,「明らかな」発音誤り,雑音,言い 間違えなどをチェックする。なお,これは波形化作業と同時に進めてよい。 09. 発声内容の呈示は,発声用テキストを使用する。 10. オペレータは発声音量に極端な差が出ないように,一定の調子で発声する よう発声者の指導を行なう。 11. オペレータは発声者が机,紙等を動かして,音(雑音)を発生させないよう 注意,指導する。 12. 収録が長時間にわたる場合,必要に応じて,適宜休憩時間を設ける。休憩 の目安は30分に 1 回程度とする。 13. 「話者に対する」謝金の必要性に対する判断は各サイトに委ねる。なお, 謝金を支払う場合は,一人当たりおよそ3,000円が相場と考えている。 14. なお,「発声協力依頼書」には,謝金の欄が有る依頼書と,無い依頼書を 作成しているので,必要に応じて使い分けるように。また,謝金の欄が有 る場合でも,金額は空欄のままである。各サイトで適宜記入して利用する ように。 15. 文番号,単語番号の発声に関しては,収録サイトにおいて「発話内容と文 (単語)番号との対応を確認しながら」ファイル化作業を行なう場合に限り, 発声する必要はない。文(単語)番号の発声は,ファイル化作業の効率を上 げるため(発話者が正しいと判断した発声の検索)に行なわせている。 [3] 標準的な収録手順 01. オペレータは収録方法,発声時の注意事項を発声者に説明する。 02. 収録に先立ち,録音レベル調整のため,最初の5文を発声してもらう。 03. 発声用テキストを読み上げ,DATに収録する。 なお,直接サンプリングができる場合は,DAT ではなく,直接ファイル化 してもよい。なお,サンプリング条件は,16kHz/16bit である。エンディ アンなどの条件に関しては,[4]-09. を参照のこと。 04. 発声者票に記人してもらう。収録室の騒音レベルを測定可能ならば,記入する。 05. 収録/ADされた音声データを再生し,データのチェックを行う。 06. データチェックの結果,必要があれば再収録を行う。 07. DATテープを収納するケース等に収録情報を記入する。 [4] 収録条件 01. 収録場所は,防音室または大きな雑音や他の音声が入らない(できるだけ 広い)居室とする。 02. 収録する文と文の間には,後でのデータ編集を容易にするよう1秒程度の 間隔を設ける。 03. 周囲の騒音レベルは,50dBA以下を目安とする。 04. マイクロホンは,接話型(Sennheiser HMD410と同等品)を使用する。なお, Sennheiser HMD25-1(のマイク)は上記の同等品である。該当マイクが無い 場合は連絡するように。本プロジェクトからお貸しすることが可能です。 05. 録音機器は特に定めないが,使用した機器をチェックリストに記入しておくこと。 06. リミッター,ゲインコントロールなどは使用しない。 07. (ローパス)フィルターを利用する必要がある場合は,使用フィルターを記 入しておくこと。 08. ファイル化に際しては,DAT-LINK を経由して取り込むことを推奨する。 09. 標本化周波数は 16kHz とする。なお,エンディアンは,ビッグエンディ アンでファイル化する。Pentium マシンのエンディアンはリトルエンディ アンなので,注意するように。 注意:収録時,及び音声データ提出時はビッグエンディアンの PCM ファ イルを要求したが,データベースの公開に当たって,全ファイルを windows のサウンドファイル標準フォーマットである wav ファイルに変 換して公開することとなった。 10. ファイル化の際には,発声直後に少なくとも「300 msecほどの無音」を付 与すること。 [5] データの送付に関して 01. 音声のファイル化まで行なったサイトは,音声ファイル群を適切なメディ アに格納して送付する(DATテープは送付する必要なし)。メディアとして は,MO, CDR, CDRW, DATカートリッジなど,一般的なメディアであれば問 題は無いが,その後の作業を簡便化するためにも,CD に焼いて送付して 頂けると有難い。また,その後の作業は,UNIX (Linux) 上で行なうこと が予想されるため,UNIX からアクセスできる形で保存する。 UNIX 環境が無いなど,上記条件を満たすことが出来ない場合は,別途相 談すること。 02. 音声のファイル化作業が出来ない場合は,[2]-08. にある聴取によるチェッ クを行なった後,収録した DAT テープを送付すること。 03. 送付に際しては,「承諾書」「チェックリスト」を同封すること。 04. 郵送先は以下の通り 〒113-8656 東京都文京区本郷7-3-1 東京大学大学院 情報理工学系研究科 電子情報学専攻 峯松 信明 TEL:03-5841-6393, MAIL:mine@gavo.t.u-tokyo.ac.jp 05. 提出〆切期限 以下のように提出〆切を設定する。 収録のみを担当する機関 :2001年6月末 ファイル化作業まで担当する機関:2001年7月末 なお,個々の研究サイトの都合もあるかと思いますので,その場合は別途 致します。 [6] 音声データのチェック 計算機システム上に正しい音声データファイルを作成するために,音声収録, A/D,ファイル編集の各処理過程でのデータチェックが必要である。中でも最 も重要かつ有効なチェックは,人間の聴覚で直接判明できる収録時のチェック である。ここで発声時において生起しやすい問題をあげると次の通りである。 1. 発声テキストとの相違…順序変更,読みとばし,読み違い,重複など 2. 発声上の特徴…無声化,アクセントの違いなど 3. 無意味語発声 4. 雑音混入…呼吸音(ブレスノイズ),環境ノイズ 5. 発声レベル 大小 6. 発声速度  早遅 7. 発声間隔  長短,前発声との重なりは禁物 なお,今回収録する英語音声は,発声者本人が必ずしも正しい英語音を生成す るとは限らない。そこで,上記 2. の「発声上の特徴」による誤りとは,提示 されたインストラクションに対する発声者の明らかな「誤解」に基づく発声誤 りのみを対象とし,その判断は,オペレータに委ねる。 なお,録音終了後の検査は,2名のオペレータで行ない,つき合わせをするの が望ましい。 [7] 話者の選定に関して 今回の「日本人による英語音声データベース」は英語の苦手な人から英語の上 手な人まで幅広く音声データを収録することを目的としている。そして,英語 発音能力の分布としては,およそ「日本人大学生における英語発音能力の分布」 と一致するような話者選定を心掛けて頂きたい。ただ,厳密に上記を実現する ことは困難であるので,ここでは,「話者選定に対して英語能力の偏りが生じ ない選定方法をとる」ということでお願いしたい。例えば発声者として希望者 を募った場合,英語の発音が得意な学生ばかり集まり,非常に偏ったデータと なることが容易に予想される。そこで,対象となる学生を名前順に並べ,偶数 番の学生を話者として任命する,くじ引きで任命する,などのランダム性を入 れ,意図的な話者選定が行なわれないよう,注意するように。厳密さを追求す るならば,各大学の大学入試英語偏差値などを考慮して各大学の話者人数を決 定すべきであるが,今回の音声収録はそこまでは考えていない。「各サイトに おいて,意図的な選定が行なわれなければよい」という方針の下,選定作業を 行なってほしい。