研究紹介

観測対象に内在する情報の不変的構造表象とその数理的モデリング

環境から受け取る信号(視覚・聴覚・触覚・・・)は様々な変形を被ります。しかし,我々はこれらの変形前後の刺激に対して同一性を感覚できます(知覚の恒常性)。この問題に対する一般解を数学(位相幾何学・トポロジー)的に導出し,様々なメディア情報処理への応用を検討しています。変形不変の情報表象を峯松研では提案しています。

話者の違い,年齢の違い,環境の違いに頑健な音声認識技術の構築

音声ストリームを対象として不変構造抽出を計算機実装すれば,話者の違いや環境の違いに対して不変な音パターン抽出技術が構築されます。また,雑音が混入された音声を逐一クリーン音声に戻す処理を実装することでも頑健な音声認識は可能です。様々な観点・方法論から,環境の違いに頑健な音声認識技術の構築とその応用を検討しています。

幼児の言語獲得プロセスのシミュレーションとそれに基づく音声合成技術の構築

幼児の言語獲得は親の発声を真似る(音声模倣)ことが基本ですが,この行為,他の霊長類では観測されません。小鳥,クジラ,イルカで観測されるだけです。でも,動物の音声模倣は声帯模写的であって,ヒトとは違います。ヒトの幼児は発話者の体格差を越えた音パターンを抽出し,自分の口で再生します。このプロセスを計算機実装しています。

外国語の発音評価システムの構築と教育現場での実践的活用

小学校で英語の授業が始まりました。でも,先生の声と生徒の声は音としては大きく異なります。話者の年齢・性別・体格などに影響を受けない外国語発音評価システムを構築しています。同様の技術は方言分析にも応用されています。また,シャドーイングという聴取・発声訓練手法に着眼し,学習者のTOEICスコアの自動推定なども検討しています。

高精度で柔軟な音声合成・声質変換技術

Webに代表されるような大規模なメディアデータが世にあふれており、これらを用いた音声技術は今後より重要になってきます。しかしデータが大規模になったとしても、より柔軟に所望の音声の合成を実現するためには、話者性、言語性といった着目する情報を適切に抽出し、因子化したうえで、再構成する枠組みが必要となります。研究室では特に言語性を保持したうえで、話者の情報や発話スタイルを操作する統計的声質変換に着目し研究を進めています。Noisy Channel Model と呼ばれる確率的枠組み、テンソル解析・行列変量に基づく特徴量表現を用いた話者性制御、カーネル表現を用いた言語情報の記述、新しい深層学習モデルの導入など、確率的・数理的モデルを背景とした拡張性の高い音声合成・音声情報処理技術の構築を目指します。その他、韻律制御の確率モデル的取扱いや、歌声や歌詞、文字認識・合成といった他メディアへの音声言語情報処理の応用についても数理モデルによる抽象化を介して検討を進めています。

マルチメディア情報のアラインメント・対応付け

これまでの単一のメディアを用いた情報提示ではなく、音声、映像、行動データなど、あらゆるマルチメディア情報を同時に扱う枠組みが重要になってきています。音声情報処理分野で培われた系列メディアに対する情報処理をその他のメディア情報へと応用するとともに、複数のメディア情報の対応付けを行う研究について検討を行っています。例えば、大規模な料理のレシピデータとユーザの調理行動を、音声対話システムの基礎技術を通して動的に結びつける研究や、エージェントの顔情報と音声情報に齟齬がないように適切な対応付けを行う研究を現在進めています。