現在の音声技術に対する素朴な問い
- 2009年末,Googleが音声認識インタフェースを提供するというニュースが流れた。私のiPhoneでもGoogle音声認識が使える。また,感情や意図を反映してテキストを読み上げたり,歌詞を歌い上げる音声合成技術も登場している。音声を用いたマン・マシンインタフェースはロボットにも応用され,愛知万博では「言葉を理解するロボット」が登場した。峯松は学部時代より,音声工学・音声科学の研究に従事しているが,一貫して現在の音声技術体系に,どうしても拭えない一つの違和感を感じてきた。この違和感は「音声技術が行っていること」と「人間が行っている(と思われること)」の間に存在する大きなギャップに起因する。
-
- 例を示してみよう。老若男女,誰の声でも正しく認識する不特定話者音声認識技術を構築する場合,数千人から数万人の話者の音声サンプル(話者バランスのとれた音声コーパス)を集めて,音素や単語などを単位とした統計的音響モデルを構築する。例えば,IBMが自社製の音声認識エンジンの宣伝のために使った「集めた話者数」は35万人であった[1]。一方,幼児の言語獲得過程を考えてみる。彼らの聞く声の多くは,母親,父親である。自身が話すようになれば,凡そ半分は自らの声を聞く。このように人の聞く声というのは話者の偏りが極めて大きい。この状況下で,通常は誰の声でも適切に処理できるようになる。どうだろうか,少しは峯松が感覚する違和感がご理解頂けただろうか?もう一つ例を示してみよう。
-
- 最近では,話者適応を前提として音響モデルを構築するようになってきた。つまり,話者を沢山集めるのではなく,ある特定話者用の音響モデルを作る。そして,それを使う際に,利用者の声色に合わせる形で修正をかけ,その話者用の音響モデルとして使用する。こうすれば,原理的には一人の話者の声で(後は適応処理を使うことで)不特定話者用の音響モデルが構築できる。しかし,話者適応をかけなければ,認識率はガタ落ちする。大人の音響モデルで子供の声を認識しても精度は期待できない。音としては大きく異なるからである。つまり,学習環境と利用環境との間で音響的な条件を揃えて初めて 「使える」技術となる。どうだろう。「特定話者音響モデル+常時適応(修正)」という戦略に違和感は感じないだろうか?
-
- ここでも幼児の言語獲得を考えてみよう。言葉の獲得は「音声模倣」と呼ばれる,他個体の発声を積極的に真似ることが基本となる。ここで,幼児の音声模倣は声帯模写とは異なる点に注意して頂きたい。彼らは音響的な模倣は行わない。父親の太い「おはよう」と自らの可愛い「おはよう」とで,両者の同一性を感覚してくる。一方,動物の世界では「音声模倣」は鳥,イルカ,クジラなどで観測されているが(霊長類で行うのは人間だけである[2]),動物の音声模倣は基本的に音響的模倣である[3]。音としての同一性が基本となっている。これと異なり,幼児の音声模倣は体格の差異を越えた模倣行為である。言い換えれば,人間とは「音としては大きく異なる二つの音ストリームに対して同一の情報が存在することを感覚できるようになった種」ということになる[4]。刺激を音声ではなくメロディーとした場合でも同様である。「人間以外の霊長類が,移調前後のメロディーの同一性を感覚できるか」を調べた研究が示すのは,彼らにとって移調前後のメロディーは「異なるモノ」でしかない[5][6],ということである。
-
- HMM(隠れマルコフモデル)が登場する以前,音声認識はDPマッチング(動的計画法,Dynamic Time Warping)によって実装されることが多かった(HMMとて,DPの統計版でしかない)。音声認識におけるDPとは「二つの発声の音響的同一性でもって,その発声が運ぶ情報の同一性を検証する」技術である。なので,話者の違いやマイクの違いなどは事前に合わせておく必要がある(話者適応,環境適応)。ここまで言うとお分かりであろう。「それって,動物の音情報処理モデルですか?」という質問が進化人類学(霊長類研究)を学ぶ学生から寄せられるのでは?ということである。「音としては大きく異なる。でも,その二つの発声は同一の情報を担っています」こういうことを感覚できるようになったのが人間である。であれば,これに対応する形で技術も構築すべきでは,というのが峯松の主張である。父親の「おはよう」と幼児の「おはよう」の間に,体格の差を超えて共通して潜む音響パターンを見定めるような技術が必要,と考える訳である。
-
- 「何も人間がやってることを真似ることは無いでしょう。飛行機だって鳥とは異なるし」とはしばしば聞かれる言葉である。確かに,人間の真似をしなくても,音声言語を使いこなしているように見える技術ができれば良いのかもしれない。ただ,こういう事実を付け加えるとどうだろう。重度自閉症者の中には,音声模倣が声帯模写的になる場合が散見される[7][8][9][10](七色の声を持つと言われる,中村メイ子の声を真似る自閉症者もいる[11])。音を真似る。母親の声は正しく理解できるが,それ以外は難しい,という例すらある[12]。音の同一性でもって,情報の同一性を感覚する訳である。そして重度自閉症者にとって,音声言語の獲得は非常に難しい[13](文字言語のみが獲得される場合も多い)。自らがアスペルガー症候群(高機能自閉症の一種)であるグランディン教授(コロラド大学・動物学)は,動物の情報処理と自閉症者の情報処理の類似性を指摘している[14]。
-
- 現在の音声工学の技術体系に対する峯松の違和感,ご理解戴けたと思う。続けよう。
-
- テキストを読み上げる機械(音声合成装置)を作る場合,当然,ある話者の声を集めることになる。そして,合成される声は,その話者そっくりの声となる。ある意味当たり前なのだが,与えられた声をそっくり真似るのは,上記の重度自閉症者や,あるいは,九官鳥などに観測される。こうなると「音声合成装置は,九官鳥シミュレータに見えてくる」というのが,峯松の視点である。
-
- 「音響的同一性でもって,音が運ぶ情報の同一性を認識する技術」「与えられた(ある話者の)音声コーパスに対して,同一話者の発声を合成する技術」これらを搭載して「言葉を理解するロボット」として子供の前に展示していたのが愛知万博である。人間と動物の間の音情報処理の違い(進化の軸から考える音声言語),何らかの先天的な欠損が原因と思われる障害を持つ方々と健常者の間の音情報処理の違い(発達の軸から考える音声言語),これらを踏まえた上で機械に音声言語を授けたい,と考える峯松からすれば,あのロボット達は本当に「言葉を理解する」ロボットなのだろうか?本ページをご覧になっている読者は音声技術に興味を持つ学生が多いだろう。一つ聞いてみたい。機械にも音声言語を操れるようにする技術構築がしたいのか,それとも,機械が音声言語を操っているように「見せかける」技術構築がしたいのか,どちらだろうか?言い換えれば,美味しい料理を作りたいのか,美味しい料理に見えるモノをロウやプラスチックを使って作りたいのか,どちらだろうか?ということである。見た目がそう見えればよい,のであれば,料理としての機能を満たさなくても良い。「工学研究とは,そっくりな偽物を作る作業でしかない」というのはある意味事実であるが,どこまで本物に迫りたいのか,によって研究戦略は大きく異なる。どの戦略を採択するのかは,研究者本人の自由である。本ページは,現在の音声技術が享受している「偽物度・本物度」では満足できない方々に向けた,峯松研究室の研究紹介ページである。
-
- 代表的な発表文献
- "Mathematical evidence of the acoustic universal structure in speech",Proc. Int. Conf. Acousitcs, Speech, & Signal Processing,889-892(2005-3)
- "「あ」という声を聞いて母音「あ」と同定する能力は音声言語運用に必要か?",日本語学4月号,187-197(2008-4)
- "音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力",音声言語シンポジウム(招待講演)(2008-12)
- "人間に近づく音声認識",日経サイエンス6月号,94-99,日経サイエンス社(2009-6)
- "言葉の不思議を探求する 〜音声工学者・峯松信明と動物科学者テンプル・グランディンの自閉症報告〜",最相葉月著「ビヨンド・エジソン」第6章,119-140(2009-9)
- "Speech structure and its application to robust speech processing",Journal of new generation computing,28,3(2010-7)
- "A study of invariance of f-divergence and its application to speech recognition",IEEE Trans. on Signal Processing,58,8(2010-8)
- "音声に含まれる言語的情報を非言語的情報から音響的に分離して抽出する手法の提案 〜人間らしい音声情報処理の実現に向けた一検討〜",電子情報通信学会論文誌,vol.J94-D,no.1,pp.12-26 (2011-1,招待論文)
-
- 参考文献
- [1] http://www.e-eikaiwa.org/voice-eishunkan/index.html
- [2] W. Gruhn,"The audio-vocal system in sound perception and learning of language and music",Proc. Int. Conf. on language and music as cognitive systems(2006)
- [3] 岡ノ谷一夫,"小鳥の歌と言語:共通する進化メカニズム",音響学会春季講演論文集,1-7-15,1555-1556(2008,質疑応答を含む)
- [4] 養老孟司,"人間科学",筑摩書房(2002)
- [5] M.R. D'Amato,"A search for tonal pattern perception in cebus monkeys: why monkeys can't hum a tune",Music Perception,5,453-480(1988)
- [6] M.D. Hauser and J. McDermott,"The evolution of the music faculty: a comparative perspective",Nature neurosciences,6,663-668(2003)
- [7] L.H. Willey,"アスペルガー的人生",東京書籍(2002)
- [8] T. Grandin,"我,自閉症に生まれて",学研(1994)
- [9] R. Martin,"自閉症児イアンの物語〜脳と言葉と心の世界〜",草思社(2001)
- [10] ニキリンコ,"スルーできない脳 〜自閉は情報の便秘です〜",生活書院(2008)
- [11] 深川憲,"ひろしくんの本(V)",中川書店(2006)
- [12] 東田直樹,東田美紀,"この地球にすんでいる僕の仲間たちへ",エスコアール(2005)
- [13] U. Frith,"自閉症の謎を解き明かす",東京書籍(1991)
- [14] T. Grandin,"動物感覚〜アニマル・マインドを読み解く〜",日本放送出版協会(2006)
動き(差異,コントラスト)の中に存在する不変項の導出
- 父親の太い声の「おはよう」と子供の可愛い声の「おはよう」の両者に共通に潜む音響パターンとは何か?音声合成の一分野である「声質変換」では,話者の違いを空間写像として捉える(Aさんの声空間とBさんの声空間を用意し,両者を写像で関係づける。Aさんの発声はA空間の軌跡として表現されるが,それを写像によってB空間に変換し,B空間の軌跡を音として生成すると,Bさんの声となる)。結局,話者の違いを超えた音響パターンとは,空間写像によって変わらないパターンである必要が生じる。言い換えれば,変換不変量のみで発声を表象する(表現する)ことができれば,それが年齢・性別・体格に不変な発声の表象となる。我々は「空間内の事象は分布として存在する」という前提条件の下,1)f-divergence と呼ばれる二分布間の距離尺度が,如何なる「連続かつ可逆な」変換に対して不変であること(不変性に対する十分条件),及び,2)二つの分布によって定義される(積分)量を考えた場合,その量が如何なる「連続かつ可逆な」変換に対して不変性を有するならば,それは,f-divergence でなければならないこと(不変性に対する必要条件)を数学的に証明した。この f-divergence のみを用いて音声を表象すれば,それが完全変換不変な音声表象となる。
-
- 特徴量ベクトル系列に対し,類似したベクトル同士をマージして分布化し,ベクトル列を分布列へと変換する(自動セグメンテーション)。その後,(時間的に離れたものを含め)全ての二分布間距離を f-divergence で計測し,距離行列を構成する。当然,この距離行列は変換不変である。距離行列は一つの幾何学的形態(構造)を規定するため,これを変換不変な構造表象と呼んでいる。
-
- 音声に対してこの操作を行って(特徴量ベクトル=ケプストラム係数)得られる行列表象を,音声の構造的表象と呼んでいる。個々の事象がどのような音色(スペクトル)を有するのかは一切捨象して,事象間の距離,コントラストのみを情報として保存する。言い換えれば,音声の動きの中に存在するコントラスト量のみを使って発声を表象する。動きの中の不変項を使って音声を表象する訳である。なお,知覚の頑健性は心理学の世界では知覚の恒常性とも呼ばれ,音声に限らず,色,メロディー,など様々なメディアに対して観測されている現象である。下記発表文献に示しているように,構造的な不変表象は,他のメディアにおける知覚の恒常性を考慮した上で提案されたものであり,音声という一つのメディアに特化して論じている訳では無い。
-
- 代表的な発表文献
- "線形・非線形変換不変の構造的情報表象とそれに基づく音声の音響モデリングに関する理論的考察",日本音響学会春季講演論文集,1-P-12,147-148(2007-3)
- "音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力",音声言語シンポジウム(招待講演)(2008-12)
- "Speech structure and its application to robust speech processing",Journal of new generation computing,28,3(2010-7)
- "A study of invariance of f-divergence and its application to speech recognition",IEEE Trans. on Signal Processing,58,8(2010-8)
- "音声に含まれる言語的情報を非言語的情報から音響的に分離して抽出する手法の提案 〜人間らしい音声情報処理の実現に向けた一検討〜",電子情報通信学会論文誌,vol.J94-D,no.1,pp.12-26 (2011-1,招待論文)
音声認識への応用
- 構造表象を用いて単語音声を表象・表現し,これをテンプレートとして用いれば,話者の違い・マイクの違いなどの静的な音声の変形に対して極めて高い頑健性が実現できるはずである。しかも話者や環境が変わる度に,音響モデルを修正する必要の無い音声認識が可能となるはずである。事実,単語音声を構造化(行列化)してテンプレートとして用いると,話者性に対して極めて頑健な音声認識装置が構築できる。いや,頑健すぎる装置が構築できる。話者差に基づく声色差は,スペクトル(音色)の違いである。一方,音素の違い(単語の違い)もスペクトルの違いである。その結果,話者差を無視しようとすると,当然のことながら,音素差・単語差までも無視することに繋がる。異なる二単語を同一視するような装置が出来上がる。不変性が強すぎるのである。我々が欲しいのは「話者の違い」だけに不変となる「都合の良い不変性」である。このようなことが可能なのだろうか?不変性と識別性を上手に制御することが可能なのだろうか?答えは Yes である。話者の違いは空間写像としてモデル化されるが,あらゆる写像を考える必要はなく,「ある写像群」に対して不変となればよい。実際に話者差を数学的にモデル化して検討していくと,声空間を部分空間へと分割し,各部分空間で構造を構成すれば実装できることが導かれる。部分空間構造に基づく音響照合である。これにより「不変性と識別性を制御可能な」孤立単語音声認識システムを構成することに成功した。
-
- 代表的な発表文献
- "音声の構造的表象に基づく日本語孤立母音系列を対象とした音声認識",電子情報通信学会論文誌,J91-A,2,181-191(2008-2)
- "構造表象を用いた音声認識におけるパラメータ共有とその効果",電子情報通信学会音声研究会,SP2008-52,55-60(2008-7)
- "音声の構造的表象と判別分析を用いた単語音声認識",電子情報通信学会音声研究会,SP2008-113,203-208(2008-12)
- "A study of Hidden Structure Model and its application to labeling sequences",Proc. IEEE Int. Workshop on Automatic Speech Recognition and Understanding,118-123(2009-12)
- "Speech structure and its application to robust speech processing",Journal of new generation computing,28,3(2010-7)
- "A study of invariance of f-divergence and its application to speech recognition",IEEE Trans. on Signal Processing,58,8(2010-8)
- "音声に含まれる言語的情報を非言語的情報から音響的に分離して抽出する手法の提案 〜人間らしい音声情報処理の実現に向けた一検討〜",電子情報通信学会論文誌,vol.J94-D,no.1,pp.12-26 (2011-1,招待論文)
外国語発音評定への応用
- 音声の構造的表象は,本来,外国語発音評定を目的として構築された経緯を持つ。と言うのも,音声認識の世界では常識となっている話者適応技術が,発音評定の場合,導入しづらい状況があるからである。大人(教師)の発音を真似る小学生を想定して頂きたい。教師発音の音響モデルと小学生の発声とを比較すると,当然,体格の違いから,そのまま比較しても発音の上手・下手を判定することは困難となる。音声認識では話者適応を施して,テンプレートを子供用に修正して用いることになる。同様のことを大人の発音音響モデルに適用して,テンプレート(モデル)を子供化して対処することは,技術的には可能である。ここで「技術的に可能だから,えいや,とやってしまう」のか,それとも「その技術的解決が,一体何をやっていることになるのか(一種のグラウンディング),をしっかり考えて,その解決策を採択するか否かを考える」のかは,研究者のポリシーの問題である。「大人のモデルを子供化して・・・」というのは発音の良し悪しを見ているのだろうか?それとも,声帯模写(音真似)の良し悪しを見ているのだろうか?当然後者である。例えば,教師音声と学生音声とをDPすれば,それは,声帯模写の出来不出来を定量化しているに過ぎない。声帯模写の評定をする技術を発音評定に応用するがために,学習者毎に,教師モデルをその学習者の声色に合わせて調整する必要が生じるのである。こういう技術を用いて発音評価システムを構築することに対して「違和感」を感じるか,感じないかは,研究者のポリシーの問題である。峯松は「違和感」を感じるのである。このような方法で技術開発したところで「解けた」気にならないのである。「解けたように見せかけている」自分をそこに見つけるからである。
-
- そこで構造表象である。この方法論は元来,峯松の英語発音を評価する際に「峯松の声から,峯松であること(峯松の体格,性別,年齢などの情報)を消す」ための技術として生まれた。教師は,そのような特徴を無視して発音評定を行うからである。その後,様々な経緯を経て現在に至っている。
-
- 代表的な発表文献
- "音声に内在する音響的普遍構造とそれに基づく語学学習者モデリング",電子情報通信学会音声研究会,SP2003-179,25-30(2004-1,音声の構造的表象に関する最初の論文)
- "音声の構造的表象に基づく英語学習者発音の音響的分析",電子情報通信学会論文誌,J90-D,5,1249-1262(2007-5)
- "Structural assessment of language learners's pronunciation",Proc. INTERSPEECH,210-213(2007-8)
- "Structural representation of the pronunciation and its use for classifying Japanese learners of English",Proc. ISCA Int. Workshop on Speech and Language Technology in Education,CD-ROM(2007-9)
- "Are learners myna birds to the averaged distributions of native speakers? -- a note of warning from a serious speech engineer --",Proc. ISCA Int. Workshop on Speech and Language Technology in Education,CD-ROM(2007-9)
- "Training of pronunciation as learning of the sound system embedded in the target language",Proc. The 8th Phonetic Conference of China and Int. Symposium on Phonetic Frontiers,CD-ROM(2008-4)
- "Sub-structure-based estimation of pronunciation proficiency and classification of learners",Proc. IEEE Int. Workshop on Automatic Speech Recognition and Understanding,574-579(2009-12)
- "Speech structure and its application to robust speech processing",Journal of new generation computing,28,3(2010-7)
- "音声に含まれる言語的情報を非言語的情報から音響的に分離して抽出する手法の提案 〜人間らしい音声情報処理の実現に向けた一検討〜",電子情報通信学会論文誌,vol.J94-D,no.1,pp.12-26 (2011-1,招待論文)
方言分析への応用
- 構造的表象は,N個の事象(分布)群に対して N(N-1)/2 個だけ定義できる事象間距離を距離行列として求めることで得られる。距離行列は幾何学的形態(構造)を規定するが,この距離行列(形態)の(二次元平面上での)視覚化手段として樹形図(分類木)がある。つまり,N個の事象の分類木が構成できる。また,構造表象を用いた音声認識で導出されている構造間距離を使えば,学習者Aの構造と学習者Bの構造の間の距離が求まる。その結果,学習者間距離行列が求まることになるが,これを用いれば,学習者を発音に基づいて(年齢や性別とは無関係に)分類することが可能となる。発音評定の応用にて学習者分類を試みているが,この技術を「方言性に基づく話者分類」に応用した。
-
- 中国語は方言が異なると,話し言葉としては通じなくなる。中国語方言は,一種の外国語と同じである。方言が違えば,母音の数も種類も異なってくる。しかし,各種方言が使う文字(漢字)は共通である。そこで,予め定めた数十種類の漢字セットを各方言話者に読ませ,その漢字群からなる構造表象を構成した。こうすると,年齢・性別などの情報が消失し,方言性による形態(構造)の歪みのみが表象されることになる。これを用いれば,方言性に基づく話者分類が可能となる。
-
- なお,従来の技術を用いても方言同定は可能である。同一方言話者を多数集め統計的な方言モデルを構成する方法論である。この場合,話者の違いをバラツキと考え,統計的に方言音声をモデル化する。しかし,中国語の場合,方言は,準方言に分かれ,準方言は,準々方言に分かれ,準々方言は,準準々方言に分かれる。即ち,中国語方言を厳密に考えれば「人間の数だけ方言が存在する」ということになる(それほど,中国語の方言は複雑である)。逆に言えば「話者数を集めて話者の違いに対処する方法論では,原理的に対処できないのが中国語方言」ということになる。想定すべきタスクは,方言同定ではなく,方言性に基づく話者分類,となる。なので,構造表象を用いた方言分析が意味を持つ。
-
- 代表的な発表文献
- "Dialect-based speaker classification of Chinese using structural representation of pronunciation",Proc. Speech and Computer,350-355(2009-6)
- "Structural analysis of dialects, sub-dialects, and sub-sub-dialects of Chinese",Proc. INTERSPEECH,2219-2222(2009-9)
音声合成への応用
- 音声認識,外国語の発音評定,方言分析はいずれも,音声から非言語的特徴(年齢,性別,体格などの特徴)を取り去ることを目的とした応用である。即ち,音声を抽象化することを目的とした応用である。これに対して,抽象化された音声(構造)に対して,話者の身体性を戻して上げることで「音としての具体的・具象的な音声」を作り出す応用を試みている。言うなれば,幼児の音声模倣を計算機上に実装する試みである。両親の発声に対して,両親の身体的な情報がそぎ落とされた音声構造を抽出し,それを,自らの身体を使って音に戻す。この時,親の身体と子供の身体はサイズが異なるため,音としては大きく異なる音が生まれる。これを計算機上に実装する試みである。父親の発声を構造化し,それに対して,例えば「声道長=12cm」という情報を与えることで声を作ることに相当するが,実際の実装は,そのような身体的な特徴を直接的に与えて音を作る訳では無い。構造を構成するN個の事象群に対し,幾つかの「実音」を提供する(初期条件)。そして,構造表象(距離行列)を残りの音群が満たす制約条件として考え,残りの音群を具体的な音として音響空間内に定位していく。端的に言えば,実音を初期条件,構造を制約条件とした解探索問題を解く訳である。
-
- 代表的な発表文献
- "孤立音[あ]を聞いて/あ/と同定する能力は音声言語に必要か?",電子情報通信学会音声研究会,SP2007-30,37-42(2007-7)
- "Structure to speech -- speech generation based on infant-like vocal imitation --",Proc. INTERSPEECH,1837-1840(2008-9)
- "Improvement of structure to speech conversion using iterative optimization",Proc. Speech and Computer,174-179(2009-6)
- "Optimal event search using a structural cost function -- improvement of structure to speech conversion --",Proc. INTERSPEECH,2047-2050(2009-9)
- "音声に含まれる言語的情報を非言語的情報から音響的に分離して抽出する手法の提案 〜人間らしい音声情報処理の実現に向けた一検討〜",電子情報通信学会論文誌,vol.J94-D,no.1,pp.12-26 (2011-1,招待論文)
音声言語研究の究極の目的
- 本ページの冒頭で「美味しい料理を作りたいのか,美味しい料理に見えるモノをロウやプラスチックを使って作りたいのか,どちらだろうか?見た目がそう見えればよい,のであれば,料理としての機能を満たさなくても良い」と書いた。では,年齢,性別,体格をそぎ落とした音響パターンを扱う技術ができたとして,それでもって,音声言語の機能を全て担えるだろうか?答えはNoである。何ができれば,音声言語の機能を機械に宿したことになるのだろうか?
-
- 音声言語の機能としてしばしば耳にするのが「思考」と「コミュニケーション」である。峯松は,この二つの機能を更に一つにまとめ上げる形で,音声言語の機能を「効率的な記憶の編集」として捉えている。自らの記憶を検索し,書き換え,整理整頓し,再組織化する,これが「思考」であり,他者の記憶を検索し,書き換え,整理整頓し,再組織化する,これが「コミュニケーション」である。であれば問うべきは,「何故,空気振動の中にある種のパターンが発生すると,その空気振動パターンは自己の,そして他者の脳に刻まれた記憶を,かくも効率的に編集できるのか?」となる。例えば,体格の大きく異なる二話者が発声した/migitewo misete/(右手を見せて)が,聞き手の脳の記憶に等価な編集作用を及ぼし,その結果,聞き手に等価な反応を促していると考えるならば,体格を越えた共通パターンとして定義される構造的表象は,この記憶の編集作業にどのように貢献しているのか,いないのか,これが問うべき対象となる。
-
- 当然「ニューロンのネットワークにおいて,記憶がどのような痕跡として形成されるのか」は,脳科学の未知領域であり,上記の問いを解くべき時期はまだまだ先であろう(峯松が研究者を卒業するまでにその時期が訪れる保証も当然無い)。現時点で行えるのは,仮説を立て,思考実験を繰り返して吟味し,関係研究者と(時には酒を交えながら)論じあい,来るべき時に備えるだけ,かもしれない。峯松なりに思考した作文を最後に幾つか示しておきたい。
-
- 代表的な発表文献
- "構造不変の定理とそれに基づく音声ゲシュタルトの導出",電子情報通信学会音声研究会,SP2005-12,1-8(2005-5)
- "音声の構造的表象に基づく音声認知と外国語発音学習に対する一考察",電子情報通信学会思考と言語研究会,TL2006-40,55-60(2006-11)
- "要素論から全体論へ 〜全体から入る音声情報処理への招待〜",情報処理学会音声言語情報処理研究会,2007-SLP-67-14,75-80(2007-7)
- "音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力",音声言語シンポジウム(招待講演)(2008-12)
- "音色の変復調を通して考える音声コミュニケーション",電子情報通信学会思考と言語研究会,TL2010(2010-5)
- "音声に含まれる言語的情報を非言語的情報から音響的に分離して抽出する手法の提案 〜人間らしい音声情報処理の実現に向けた一検討〜",電子情報通信学会論文誌,vol.J94-D,no.1,pp.12-26 (2011-1,招待論文)