クローズアップ現代の初音ミク特集より - 無理なご乗車はおやめ下さい。

2月28日放送。視聴率は関東地区で9.6％。クローズアップ現代の公式サイトによると、平均視聴率は12％前後なのであまり良くはない数値ではあります。やはり視聴層が若者向けとは言えませんし、リピーター層だけの数値ならまだ低いかもしれません。NHK的には企画失敗？でも音声合成技術の医療プロジェクトの紹介は見応えあったし、国谷さんのツッコミ等も色々と考えさせられるものでした。

個人的に、今回の放送で最も気になった点は次の二点です。

どうして日本で音声合成技術が発達したのか
自分の「声」に含まれるアイデンティティ
音声合成技術の悪用について

日本の音声合成技術の発達について

産総研の後藤真孝氏は「日本の技術、日本の社会、日本の文化のそれぞれの強みが相乗効果で生かされている」と、日本の音声技術発達の背景を述べています。コンピューターの普及、発達で誰もが簡単に自分の主張や作品等をネット上に投稿することができ、さらにはそれに対する批評もリアルタイムで得ることができる。さらには、初音ミクというキャラクター性が日本では受け入れられやすく、それを大切にする文化がある、と後藤氏は主張していました。

確かにその通りだと思う。もしもインターネットがなくても、何十年も続くコミケの歴史があるように口コミだけである程度はオタク社会に浸透していた可能性もある。だけどそれは一部のDTM利用者ほどで、音楽活動を本格的にしているような人には伝わらなかっただろうし、オリコンで上位に食い込むこともなかったと思う。結局、初音ミクというキャラクターの存在とインターネット（まぁニコニコ動画とか）が上手い具合に合致したのが、ここまでの人気の原因になったわけですよね。言うまでもないか。

それでも、現時点では初音ミクが日本社会に完全に受け入れられたとは言い難い。国谷さんも言っていたように、歌声というものは人間が発するべきものである、という固定観念が日本だけでなく世界中に存在しているからです。当たり前ですよね。コンピューターやロボットが歌うなんてのは近年では少なくなかったし、それはどうみても人間の歌声とは似ても似つかないものだったのだから。人類何千年の歴史が受け継いできた「歌」は、あくまでも人間が歌うものだったわけです。

といっても個人的には「歌声」は「楽器」と同じであると考えています。こう見えても、高校、大学とバンドを嗜んでいて、「歌声」と「楽器」にそれぞれ良さがあってどちらが優れたものなのかということか判断できるものではないと考えるようになりました。単純に、人と物が発する音に優劣の差なんてないわけです。そう考えると、初音ミクの「歌声」と人間の「歌声」にも差はなくて、それはどちらも音であることに違いないのです。

例えば、クラシックとポップミュージックを比べても、クラシックのほうが高貴で高尚な音楽であるということにはならないのと同じ。まぁ一部の人はクラシックが最高の音楽であると考えているのかもしれないけど、でも冷静に考えればそんなことはないわけで。好きか嫌いかで議論するのは結構だけど、音楽に優劣を決めるのは滑稽な行為でしかないと思います。

だから、初音ミクと人間の歌声の間に境界線を引くわけではなく、どちらも同じ音楽であるという認識が社会全体に伝われば、音楽の幅もこれまで以上に拡がると思うのです。まぁそうは言ってもしばらくは無理だろうな。

声とアイデンティティ

イギリスのエディンバラ大学で音声技術を研究している山岸順一氏は「音声合成器にも自分のアイデンティティーが多少なりとも含まれていると思いますので他人の声でしゃべるよりも、やはり自分の思いが家族や友人なりに伝わると信じています」と、番組内で述べました。

これって、自分が声を失わないと実感できないことなんですよね。要するに、日常的なことが非日常的になるまでそれが自らを形成するアイデンティティであるということに気付かないわけです。ましてや声の音色は人それぞれ百人百様なので。だからこそ、声を失った人が自分の声を取り戻したいと考えるのは至極当然のことだと思います。

逆を言えば、声を発することのできる人は、自分の思い描く声を発することが可能になるということ。技術が進歩していけば理想の声に変換させることができるし、コンピューターだけで自然な声の会話をさせることもできる。より人間に近い声を作ることは可能になってくると、そうした利用法も出てくることになる。しかし、そうなると生まれつき持った声と、コンピューターで作り出した声の差異を認識することが非常に難しくなってくるわけです。TPOで声を使い分けることができるようになると、どの声が本当の自分かわからなくなる。自分自身を見失う危険性をはらんでいます。

音声合成技術の未来

医療応用としての音声合成技術は非常に有用なものですが、その枠を超えて、一般社会で流用するとなると様々な問題点が浮上してくる。国谷さんは例としてオレオレ詐欺に言及しました。後藤氏はそれに対して、人々がこうした音声合成技術を認識することで様々な状況から物事を判断することができれば問題は回避できると述べる。

とは言うものの、なかなか難しいところだと思います。前述したように、声はその人自身を表す記号としての特性をもちます。それは今まで普遍的なものとして考えられてきました。声とその人とを結びつけるので、身内と同じ声を電話の相手から発せられるとどうしても信じてしまう。オレオレ詐欺という前例があるだけに、声に対して人々は敏感になっていると思われます。電話となると信じられるものは声しかないため、危険性は遥かに増すでしょう。

だからこそ、音声合成技術の一般利用はより慎重にならなければならない、と。