「その人の声」でリアルタイム通訳:MS研

Microsoft Researchは『2012 TechFest』で、リアルタイム通訳システムのデモを行った。話者特有の抑揚等を把握し、話者の声でしゃべるシステムだ。
「その人の声」でリアルタイム通訳:MS研

Google社や米Microsoft社は、リアルタイムで自動通訳を行うシステムの研究を続けている。そうしたシステムができれば、チャット・プログラムに組み込んで中国人と会話したり、外国のレストランでウェイターが読み上げるメニューを理解するなど、便利な使い途がたくさんあるからだ。

Microsoft Researchはこのほど、話者の言葉を聞いてリアルタイムで出力する通訳システムのプロトタイプのデモを行った。話者特有の抑揚やイントネーション、アクセントを維持したまま、話された言葉をスペイン語や標準中国語などにするシステムだ。ユーザー・データの十分な蓄積に約1時間の音声を必要とするが、その結果、気味が悪いほど自分に似たデジタル音声が、別の言語でしゃべり始める。

システムの入り口は音声認識ソフトだ。それを『Bing』で翻訳し、テキスト音声変換の技術を使って声で出力する。その際、難しいのは声をパーソナライズする部分だ。記録された母語の音声は5ミリ秒の塊に分解される。それぞれの音は再び組み合わされ、ターゲット言語のプログラムの訓練に使われる。

Microsoft Researchは『2012 TechFest』で、この通訳システムのデモを披露した。まず最高研究責任者であるリチャード・ラシッドによる挨拶を通訳し、さらにクレイグ・マンディ最高研究戦略責任者の通訳をやって見せた。

通訳に必要なレファレンスの構築に長い時間がかかるなど、改良点はまだたくさんあるが、デモのビデオ(12分ごろから)が示すように、技術は実を結びつつある。

TEXT BY Nathan Hurst
TRANSLATION BY ガリレオ -緒方 亮

WIRED NEWS 原文(English)


Related Articles
An illuminated Microsoft sign outside a building at night
業界2位の検索エンジンであるマイクロソフトの「Bing」に、高精度な会話型AI「ChatGPT」を組み込んだ新バージョンを同社が発表した。これにより圧倒的な首位を誇ってきたGoogle 検索に対抗する狙いだが、まだ解決すべき重要な課題も残されている。