[Analysis]

Google Voiceはやっぱりすごかった

2011/09/20

icon.gif

 Web業界は電話関連ビジネスを飲み込もうとしているのではないか。もう1年以上も前になるが、2010年5月に米国に出張した際に、そういう印象を受けた。といっても、VoIPのことではない。電話帳がSNS内のソーシャルグラフで置き換えられるということとも、ちょっと違う。電話の音声サービス全般のことだ。これは、VoIP普及以上にインパクトのある技術トレンドなのではないかと思うのだ。

 そう感じた理由の1つ目は、米国で一般ユーザー向けにも提供が始まった電話・音声サービス「Google Voice」を使ってみて、その使い勝手の良さに舌を巻いたこと。今さら、Google Voiceがどうしたの? と思う人もいるかもしれないが、改めて検索してみて、どうも日本にはGoogle Voiceのインパクトが全く伝わっていないように感じている。

phone01.jpg Google Voiceを使って海外から日本の友人に電話

 もう1つは、Twilioというベンチャー企業の存在を知ったことだ。久しぶりに会ったサンフランシスコの友人が、最近Twilioという会社に転職したというので話を聞いてみて、その基本コンセプトに私は唸ってしまった。

 Twilioは、RESTやXML、PHP、Ruby on RailsといったWeb開発で一般に使われている技術を組み合わせ、音声応答システムやSMS関連サービスを構築できるようにするプラットフォームをAmazon EC2を使って提供している。Twilioのクラウドが公衆交換電話網(PSTN)とつながっていて、WebとPSTNが地続きとなる。これまで高価で専門的だったテレフォニー関連の“エンタープライジー”な開発を、無償のSDKとAPI提供によって、一気にWebの世界に結び付けるのがTwilioの狙いだ。Twilioは破壊的なイノベーションの典型だと思う。

twilio01.png Twilioは旧来の電話サービスをWeb APIを通じてクラウドにつなげるサービス

 Google VoiceとTwilioという2つのサービスについて、それぞれ若干の考察とともに紹介したい。

Google Voiceはリアルな電話番号を1つ提供する

 Google Voiceは米国内向けにグーグルが提供している電話関連サービスだ。一部機能は日本でも使えるようになっているようだが、ほとんど話題になっていないところを見ると、単に安いVoIPやSkypeのようなサービスだと思われているからではないかと思える。

 Google Voiceは2005年創業のベンチャー「GrandCentral」を2007年にグーグルが買収して自社サービス化し、2009年3月にベータ版としてリリース。その後、2010年6月22日に一般公開サービスとなっている。GrandCentral時代からファンは多かったようだが、グーグルのブランドでリリースされたこと、いくつかのブログメディアが大きく報じたこと、iPhone上でWebアプリとして使えるようになったことなどで、それぞれ話題となってきた。

 Google Voiceを使い始めるには、まずグーグルが所有する電話番号のうち1つを選択するところから始める。この番号はリアルなアメリカ国内の電話番号で、日本の東京でいえば03番号、大阪なら06番号のような番号だ。ふつうの電話番号と違うのは、この番号は端末に紐付いたものではないということだ。端末への紐付けは明示的に、Google Voiceの設定で登録しておく。最大6台の電話(番号)を登録することができ、Google Voiceの番号に着信したときに6台までが同時に鳴るようになる。自宅やオフィスの固定電話、それから自分のスマートフォンなどを登録しておく。

gvoice01.png Google Voiceでは、まず米国内の電話番号を1つ取得する。私は自分の名前(KEN)が含まれる415局番(サンフランシスコ)という条件で検索してみた。窓口のオペレータとの妙なやり取りで番号を決めるのではなく、何度でも自分が好きに選べる。こういうところがソフトウェア企業らしいと思う
gvoice02.png 1つの番号で、登録した最大6台までの端末すべてを鳴らしてくれる。鳴らす端末は、かけてきた人や時間帯によって変えることもできる
gvoice03.png 登録後、Google VoiceにWebブラウザでアクセスしたところ。使い勝手はGmailとほぼ同様(画面は少し古い。現在は上部は黒い帯状となっている)

ワン・ナンバーで嬉しいこと

 このワン・ナンバーの機能によって、もはや端末やキャリア固有の電話番号を知人に伝えたり、書類に書いたりする必要はなくなる。グーグルがGoogle Voiceというサービスを提供している限り、あるいは同類のサービスへの移行が将来的に可能である限り、私の米国内での電話番号は、もうただ1つしか存在せず、それは決して変わらない番号となった。まだ国の壁は意識する必要はあるが、いずれこうしたワン・ナンバーはメールアドレスやSkypeのIDと同様に当たり前のものになるのではないかと思う。

 出張に持参したSIMロックフリーのAndroid端末の調子が非常に悪くなり(バッテリが死んでいた)、急遽、現地で9ドルと格安の音声端末を入手したのだが、私にはその端末の番号(正確には同時に購入したSIMカードに紐付いた番号)を、誰にも教える必要はなかった。自分で覚える気も、さらさらなかった。ただ、Google Voice上で新たに1つ番号を追加登録しただけである。これで9ドルの使い捨て電話にも、私宛ての電話は、すぐに着信することになった。

register.png 電話番号の追加画面。上のGoogle Voiceの番号にかかってきた電話は、下の2つの端末に転送される。下の2つの番号は誰にも教える必要がなかったし、自分でも購入後にすぐ忘れてしまった

 さらに、その数日後、新たに入手した「HTC EVO 4G」というAndroid端末についても、その番号をGoogle Voice上で追加登録しただけで、すぐに知人からの電話もかかってきて取ることができるようになった。さらに、その半年後にハワイ旅行に行った際にも、あらかじめホストにGoogle Voiceの番号を伝えておき、現地で買った使い捨てのSIMカードを挿して、すぐにいつもの(米国内)番号で電話を使うことができた。

 日本ではMNPなどといって、面倒な事務手続きをやらされた上に転出料金や手数料で数千円も取られるが、雲泥の差だ。

 電話番号は、IPアドレスのようなものであるべきだ。インターネット接続では、利用者が場所を移動したり、ISPを乗り換えたら番号(IPアドレス)は変わる。接続のたびに変わるのも珍しくない。しかし、IPアドレスが変わっても、メールは届く。Skypeだって、そのまま使える。IPアドレスが変わったことなど、私自身も、私にコンタクトを取ろうという人も誰も考えもしない。電話番号も、そのような存在であってほしいと思う。

 Google Voiceはそういう不変の着信番号を提供してくれる。

 すでに現在でも、電話番号を見たときに確認するのは、それが相手のどのキャリアの端末かを見分けるための先頭の数文字であったり、同一番号かどうかを確認するために見る最後の数文字であったりしないだろうか。そしてスマートフォンでは顔アイコンで識別しているし、それらはFacebookから流れ込んだ連絡先だったりもする。

通話中に電話を切り替えるのも簡単

 「将来にわたって番号がただ1つで不変」ということだけでも利用価値があると思うが、ほかにもGoogle Voiceには便利な機能が多くある。1対Nの通話のルーティングで可能なことは、だいたいできると考えていい、というほど機能が充実している。いくつか、箇条書き的にまとめてみよう。

 1つの番号にかかってきた電話によって複数の電話を同時に鳴らせると書いたが、実際には、時間帯や電話をかけてきた人(の番号)によって、鳴らす端末を選択的に変えることができる。昼間はオフィス、夜は自宅の電話だけを鳴らすということが可能だ。

 通話中のラインを、別の電話に切り替えることも可能だ。例えばオフィスの電話で取った電話をいったん保留し、ポケットのケータイに転送して、そのまま話を続けながら出かけるといったことができる。Google Voiceに登録した端末であれば、どの端末からでも「*」ボタンを押すことで、ほかの登録電話が再び一斉に鳴る仕組みになっている。再び鳴っている電話を取れば、どの電話でも通話が続けられる。

 通話中に「4」を押すと、通話をクラウド側に録音できる。もう1度「4」を押せば録音は終了する。このように、端末側はあくまでもクラウドの入出力端末という位置付けであるところが、今までの音声サービスにない利便性を感じさせる。音声データはPCのWebブラウザ上(Flash)でも再生できるし、モバイル端末上のGoogle Voiceアプリで聞き返すこともできる。

 新規番号の登録は、Webブラウザからだけでなく、未登録の電話からでも可能だ。例えば出張の滞在先の電話を使って、まず自分のGoogle Voiceの番号に電話をかける。そしてボタン操作で転送番号を一時的に追加すれば、その電話にも自分宛ての電話がかかるようになる。

 かかってきた電話に対して定型の音声メッセージで応答することができるが、これを相手の番号に基づいて変えることができる。メッセージの紐付けは、個人単位、あるいはグループ単位となる。仕事関連の電話では、社名を名乗るようにするといったこともできるだろう。

groups.png 着信時の処理の設定は、グループ単位で変えることができる

 電話をかけてきた相手(番号)によって、ブロックする、留守電にする、留守電にしつつ相手の声を聞くなどのオプションもある。日本のキャリアも、特定の番号からの着信を拒否するブロック機能を提供しているが、月額料金を取るほか登録可能な数は限られている。ブロックしたら、相手にそのことが分かるし、相手からのメッセージだけを録音して聞くということもできない。Google Voiceでは、SPAMラベルを付けておいて、後から気になったら聞くということもできる。つまり、従来の電話サービスと比べてはるかに高度で細かな機能が提供できているのだ。

settings.png かかってきた電話に対して、どういう処理をするかの設定画面(クリックで拡大)。きめ細かくコントロールできるのが分かる

 Google VoiceのWeb画面にはSPAM報告ボタンもある。Gmailと同様に、多くのユーザーがSPAMだと報告した番号については、自動的にフィルタリング機能が働くようになる(この機能の利用は、現在オプトインだが)。Google Voiceのヘルプ文書を読むと、もはやネット上ですら電話番号を隠す必要はないと書いてあって驚く。ネット上のパブリックな場所に、どんどん自分の番号を書いてくださいとまで言ってのけるほどの自信なのだ。迷惑ならいくらでもブロックできるし、相手にブロックを悟られないように無視することも可能だからだ。

spam.png スパム電話のブロック機能も実装され、Gmail同様にブラックリストに登録された(誰かがスパムだと報告し、そう認められた)番号は自動的にスパムにフィルタされるようになった

 電話にもソフトウェアの時代がやってきたのだと思う。専用の交換器やコンピュータで、特殊な機能を設計するような時代は終わり、クラウドでつなげる電話は、Webエンジニアが想像する「できて当たり前」のことは何でもできるというわけだ。

 後述するTwilioが良い例だが、電話というサービスがクラウドに飲み込まれようとしているのだと思う。Amazon S3でメッセージを預かり、Amazon SQSでビリングシステムを作るといったことが、次世代の“キャリアグレード”になるのではないだろうか。

音声なんか、もう使わない?

 ところで音声サービスの話をすると、「でも、今さら電話なんてする? ほとんどメールかSMS、最近だとTwitterやFacebookで済むよね」という反応が多くの人から返ってくる。

 私も通話機能を使うことは、ほとんどない。メールやSNSでつながっていても電話番号を知らない人はたくさんいる。

 しかし、Google Voiceを使ってみて、ちょっと考えが変わった。私が音声サービスをだんだん使わなくなったのは、音声コミュニケーションが面倒だとか、適した場面が少ないからというばかりではなく、音声サービスがほかのテキスト系サービスに比べて使いづらいまま進化を止めてしまっていたからなのではないかと思うようになった。

 キーを叩くよりも、しゃべったほうが楽で速いことはたくさんある。なぜそうしないかといえば、それは音声コミュニケーションによって、相手に「その場で聞くこと」「すぐに応えること」を強要するのが嫌だからである。相手の電話を鳴らすのは、相手の作業を中断して邪魔することだから、相応の理由がないと控えるべきだろう。しかも、もし相手が不在だと結局メールなどに頼るわけで、だったら最初からメールでいい、となるわけだ。

 しかし、Google Voiceのように受信者に細かなコントロール権があるのなら、かける側が遠慮する必要はない。都合が良ければ取るだろうし、そうでなければ留守電にするだろう。後述するが、留守電を受けたほうは、必ずしも音声を聞く必要がないし、音声によって返信しなければいけないわけでもない。

 メールだと否が応でも用件を文章にまとめるわけで、これにより要点を論理的に列挙することにもつながる。電話でダラダラしゃべられるよりマシという事情もあるかもしれない。しかし、音声コミュニケーションは双方向の行き来を短く繰り返すので、メールのようなもどかしさがなくて良いときもある。ひと言、「いえ、それは違います」と途中で話を制止して回答してもらえば5秒で済むような点について、5分もかけて文章を書くのはむなしい。相手の反応を伺いながら行うコミュニケーションには、大きなメリットがある。

2点間を結ぶ通話の新しい形

 Google Voiceでは、Gmail同様のインターフェイスでWebブラウザ上(もしくはAndroidアプリ上)で、電話利用履歴を閲覧・管理できる。ここに留守電メッセージや過去に受けた電話の履歴が並ぶ。留守電の確認が、PCやスマートフォンででできるのだ。

 当たり前だと思うだろうか? そんなことはない。これまでの留守電は端末に紐付いていた。電話番号と端末が強く紐付いていたため、留守電も端末個別に蓄えられていたはずだし、PCで確認することもできなかったはずだ。まして、ケータイで受けた留守電に対して、PCからメールやSMSで“返信する”という感覚はなかったと思う。

 かかってきていたことに気付かずに取らなかった電話について、折り返し電話する(Call)、SMSを送る(Text)といったアクションが選択できるし、最近はPC上のGoogle Voiceから直接電話もかけられるようになった。

 ちょっと変わった使い方だが、クラウド側から2点間を音声で結ぶというのも面白い応用だ。

 例えば商業Webサイトに電話番号を埋めこんであるようなケースだ。これまでにもPCにインストールしたIP電話や、Skype-outなどを使えば、PCから「Click to call」もできた。しかし、その場合に可能であるのはPCを使った音声通話だ。餅は餅屋、やはり電話として設計された端末のほうが音声サービスには使いやすいだろう。そのために、画面に表示された数字列をむなしくケータイ端末や家庭用電話の子機に打ち込んだ経験のある人も多いだろう。

 Google Voiceは、クラウドがあなたの電話のことを知っているので、こうした作業は不要だ。次のようなことができる。まず、ブラウザ上の電話番号、もしくは電話アイコンをクリックする。すると、自分の電話が鳴り始める。それを取ってみると、実はWebブラウザでクリックした店舗側の番号をすでに呼び出している最中であるという形だ。店舗などはのWebサイトは、ウィジェットを埋め込んで、自分のGoogle Voiceに電話をかけてもらうことができる。

p2p.png Webブラウザのリンクをクリックし、手元の端末を通話に利用しつつ店舗などに電話をかけることもできる

音声とテキストがスムーズに連携

 Google Voiceは音声とテキスト、あるいは電話端末とWeb(PC)がスムーズに連携できるのがいいのだと思う。

 例えば留守電で、明日の待ち合わせ場所が早口で残されていたとしよう。この早口は音声認識でテキスト化されているので、Webやモバイルアプリで確認できる。このときやるべきことは、内容を確認したら「OK」と手短にテキストで返信することだ。音声で相手を呼ぶほどのことではない。こういうことは、現在のケータイでは面倒だ。まず留守番センターに電話をかけ、留守電の内容を確認し、イライラしながら相手の声に耳を済まし、聞き終わったら何番だかの番号を押してメッセージを消し、その後、メールなりSMSを送るために別アプリを立ち上げるか、アドレス帳を開くかする。

 留守電メッセージは、音声認識によりテキスト化されているので、何の用件であるかを確認する程度であれば、そもそも音声を聞く必要がない。モバイル端末向けのGoogle Voiceアプリというのがあるので、テキストによるメッセージ確認は、PCでなければならないというわけでもないし、外出先でも可能だ。つまり、留守電で預かった音声メッセージは、スマートフォン上でメールのヘッダを眺めるようにさっと眺めて、返信するか、音声を聞くか、電話を折り返すかを決められるわけだ。相手がオンラインであれば、チャットに持ち込むこともできる。Andoid版のGoogle Voiceでは新たにメッセージが到着したらノーティフィケーションとして表示される。

 Google Voice利用者の数人に聞いてみたところ、音声認識の精度は「用件が何かは分かる」程度だという。実際に音声を聞かないと肝心のところが分からないということはあっても、そもそもなぜ電話してきたのか、理由ぐらいは分かる、ということだ。

 実際、私も図らずもGoogle Voiceの留守電を使うことになったが、それは十分に役立った。私はネット(AirBnB.com)で見つけたシリコンバレーの個人宅に泊まったのだが、最初にホストに連絡した時、相手の電話はGoogle Voiceの応答だったのだ。心の準備ができていないまま、慌てて用件をしゃべった私のドモリがちな英語ですら、それなりにキーワードを拾って用件が分かる程度にテキスト化されていることが分かる。

transcription.png 私が吹き込んだメッセージを音声認識している例。用件は十分に伝わる(実際に吹き込んだ音声も聞けます

これまで有償だった付加価値サービスが軒並み無料

 Google Voiceは最大4人までが同時に通話する会議電話もサポートしている。使い方は簡単で、単に通話中に3人目や4人目が電話をかけてきたときに、その人を通話に追加するかどうかを選ぶだけだ。これまでビジネス用であれば、特定の番号に電話をかけて、そこから特定の数字列を入力することで行ってきたようなこと、あるいはコンシューマ向けサービスであれば、電話会社各社が月額200円や300円の付加サービスとして提供していたようなサービスだ。

 結局のところ、Google Voiceというのは月額300円程度のオプション料金で電話会社が提供していることが多い各種の機能を、PCやスマートフォンアプリと統合された使いやすい形で無償提供しているサービスと言えるだろう。個別に見てみると、今までに同等のサービスが存在したものも少なくない。ただ、Web、スマートフォン、電話回線、クラウドという異なるプラットフォームと、音声・テキストという2つの異なるコミュニケーション形態をすべて統合し、使いやすくしているところがポイントだと思う。

 いろいろと便利な機能があるGoogle Voiceだが、既存サービスの廉価版という面でも多くの人に受け入れられる可能性がありそうだ。例えば米国では料金が高いSMSをタダで提供しているし、国際通話サービスも格安だ。例えば「アメリカ→日本」だと1分あたり0.02ドル、ケータイでも0.11ドルでかけられる。

電話網とWebを結ぶ「Twilio」

 Google Voiceとともに私が衝撃を受けたのが、2007年創業のベンチャー、Twilioだ。

 Twilioのアイデアをひと言でまとめると、これまで特殊なプロトコルや標準規格、専門の“ソリューション”を使って行ってきた音声サービスの開発が、RESTやXML、PHP、Ruby on Railsといった標準的なWeb関連技術で可能になるプラットフォーム、となる。Google Voiceのようなクラウドによる電話処理を実装するためのサービスという言い方もできるかもしれない。

market.png 200億ドル規模の市場を持つテレフォニー市場に、コモディティ化したWeb開発技術と、そのスキルセットを持つ開発者をつなげるというのがTwilioのコンセプトだ

 Twilioプラットフォームは、従来の電話網と、ネット上のサーバの間に位置する。Twilioは開発者に対して電話番号を発行する。ここに着信する電話に対する処理は、サーバ上の置いたプログラムやXMLファイルに従って行うことができる。応答として扱う音声ファイルはMP3としてサーバ上に置いておけばいいし、テキストファイルを音声化して電話側に流すといったことも、簡単なXMLファイルだけで行える。

 例えば複数人をつなげる“カンファレンスコール”は、次の動画にあるように、XMLを1つサーバに用意するだけで実現できるという。URLさえあれば、置き場所とするサーバは、Google App EngineやDropboxでも構わないという。



 電話によるカスタマーサービスでよくあるプッシュ操作による音声ナビゲーションメニュー(IVRサービス:Interactive Voice Response)も、Twilioを間に挟むことでPHPで実現できる。Twilioプラットフォームが電話のプッシュ音を聞き取って、それをベースにHTTPで利用者のサーバを叩いてくれるのだ。

 VoIP関連製品はこれまで、例えばSIP、H.323、IAX、MGCP、G.722などWeb開発者に馴染みのないプロトコルやコーデックを使っていたが、Twilioでは、これをHTTP、XML、REST、MP3などに置き換える。利用する言語はPHP、Python(Google App Engineでもよい)、Ruby on Rails、Java、C#など、サーバアプリケーション開発で使われている言語であれば、何でも使える。「Say」と書けばテキストを読み上げてくれて、「Gather」と書けば電話のプッシュ音を拾ってくれる。「Play」と書けばMP3音声を再生する。「Record」で音声録音、「Call」で電話をかける。

 IETFが策定したSIPは、HTTPに似せて作られていて、同時期に登場したITU-TのH.323に比べればインターネット的なプロトコルだと思う。しかし、それにしてもSIP関連のソフトウェアやサービスを作ったことのある開発者はどのぐらいいるだろうか? Twilioが成功しつつあるのを見ていると、私にはもうSIPに勝ち目があるようには思えない。Twilioは、すでにベンチャーキャピタルからシリーズAで370万ドル、シリーズBで1200万ドルの資金を調達している。

 TwilioのWebサイトには、このほかにもさまざまな応用例がリストされている。

 例えば、特定の番号に電話をかけてボイスメッセージを預かり、それを音声認識でテキスト化するというPHPのデモコードや、登録された予定に先立って「明日の9時に予定があります」と音声で案内する確認電話をかけるRailsのデモコード、事前に用意した電話番号に電話をかけてプッシュ操作による投票を集めるPHPのデモコードなどが用意されている。Twilioでは音声の電話だけでなく、2010年2月になってからSMSも扱えるようになっている

epoll.png 電話をかけて音声ナビゲーションによる自動投票システムをPHPで書いた例

 さらに、TwilioはWebブラウザ上でパーツをドラッグ&ドロップするだけで、着信処理の振り分けフローが定義できるオープンソースのWebアプリケーション、「OpenVBX」を2010年6月に発表している。OpenVBXを使えば、代表番号にかかってきた電話をチーム全員の端末に転送したり、全員不在の場合にサーバ上に留守電を取り、音声認識でテキスト化してWeb画面で確認するといったことまでできる。



 以上、Google Voiceというどちらかといえばコンシューマ向けのサービスと、Twilioという小規模エンタープライズ向けサービスの2つを簡単に紹介してみた。親しい人との会話を除けば、私自身は音声サービスは過去の遺物とぐらいに思っていたが、案外そうでもないのかもしれない。そして、小規模ビジネスやジオロケーションサービスなどと結び付けば、音声サービスにはまだまだイノベーションの余地があるのではないかという気もするのだ。

 もう1つ、国内の話を付け加えたい。先日、らくらく連絡網というRuby on Railsベースの、主にケータイ向けのサービスを運営する会社のエンジニアに取材をしたときに聞いたのだが、競合となるNTT系のサービスに負けているのはファックスの扱いだという。こうしたレガシーサービスを、Web APIとSDKでブリッジするTwilioのようなクラウドサービスには大きなビジネスチャンスがあるように思うのだが、いかがだろうか。

(@IT 西村賢)

情報をお寄せください:

Coding Edge フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

キャリアアップ

- PR -

注目のテーマ

ソリューションFLASH

「ITmedia マーケティング」新着記事

「ECプラットフォーム」売れ筋TOP10(2024年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

「ダークパターン」の認知は2割にとどまる――クロス・マーケティング調査
調査会社のクロス・マーケティングが実施したダークパターンに関する調査(2024年)の結...

ウェルビーイング調査 今後最も力を入れたい分野は「身体」、優先度が低いのは?
ASAKO サステナラボは、独自の「60のウェルビーイング指標」により生活者の充足度を数値...