レビュー

Google Chrome上でマイクから録音した声をリアルタイムで文字に書き起こしてくれる「The Recording Studio」


Recording Studio」は、Chromeに対応している音声認識API「SpeechRecognition API」を利用してマイクから録音した声を音声認識によってその場で文字に起こしてくれるウェブツールです。オンラインのブラウザ上で動作するのでダウンロードやインストールは不要で、開発したみずちさんが無料で公開しています。

Recording Studio
https://recording-studio.netlify.com/


ブラウザでマイク入力から書き起こしを行うツールを作った - mizchi's blog
https://mizchi.hatenablog.com/entry/2019/01/20/203241


Googleは音声ファイルをAIが認識して文字にしてくれる「Cloud Speech-to-Text」という有料サービスを提供しています。Google Cloud Speech-to-Textがどんなサービスなのかは以下の記事を読めばよくわかります。

Googleの音声認識エンジンを使って音声ファイルから文字起こししてみた - GIGAZINE


Recording Studioはこんな感じで、非常にシンプルなUIとなっています。左上にある「recording start」をクリックすると……


Chromeからマイクを使用する許可を求められます。「許可」をクリック。


ボタンの横に「Recording...」と表示されれば録音中です。


実際に入力した声をリアルタイムで文字に変換する様子は以下のムービーで見ることができます。

「The Recording Studio」がChrome上で入力した声をリアルタイムで文字に書き起こす様子 - YouTube


マイクに話した言葉が、リアルタイムでその場で文字にすばやく変換されます。


途中で話すのをやめるなど、声の入力に間があくと、タイムスタンプと共に書き起こされたテキストが下にある欄に移動します。ただそのまま文字を連ねていくのではなく、トークの切れ目がちゃんとテキストに反映されるというわけです。


今度はかなり早口を意識して「外郎売」口上の冒頭を話してみたところ……


古い言い回しも混ざっている内容であるにも関わらず、漢字の変換も正しく行われていて、かなりの精度で書き起こされていることがよくわかります。音声入力を停止する場合は左上の「recording end」をクリックします。


入力が終わると、Output最下部に入力した音声を再生できるプレイヤーが出現します。再生ボタンを押すとその場で聞くことが可能。


また、入力音声データのサーバーへのアップロードが終了すれば、一番右にあるアイコンをクリックすることで……


入力音声をWebM形式でダウンロードすることもできます。


なお、SpeechRecognition APIはAndroid版Chromeにも対応しています。そこで、Pixel 3からRecoring Studioにアクセスしてみました。UIはPC版と同じ。左上の「recording start」をタップすると……


マイクの使用許可を求められるので、「許可」をタップ。


さらに音声の録音許可を求められるので、「許可」をタップします


スマートフォンから簡単に録音&書き起こしができたらめちゃくちゃ便利と期待しましたが、記事作成時点では録音は可能でブラウザから入力音声の再生はできたものの、肝心の書き起こしは動作しませんでした。


Recording Studioはクラウドで音声認識を行っているため、ブラウザがオンラインでなければ使うことはできませんが、ノートPCとマイクがあれば、会議やちょっとしたインタビューのメモには十分使えそうな精度でした。

この記事のタイトルとURLをコピーする

・関連記事
Googleの音声認識を利用してreCAPTCHAを突破できると研究者が発表 - GIGAZINE

Appleが「HomePodはユーザーの声を正確に認識するためどのような技術を用いているか?」を解説 - GIGAZINE

Microsoftの研究者が「声を出さずに音声入力可能」なシステムを開発 - GIGAZINE

Googleの音声認識エンジンを使って音声ファイルから文字起こししてみた - GIGAZINE

Googleは「電話で人間と自然に会話をしてタスクを完了するAI」を開発している - GIGAZINE

Amazonの音声認識アシスタント「Alexa」が子どもに丁寧な言葉遣いを教えられるように - GIGAZINE

MicrosoftのAIは会話の「間」を予測して、より自然なコミュニケーションを可能にする - GIGAZINE

in レビュー,   ウェブアプリ,   動画, Posted by log1i_yk

You can read the machine translated English article here.