Googleドキュメントに新しい機能が追加されましたのでご紹介いたします。

新機能はPDF・画像内の文字を抽出できるというもの。Google ブックスで利用されているOCR技術を利用しています。なかなか精度もいいですよ。

以下に使ってみた様子を載せておきます。

 まずGoogleドキュメントにアクセスします。

100628_googledocs_ocr_up.jpg

ファイルのアップロードを選択しますと、オプションで「PDF や画像ファイルからテキストを Google ドキュメントのドキュメントに変換する。」という項目があるので、チェックをいれます。

以下の画像を読み取ってみました。

100628_googledocs_ocr_test.jpg

Google Chrome Updates, Adds Integrated Flash Player

アップロード後、しばらくすると変換が終了します。

変換後のドキュメントは以下のとおり。

100628_googledocs_ocr_result.jpg

一部文字が抜けたりしているところがありますが、おおよそ読み取ることができています。けっこう小さめの字でしたが大丈夫でした。

PDFは文字列のコピーができるものが多いですが、画像だと文字だけコピーするのはできませんから、画像から文字列抽出したいときに大いに役立ちそうです。

Googleドキュメント [via Life Rocks 2.0]

(カメきち)