画像の中の中国語をOCRで読み取る by Google

画像の中の中国語をOCRで読み取る話です。

以下の記事で画像の中の中国語の意味を調べたく、最初は漢字変換で対象の漢字を探してみたり、IMEパッドの手書きで探してみたり四苦八苦していました。

最終的にGoogle ドライブで簡単にOCR出来ることがわかったのでその手順などを紹介します。


四苦八苦した話

最初、画像にある”査看图片相似宝贝”を日本語に翻訳しようと考えました。

翻訳はGoogle翻訳を利用するのですが、そもそも” 图”をGoogleに入力するところでつまづきます。 これはGoogle検索で”くにがまえ 冬”で何とか解決出来ました。

次に”贝”でつまづきます。 部首から調べても出てきません。IMEパットの手書きでも解決できません。

Google検索で”OCR 画像”するとGoogleドライブによる解決できることがわかりました。

GoogleドライブのOCR機能

Googleドライブにある画像を選択し、”アプリで開く”から”Google ドキュメント”を指定します。

ちょっと待ちます。画像によりますが数分かかることもありました。

出来上がったドキュメントを開きます。

以下の漢字でドキュメントの中に画像、そして下の方にOCRで認識された文字列を確認することが出来ます。

拡大します。 ”査看图片相似宝贝” と文字の読み取りが出来ていることが確認できます。 あとはこの文字列をコピー・ペーストでGoogle翻訳することが可能となります。 

なお、翻訳はWebサイトから以下のように実行できます。

またはGoogleドキュメントから直接翻訳することも可能です。

ツールから”ドキュメントを翻訳”を実行します。

”日本語”を選択し、”翻訳”をクリックします。

翻訳されました。Webからの翻訳とは異なるのが気になりますが。

まとめ

Alibaba CloudのDeepな情報を探す際に中国サイトを確認することはこれまでもありました。 WebサイトはChromeの自動翻訳である程度何とかなることが多かったのですが、画像には使えず困っていました。 今回の方法を利用することでドキュメントの中の画像やその他PDF文書などの翻訳も大分楽になりそうです。

本当はGoogleに頼ることなくAlibaba Cloudですべてを処理出来ればと思ったりもします。 早くAlibaba CloudのOCR機能が利用できるようになればいいなと思いました。 Internationalサイトのブログでは概要は紹介されていたりします。

URLはこちら