どうしても読んでみたい本があったのですが、原文がドイツ語で日本語版が発売されていませんでした。「なんとか英語なら…」と英語版を探しましたがそれもありませんでした。でも、以前にGoogle翻訳アプリをつかったことがあり、「ドイツ語→日本語」は少し実用には厳しそうでしたが、言語の特徴からか、ぼくの英語力からかはわかりませんが、「ドイツ語→英語」はそこそこ使えそうだったので、「Google翻訳アプリを使えば何とかなるか。」と、まったくドイツ語の知識がないままドイツ語の本を購入しました。
Contents
最初は知りたい部分だけ直接入力して翻訳していこうかとも考えましたが、当然1冊全てを読むとなるとかなりの作業が必要となりますし、ドイツ語の特殊文字のウムラウト(Üの上の "‥")やエスツェット(ß)を日本語のキーボードから入力するのは大変なので、ページをスキャンしOCR機能をつかってテキストデータに変換できないかな、と考えました。
OCRとは "Optical Character Recognition" の略で光学文字認識の意味で、スキャンした画像データから文字を認識してデータ化する機能になります。
ただ、OCR機能をもったソフトウェアで無料のものが存在せず、Adobe Acrobat を購入しようかと考えていましたが、Googleアプリを使って解決できました。
Benjamin HartwichによるPixabayからの画像
Contents
1. 本をテキストデータとして保存するには
Google翻訳アプリで翻訳するには、本の文章をテキストデータとして取り込む必要があります。最初は知りたい部分だけ直接入力して翻訳していこうかとも考えましたが、当然1冊全てを読むとなるとかなりの作業が必要となりますし、ドイツ語の特殊文字のウムラウト(Üの上の "‥")やエスツェット(ß)を日本語のキーボードから入力するのは大変なので、ページをスキャンしOCR機能をつかってテキストデータに変換できないかな、と考えました。
OCRとは "Optical Character Recognition" の略で光学文字認識の意味で、スキャンした画像データから文字を認識してデータ化する機能になります。
ただ、OCR機能をもったソフトウェアで無料のものが存在せず、Adobe Acrobat を購入しようかと考えていましたが、Googleアプリを使って解決できました。
2. GoogleドキュメントのOCR機能を使ってテキスト化
まずはスキャナーでスキャンした画像データ等をGoogle翻訳アプリで翻訳できるようにテキストデータに変換します。ここではPDFファイルをテキスト化してみます。ドキュメントファイルなどから作成されたPDFファイルはテキストをコピペしたりできますが、スキャンしたデータはテキストとして認識されないので、OCR機能をつかってテキスト化する必要があります。
たったこれだけで簡単にテキスト化することができます。
今回選んだ本が1ページ2列表示だったので多少難易度は高かったかもしれません。そのため、上から順に認識しているので多少バラバラになっていますが、段落はきちんと認識していますし、テキストの内容もほぼ完ペキにテキスト化されています。
背景が白ではないようなページや、本の綴じ目のためにページが少し浮いてしまってきちんとスキャンできずに文字がぼやけてしまっている場合でも、ちゃんと認識できています。文字が見づらい黄色で表示されてしまっているのでわかりやすい色に変更する必要がありますが。
また、これはスキャンの際のミスですが上下逆にスキャンしてしまったので、試しにこれもテキスト化してみましたが、これもきちんとテキスト化できました。これにはかなり驚きました。
スキャンしたデータをテキスト化したら、次はそのファイルを翻訳していきます。
少し理解に苦しむところもありますが、ドイツ語よりは十分に理解できます。なにより無料でここまで簡単に本を翻訳できてしまったのは驚きです。Googleアプリの実力は本当にスゴいです
3. GoogleドキュメントのOCR機能の出来は?
では実際、このGoogleドキュメントのOCR機能がどれだけスゴイのか?実際に使ってみた結果です。今回選んだ本が1ページ2列表示だったので多少難易度は高かったかもしれません。そのため、上から順に認識しているので多少バラバラになっていますが、段落はきちんと認識していますし、テキストの内容もほぼ完ペキにテキスト化されています。
背景が白ではないようなページや、本の綴じ目のためにページが少し浮いてしまってきちんとスキャンできずに文字がぼやけてしまっている場合でも、ちゃんと認識できています。文字が見づらい黄色で表示されてしまっているのでわかりやすい色に変更する必要がありますが。
また、これはスキャンの際のミスですが上下逆にスキャンしてしまったので、試しにこれもテキスト化してみましたが、これもきちんとテキスト化できました。これにはかなり驚きました。
4. Googleドキュメントをそのまま翻訳
スキャンしたデータをテキスト化したら、次はそのファイルを翻訳していきます。
- 先ほどテキスト化したドキュメントデータを開き、「ツール」→「ドキュメントの翻訳機能」を選択します。
- 「ドキュメントを翻訳」のダイアログが表示されるので、翻訳後のファイル名を入力し、ファイルを翻訳する言語を選択します。ここではドイツ語の文書を英語に翻訳したいので「英語」を選択し、「翻訳」をクリックします。
- これでファイルが英語に翻訳されます。
少し理解に苦しむところもありますが、ドイツ語よりは十分に理解できます。なにより無料でここまで簡単に本を翻訳できてしまったのは驚きです。Googleアプリの実力は本当にスゴいです
コメント