画像を文字起こししたい
写メで送ってもらった一覧表の画像を、ChatGPTで文字起こしするまでの経緯です。
結果的には有料版のChatGPT4oを使ってエクセル形式での文字起こしに成功しました!
送られてきた画像はこんな感じのものです↓
※実際にはこのような画像が数十枚送られてきましたので、画像を変えながら試していきます。
GPT-4では精度が低い!?
無料で使えるGPT-4。割と文字がしっかり見えてるので、あっさりと文字起こしできそうな気がすると予想していましたが。
日本語として認識できなかったみたい。
余白をトリミングして再チャレンジ
Googleドライブとか他のツールを案内されてしまいました。
2回試したところで、制限がかかりました。
待つか課金するか、それともあきらめるかの三択です。
GPT-4oでのOCR機能の実力
有料版GPT-4oで試します。
※GPT-4oは月額20$(3000円ちょっと)
うまくいったようです。早速エクセルファイルをダウンロードしてみます。
!!!。まさかのタイトル行のみ!
ChatGPTへの指示にはゆとりが必要??
手動って何だろう? 手打ちしろってことかな?
もうちょっと粘ってみます。
いい感じになってきました。誤字はありますが、続きを指示します。
この回答に3分くらいかかってます。
どうやらChatGPTは空欄が苦手っぽいですね。
・HTL略称の空欄が無視され、左に一列ずれてます。
・最終行の名称(漢字)が無視されています。
ここまでで30分ほど要しました。あとは誤差なので手動で直します。
(まとめ)ChatGPTは空白が苦手。
・ChatGPTで文字起こしする場合は、指示にゆとりを持たせる。(完璧にやろうとするので)
・一覧表の場合は、空欄は空データとして認識するよう指示。(でないと削除される)
・有料版の方が精度が高い(当然といえば当然)
・一発で回答をもらおうとせず、数回やり取りをするつもりで行う。
空欄だと存在自体消されるんですね。怖いですね。
(おまけ)GoogleDriveのOCRでやってみた結果…
GoogleDriveのOCRでも試してみました。
【GoogleDriveでのOCR機能の使い方】
①画像データをGoogleDriveにアップロード
②その画像をGoogleドキュメントで無理やり開く
Googleの場合、無理やり漢字や英語にしちゃってますね。
それと修正指示できないのが致命的です。
・Googleの場合、画像データを文字起こしする場合は、今回のように精度が落ちますが、
文字が整っているPDFのデータなどを文字起こす場合などに使えます。
@ITにまつわるオフィスの困りごとを、パソコンインストラクターがフォローします。
久喜エリア限定 ITサポートサービス
コメント