
画像を文字起こししたい
写メで送ってもらった一覧表の画像を、ChatGPTで文字起こしするまでの経緯です。
結果的には有料版のChatGPT4oを使ってエクセル形式での文字起こしに成功しました!
送られてきた画像はこんな感じのものです↓

※実際にはこのような画像が数十枚送られてきましたので、画像を変えながら試していきます。
GPT-4では精度が低い!?

無料で使えるGPT-4。割と文字がしっかり見えてるので、あっさりと文字起こしできそうな気がすると予想していましたが。



日本語として認識できなかったみたい。

余白をトリミングして再チャレンジ


Googleドライブとか他のツールを案内されてしまいました。

2回試したところで、制限がかかりました。
待つか課金するか、それともあきらめるかの三択です。

GPT-4oでのOCR機能の実力

有料版GPT-4oで試します。
※GPT-4oは月額20$(3000円ちょっと)



うまくいったようです。早速エクセルファイルをダウンロードしてみます。


!!!。まさかのタイトル行のみ!
ChatGPTへの指示にはゆとりが必要??



手動って何だろう? 手打ちしろってことかな?
もうちょっと粘ってみます。


いい感じになってきました。誤字はありますが、続きを指示します。



この回答に3分くらいかかってます。
どうやらChatGPTは空欄が苦手っぽいですね。


・HTL略称の空欄が無視され、左に一列ずれてます。
・最終行の名称(漢字)が無視されています。

ここまでで30分ほど要しました。あとは誤差なので手動で直します。
(まとめ)ChatGPTは空白が苦手。
・ChatGPTで文字起こしする場合は、指示にゆとりを持たせる。(完璧にやろうとするので)
・一覧表の場合は、空欄は空データとして認識するよう指示。(でないと削除される)
・有料版の方が精度が高い(当然といえば当然)
・一発で回答をもらおうとせず、数回やり取りをするつもりで行う。

空欄だと存在自体消されるんですね。怖いですね。
(おまけ)GoogleDriveのOCRでやってみた結果…

GoogleDriveのOCRでも試してみました。
【GoogleDriveでのOCR機能の使い方】
①画像データをGoogleDriveにアップロード
②その画像をGoogleドキュメントで無理やり開く


Googleの場合、無理やり漢字や英語にしちゃってますね。
それと修正指示できないのが致命的です。
・Googleの場合、画像データを文字起こしする場合は、今回のように精度が落ちますが、
文字が整っているPDFのデータなどを文字起こす場合などに使えます。
@ITにまつわるオフィスの困りごとを、パソコンインストラクターがフォローします。
久喜エリア限定 ITサポートサービス
コメント