ChatGPTで画像の文字起こしするまでの格闘。

パソコンスキル
私

画像を文字起こししたい

写メで送ってもらった一覧表の画像を、ChatGPTで文字起こしするまでの経緯です。

結果的には有料版のChatGPT4oを使ってエクセル形式での文字起こしに成功しました!

送られてきた画像はこんな感じのものです↓

※実際にはこのような画像が数十枚送られてきましたので、画像を変えながら試していきます。

GPT-4では精度が低い!?

私

無料で使えるGPT-4。割と文字がしっかり見えてるので、あっさりと文字起こしできそうな気がすると予想していましたが。

画像を読み込ませて質問
ChatGPTの回答
私

日本語として認識できなかったみたい。

私

余白をトリミングして再チャレンジ

私

Googleドライブとか他のツールを案内されてしまいました。

私

2回試したところで、制限がかかりました。

待つか課金するか、それともあきらめるかの三択です。

GPT-4oでのOCR機能の実力

有料版GPT-4oで試します。

※GPT-4oは月額20$(3000円ちょっと)

タイトル行を伝えることで、認識しやすくさせます。
GPT-4oの回答
私

うまくいったようです。早速エクセルファイルをダウンロードしてみます。

私

!!!。まさかのタイトル行のみ!

ChatGPTへの指示にはゆとりが必要??

空欄の少ない画像データに差し替えます。
翻訳
私

手動って何だろう? 手打ちしろってことかな?

もうちょっと粘ってみます。

指示にゆとりを持たせてみます
私

いい感じになってきました。誤字はありますが、続きを指示します。

翻訳
私

この回答に3分くらいかかってます。

どうやらChatGPTは空欄が苦手っぽいですね。

エクセルデータを検証
私

・HTL略称の空欄が無視され、左に一列ずれてます。

・最終行の名称(漢字)が無視されています。

私

ここまでで30分ほど要しました。あとは誤差なので手動で直します。

(まとめ)ChatGPTは空白が苦手。

試してみて分かったこと

・ChatGPTで文字起こしする場合は、指示にゆとりを持たせる。(完璧にやろうとするので)

・一覧表の場合は、空欄は空データとして認識するよう指示。(でないと削除される)

・有料版の方が精度が高い(当然といえば当然)

・一発で回答をもらおうとせず、数回やり取りをするつもりで行う。

私

空欄だと存在自体消されるんですね。怖いですね。

(おまけ)GoogleDriveのOCRでやってみた結果…

私

GoogleDriveのOCRでも試してみました。

【GoogleDriveでのOCR機能の使い方】

①画像データをGoogleDriveにアップロード

②その画像をGoogleドキュメントで無理やり開く

結果がこちら
私

Googleの場合、無理やり漢字や英語にしちゃってますね。

それと修正指示できないのが致命的です。

・Googleの場合、画像データを文字起こしする場合は、今回のように精度が落ちますが、

 文字が整っているPDFのデータなどを文字起こす場合などに使えます。

@ITにまつわるオフィスの困りごとを、パソコンインストラクターがフォローします。
久喜エリア限定 ITサポートサービス

コメント

タイトルとURLをコピーしました