https://gammasoft.jp/blog/tesseract-ocr-install-on-windows/
ここのサイトを参考にして
https://github.com/UB-Mannheim/tesseract/wiki#tesseract-models-for-historic-prints
ここからテッサラクトをDL&インストールした。
OCRソフトである。
PDFをPNGにしてから、OCRしてみたら、割と良い感じにテキストを抽出できた。
だが、私がOCRしたPDFは、横書きなんですが、1ページにかたまりが4列あるので、
4列を分断して1列にして、1列に数個の段落があるので、それも分断してOCRすると、
なかなか良い感じにテキストを抽出できました。
OCRとしてはいいよく出来たソフトだと思います。
しかし、画像をひとまとまりごとに分断して保存する方法を考える必要があります。
4列を1列にするのは、文字数が決まっているので、自動化できそうですが、
1列を分断するのは手作業になりそうだなぁ。
良いアイデアが浮かんだら、また挑戦しようと思う。
0 件のコメント:
コメントを投稿