ExtractText
というソフトを発見した。
このソフトは、PDFファイルから、テキストを抽出できる。(PDFをテキストに変換できるともいう)
この類のソフトは他にもあるが、英語は抽出できても、日本語はできないものが多い。
しかーし、このソフトは、日本語も抽出できるところがすばらしい。
adobe reader にもテキスト抽出機能はあるが、スペースがあるとすべて改行されてしまって、読みにくい。
しかーし、このソフトは、適度に改行されるので、読みやすい。
とにかく すばらしかったので、ここに書き留めておく。
欠点があるとすれば、コマンドラインのプログラムなので、
コマンドを打たなければならないことかな。
extracttext input=test.pdf output=test.txt
とcmd.exe で入力するとよろし。
まぁ 自分の場合は、 a.batを作って、
その中身に
start
extracttext input=test.pdf output=test.txt
と記述して
a.bat をクリックするだけにしておく派です。
このコメントは投稿者によって削除されました。
返信削除そのBATコマンドを以下のようにして、「送る」メニューに入れておくと幸せになれるかも。
返信削除extracttext input="%1" output="%~dpn1.txt"
PDFから文字列が抽出できるなんて便利だね。
会社で試してみたんですが、いろいろライブラリを入れてもエラーで変換できなかったので残念でした。
返信削除それで気づいたんですが、最近のACROBAT READER にはテキストで保存という機能がついているんですね。
このソフトとの違いが試せないのでとても残念。
batコマンドにパラメータを利用すると便利でいいですね。
返信削除変換できなかったのですか?
自分がネットでさがしてきたPDFはすんなり変換できたんだけどなぁ。
画像をPDFにしたものは、変換できないとおもうよ。
アクロバットでうまく変換できないときは、
ExtractTextで変換するとうまくいくPDFファイルもあるよ。
今気づいたけれど、
返信削除ExtractText.exeとバッチファイルとPDFファイルが同じディレクトリにないとエラーになるようです。
なるほど、今度会社で試してみます。
返信削除