みらさまのなぐりがき: ExtractText

2011年11月12日土曜日

ExtractText

ExtractText

というソフトを発見した。

このソフトは、PDFファイルから、テキストを抽出できる。（PDFをテキストに変換できるともいう）

この類のソフトは他にもあるが、英語は抽出できても、日本語はできないものが多い。

しかーし、このソフトは、日本語も抽出できるところがすばらしい。

adobe　reader にもテキスト抽出機能はあるが、スペースがあるとすべて改行されてしまって、読みにくい。

しかーし、このソフトは、適度に改行されるので、読みやすい。

とにかく　すばらしかったので、ここに書き留めておく。

欠点があるとすれば、コマンドラインのプログラムなので、

コマンドを打たなければならないことかな。

extracttext input=test.pdf output=test.txt

とcmd.exe で入力するとよろし。

まぁ　自分の場合は、　a.batを作って、

その中身に

start
extracttext input=test.pdf output=test.txt

と記述して

a.bat をクリックするだけにしておく派です。

6 件のコメント:

nnspace blogger2011年11月13日 15:33
このコメントは投稿者によって削除されました。
返信削除
返信
nnspace blogger2011年11月13日 15:36
そのBATコマンドを以下のようにして、「送る」メニューに入れておくと幸せになれるかも。

extracttext input="%1" output="%~dpn1.txt"

PDFから文字列が抽出できるなんて便利だね。
返信削除
返信
nnspace blogger2011年11月14日 21:43
会社で試してみたんですが、いろいろライブラリを入れてもエラーで変換できなかったので残念でした。

それで気づいたんですが、最近のACROBAT READER にはテキストで保存という機能がついているんですね。

このソフトとの違いが試せないのでとても残念。
返信削除
返信
みらさま2011年11月19日 20:43
batコマンドにパラメータを利用すると便利でいいですね。

変換できなかったのですか？
自分がネットでさがしてきたPDFはすんなり変換できたんだけどなぁ。
画像をPDFにしたものは、変換できないとおもうよ。

アクロバットでうまく変換できないときは、
ExtractTextで変換するとうまくいくPDFファイルもあるよ。
返信削除
返信
みらさま2011年11月19日 20:48
今気づいたけれど、
ExtractText.exeとバッチファイルとPDFファイルが同じディレクトリにないとエラーになるようです。
返信削除
返信
nnspace blogger2011年11月27日 14:21
なるほど、今度会社で試してみます。
返信削除
返信

コメントを追加