2011年11月12日土曜日

ExtractText

ExtractText

というソフトを発見した。

このソフトは、PDFファイルから、テキストを抽出できる。(PDFをテキストに変換できるともいう)

この類のソフトは他にもあるが、英語は抽出できても、日本語はできないものが多い。

しかーし、このソフトは、日本語も抽出できるところがすばらしい。

adobe reader にもテキスト抽出機能はあるが、スペースがあるとすべて改行されてしまって、読みにくい。

しかーし、このソフトは、適度に改行されるので、読みやすい。

とにかく すばらしかったので、ここに書き留めておく。

欠点があるとすれば、コマンドラインのプログラムなので、

コマンドを打たなければならないことかな。

extracttext input=test.pdf output=test.txt

とcmd.exe で入力するとよろし。

まぁ 自分の場合は、 a.batを作って、

その中身に

start
extracttext input=test.pdf output=test.txt

と記述して

a.bat をクリックするだけにしておく派です。

6 件のコメント:

  1. このコメントは投稿者によって削除されました。

    返信削除
  2. そのBATコマンドを以下のようにして、「送る」メニューに入れておくと幸せになれるかも。

    extracttext input="%1" output="%~dpn1.txt"

    PDFから文字列が抽出できるなんて便利だね。

    返信削除
  3. 会社で試してみたんですが、いろいろライブラリを入れてもエラーで変換できなかったので残念でした。

    それで気づいたんですが、最近のACROBAT READER にはテキストで保存という機能がついているんですね。

    このソフトとの違いが試せないのでとても残念。

    返信削除
  4. batコマンドにパラメータを利用すると便利でいいですね。

    変換できなかったのですか?
    自分がネットでさがしてきたPDFはすんなり変換できたんだけどなぁ。
    画像をPDFにしたものは、変換できないとおもうよ。


    アクロバットでうまく変換できないときは、
    ExtractTextで変換するとうまくいくPDFファイルもあるよ。

    返信削除
  5. 今気づいたけれど、
    ExtractText.exeとバッチファイルとPDFファイルが同じディレクトリにないとエラーになるようです。

    返信削除
  6. なるほど、今度会社で試してみます。

    返信削除