MacOSX(Snow Leopard)でPDFからテキストを抽出する

まずはじめに

PDFからテキストを抽出するには、pdftotextというコマンドをインストールする必要がある。

pdftotextをインストールするには、MacPortsが簡単なのであらかじめMacPortsをインストールすること。

MacPortsのインストールは以下のような手順で。

  • Snow LeopardのインストールDVDからXcodeをインストール
  • Snow LeopardのインストールDVDからX11をインストール
  • MacPortsの最新版を入手してインストール

pdftotextのインストール

pdftotextはxpdfというパッケージに含まれているのでそれをインストールする。

sudo port install xpdf

これだけだと日本語がうまく使えないので日本語のライブラリもインストールする。

sudo port install xpdf-japanese

設定

さらに、/opt/local/etc/xpdfrcに以下の3行を追加する。

textEncoding		UTF-8
cidToUnicode Adobe-Japan1 /opt/local/share/xpdf/xpdf-japanese/Adobe-Japan1.cidToUnicode
cMapDir Adobe-Japan1    /opt/local/share/xpdf/xpdf-japanese/CMap

参考

今日読んだ本

ちょっと古い本だけどBookOffで購入した。

なぜおいしいアイスクリームが売れないの? ダメな会社をよみがえらせる3つのレッスン (講談社BIZ)

一見、当たり前のことのようだけどこうやって分かりやすく説明してもらうと大切さを再認識できるいい本だった。

最近涙もろくて、最後のくだりはちょっと涙が出た。

関連記事

お問い合わせ

システム開発に関するお問い合わせをお待ちしています。
お急ぎの方は、Twitterでどうぞ。
もちろん、このページへのコメントも大歓迎です!


Leave a Reply

Additional comments powered by BackType