MacOSX(Snow Leopard)でPDFからテキストを抽出する


まずはじめに

PDFからテキストを抽出するには、pdftotextというコマンドをインストールする必要がある。

pdftotextをインストールするには、MacPortsが簡単なのであらかじめMacPortsをインストールすること。

MacPortsのインストールは以下のような手順で。

  • Snow LeopardのインストールDVDからXcodeをインストール
  • Snow LeopardのインストールDVDからX11をインストール
  • MacPortsの最新版を入手してインストール

pdftotextのインストール

pdftotextはxpdfというパッケージに含まれているのでそれをインストールする。

sudo port install xpdf

これだけだと日本語がうまく使えないので日本語のライブラリもインストールする。

sudo port install xpdf-japanese

設定

さらに、/opt/local/etc/xpdfrcに以下の3行を追加する。

textEncoding		UTF-8
cidToUnicode Adobe-Japan1 /opt/local/share/xpdf/xpdf-japanese/Adobe-Japan1.cidToUnicode
cMapDir Adobe-Japan1    /opt/local/share/xpdf/xpdf-japanese/CMap

参考

今日読んだ本

ちょっと古い本だけどBookOffで購入した。

なぜおいしいアイスクリームが売れないの? ダメな会社をよみがえらせる3つのレッスン (講談社BIZ)

一見、当たり前のことのようだけどこうやって分かりやすく説明してもらうと大切さを再認識できるいい本だった。

最近涙もろくて、最後のくだりはちょっと涙が出た。


関連する記事

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>