ホーム > 未分類 > MacOSX(Snow Leopard)でPDFからテキストを抽出する

MacOSX(Snow Leopard)でPDFからテキストを抽出する

2009 年 10 月 16 日 miya コメントをどうぞ コメント

まずはじめに

PDFからテキストを抽出するには、pdftotextというコマンドをインストールする必要がある。

pdftotextをインストールするには、MacPortsが簡単なのであらかじめMacPortsをインストールすること。

MacPortsのインストールは以下のような手順で。

  • Snow LeopardのインストールDVDからXcodeをインストール
  • Snow LeopardのインストールDVDからX11をインストール
  • MacPortsの最新版を入手してインストール

pdftotextのインストール

pdftotextはxpdfというパッケージに含まれているのでそれをインストールする。

sudo port install xpdf

これだけだと日本語がうまく使えないので日本語のライブラリもインストールする。

sudo port install xpdf-japanese

設定

さらに、/opt/local/etc/xpdfrcに以下の3行を追加する。

textEncoding		UTF-8
cidToUnicode Adobe-Japan1 /opt/local/share/xpdf/xpdf-japanese/Adobe-Japan1.cidToUnicode
cMapDir Adobe-Japan1    /opt/local/share/xpdf/xpdf-japanese/CMap

参考

今日読んだ本

ちょっと古い本だけどBookOffで購入した。

なぜおいしいアイスクリームが売れないの? ダメな会社をよみがえらせる3つのレッスン (講談社BIZ)

一見、当たり前のことのようだけどこうやって分かりやすく説明してもらうと大切さを再認識できるいい本だった。

最近涙もろくて、最後のくだりはちょっと涙が出た。

カテゴリー: 未分類 タグ:
  1. コメントはまだありません。
  1. トラックバックはまだありません。