MacOSX(Snow Leopard)でPDFからテキストを抽出する
まずはじめに
PDFからテキストを抽出するには、pdftotextというコマンドをインストールする必要がある。
pdftotextをインストールするには、MacPortsが簡単なのであらかじめMacPortsをインストールすること。
MacPortsのインストールは以下のような手順で。
- Snow LeopardのインストールDVDからXcodeをインストール
- Snow LeopardのインストールDVDからX11をインストール
- MacPortsの最新版を入手してインストール
pdftotextのインストール
pdftotextはxpdfというパッケージに含まれているのでそれをインストールする。
sudo port install xpdf
これだけだと日本語がうまく使えないので日本語のライブラリもインストールする。
sudo port install xpdf-japanese
設定
さらに、/opt/local/etc/xpdfrcに以下の3行を追加する。
textEncoding UTF-8 cidToUnicode Adobe-Japan1 /opt/local/share/xpdf/xpdf-japanese/Adobe-Japan1.cidToUnicode cMapDir Adobe-Japan1 /opt/local/share/xpdf/xpdf-japanese/CMap
参考
- pdftohtml で日本語を: katoy: cocolog
- 山ノ中ニ有リblog macportでxpdfをインストール – MacOSXでEPSファイルを作る方法を模索(3)
- VimでPDFを開いて保存 – YKMbPP
- pdftotextで PDFからのテキスト抜き出し – 駄犬日誌
今日読んだ本
ちょっと古い本だけどBookOffで購入した。
一見、当たり前のことのようだけどこうやって分かりやすく説明してもらうと大切さを再認識できるいい本だった。
最近涙もろくて、最後のくだりはちょっと涙が出た。
関連記事
- MacOSX上のSubversionで日本語ファイル名が扱えるようになった。
- Snow LeopardでのMacPorts
- Snow LeopardへのアップグレードとMacPorts
- MacOSでGitHub – アカウントの作成から初期設定まで
- Snow Leopardが発売されたようです。
お問い合わせ
システム開発に関するお問い合わせをお待ちしています。
お急ぎの方は、Twitterでどうぞ。
もちろん、このページへのコメントも大歓迎です!