読者です 読者をやめる 読者になる 読者になる

歩いたら休め

If the implementation is easy to explain, it may be a good idea.

【Python3】pyenv + AnacondaでPython3系環境構築

悪いRubyistの同期が、プログラミング研修のpdfからテキストを読み込んで、正規表現でプログラム部分だけ抽出して楽をしていてワロタので、Pythonでも同じことをやってみたくなりました。

 

Python2系で文字列を扱うと、だいたい文字列を毎回UTF-8に変換する.encode('utf-8')地獄が待っているので、とりあえず、内部の文字コードUTF-8に統一されているPython3系環境を構築することにしました。

この記事を基にpyenvを使ってAnaondaをインストールしました。ついでにtheanoもインストールしたので今度試してみたいです。

qiita.com

ターミナル初心者は.bashrcの設定方法で躓くと思う気がするので、そこだけ気をつけましょう。ホームディレクトリ内の.bashrcというテキストファイルに設定を書き込みます。

このリンク集も参考になります。

【リンク集】Python科学技術計算パッケージ (Enthought Canopy,... | DERiVE コンピュータビジョン ブログ & メルマガ

 

こんな感じで表示されるはずです。

*****:~ *****$ python -V
Python 3.4.3 :: Anaconda 2.0.1 (x86_64)

 

肝心のPythonからpdfのテキストデータを読み込む方法については、PyPdf2というパッケージがあるようなのですが、

PDFからテキストを取得する PyPDF2 | planset blog

これではなぜかテキストをうまく読み込めなかった(「¥¥¥¥¥」みたいに表示される)のでもう少し調査が必要です。文字コードの問題でもなさそうですし。まだまだ悪いPythonistaになれそうにありません…。