【Python】urllibでURLのリストからページタイトルを取得するときに気をつけることのメモ

日常業務の中で、csvのデータに含まれるURLのリストからひたすらページタイトルを取得する必要があったので、Pythonを使って楽しました。

参考にしたページはこれ

「Beautiful SoupというXML/HTMLのパーサを使うと簡単にタイトルを取得でき」ますが、個人的にちょっと詰まった点があるので一応メモ残しときます。

import urllib
import pandas as pd
import BeautifulSoup

data = pd.read_table("data.tsv", encoding="utf-8")
urls = data["url"]

#ひたすらアクセス＆パージング
for x in urls: #urlsはディレクトリ以降
    temp = "http://****.co.jp" + urllib.quote(x.encode('utf-8'))
    urlopen = urllib.urlopen(temp)
    soup = BeautifulSoup.BeautifulSoup(urlopen)
    print x, "\t", soup.title.string

urllibに突っ込むためには文字列の型をunicodeからstrに統一する必要があります。ここでは「urllib.quote(x.encode('utf-8'))」と処理しました。他のやり方もありそうです。

ページタイトルが例えば「ニュース｜2011年｜サイト名」という形式になっており、「2011年」の部分だけを取り出したかったんですが、最終的にエクセルで出力する必要があったこともあり、そちらで処理しました。具体的にはipython notebookでprintしたやつをコピペして、エクセルのRIGHT()、LEFT()、LEN()関数で。

歩いたら休め

なんでこんな模様をしているのですか？

【Python】urllibでURLのリストからページタイトルを取得するときに気をつけることのメモ