【Python】pyppeteerでのクローリング時に別ドメインのCSSを読み込む

pyppeteer スクレイピング

pyppeteerを使ってクローリングする際、「JSを実行して値を取り出す」ため、セキュリティのための制限にひっかかることが割とあるようです。私の場合、CSSの情報を取り出す際に、以下の問題に引っかかりました。 > document.styleSheets[0].cssRules VM5262…

2018-12-17

【Python】pyppeteerの非同期処理をこんな実装で行おうと思ってるんですが、どう思います？

requests-html pyppeteer Python

pyppeteerで非同期でクローリングする実装をしていて、エラー時に自動でbrowserとpageを開き直してリトライ…って考えてたんですが、あまりにリトライ処理が煩雑になるので毎回処理したい固定長のurlのリストを受け取るレスポンスはrequests-htmlのものが便…

2018-12-07

【Python】pyppeteerを非同期コンテクストマネージャー用のクラスでラップして遊ぶ

asyncio スクレイピング pyppeteer

Pythonから簡単にHeadless Chromeを利用できるpyppeteerというライブラリがあります。Headless Chromeの操作をラップしてくれてかなり便利なのですが、ほとんどの関数やメソッドが非同期(async)ｎあので、しばらく遊んでasync/awaitを使った実装に慣れる必要…

歩いたら休め

なんでこんな模様をしているのですか？

pyppeteer

【Python】pyppeteerでのクローリング時に別ドメインのCSSを読み込む

【Python】pyppeteerの非同期処理をこんな実装で行おうと思ってるんですが、どう思います？

【Python】pyppeteerを非同期コンテクストマネージャー用のクラスでラップして遊ぶ