元職業エンジニアの生き方

これまでとこれからを考えるための備忘録

Python&BeautifulSoup&PhantomJS&SeleniumでJSレンダリングして情報を取得してみました。

クラウドファンディングサイトをクローリングする上で、JavaScriptで構成されている内容を取得しなければいけなくなり、レンダリング後にHTML情報を取得してみました。

 

対象:

https://www.makuake.com/project/kumamoto_nebutamatsuri/communication/

こちらのサイトの活動報告(今回はタイトルだけ)

 

使用ツール:

Python

◉ BeautifulSoup

◉ PhantomJS

◉ Selenium

 

ソース

from selenium import webdriver
from bs4 import BeautifulSoup
import time

driver = webdriver.PhantomJS()

driver.get("https://www.makuake.com/project/kumamoto_nebutamatsuri/communication/")

time.sleep(5)

html = driver.page_source

bs = BeautifulSoup(html, "html.parser")
titles = bs.find_all('span', 'owner-post__title')
for title in titles:
print title.text

driver.quit()

 

結果

届きました~~(^^♪
くまもと情報タウン紙
笑顔が素敵なスタッフでした!
少しずつ、準備は進んでいます♫

 

意外と簡単にできました。

参考にしたサイトはこちらです。

www.yoheim.net

 

Pythonを動かせる環境があればできます。

URL変えれば色々取れるかと思いますが、今のままだと報告がゼロ件だと落ちそう?笑