プログラミング初心者でも出来た！Pythonスクレイピングで、はてブのホットエントリーを取得

「ホッテントリを解析すればホッテントリ入りの記事を量産できる。」
なんて噂を聞きました。

それじゃ試してみるか、ってことで、まずは一歩目。ホットエントリーのスクレイピングから初めてみます。

f:id:temcee:20180825144645p:plain

環境
パッケージインストール
コード
＜上記コードで出来なかった時用＞タグとclassの確認
取得できた
まとめ
参考リンク
こんな記事も書いています

環境

Python3
コーディング・動作テスト：Windows / 本番：Raspberry pi
僕のスキル：コーディング初心者 (ノギスとドライバを愛するメカ屋なのです)

最終的には、定期的にスクレイピングして解析後に出てくるホットなワードを勝手に通知し続けるところまでやりたい。

となるとマシンは動かしっぱなしになるので、ラズパイで動かすことを前提としてやりました。

パッケージインストール

pip install requests
pip install beautifulsoup4
sudo apt-get install python-lxml

ラズパイでは、pip install lxmlが通りませんでした、謎。

コード

requestsでスクレイピングしてbeautifulsoup4で解析します。

Pythonでのスクレイピングはやってる人が多くて、先人の知見に大いに助けられました。最後の方にお世話になったページをまとめているので、スクレイピングに挑戦しよう！って人は見てみてください。

import requests
import bs4
import csv

# ホットエントリページの取得、解析

headers = {"User-Agent": "Mozilla/5.0 (X11; Linux armv7l) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.84 Safari/537.36"} #User-Agentは自身のブラウザとOSを設定する

res = requests.get("http://b.hatena.ne.jp/hotentry", timeout=10, headers=headers)

bs_res = bs4.BeautifulSoup(res.text, "lxml")

# はてブ数とタイトルの取得
hotentry = []
for x in bs_res.findAll("div", attrs={"class":"entrylist-contents"}):
    a_tag = x.find("a", attrs={"class":"js-keyboard-openable"})
    hatebu_num = x.find("a", attrs={"class":"js-keyboard-entry-page-openable"})

    if a_tag is not None:
        hotentry.append((hatebu_num.find("span").text, a_tag.attrs["title"], a_tag.attrs["href"]))

# はてブ数でソート
hotentry = sorted(hotentry, key=lambda x:int(x[0]), reverse=True)

# 確認用に表示
for x in hotentry:
    print('{} || {} \n {}'.format(x[0], x[1], x[2]))

# csvに出力
f = open('hatebu.csv', 'w')
#f = open('hatebu.csv', 'w', encoding='CP932', errors='ignore') windows環境用、エンコードエラー回避

writer = csv.writer(f, lineterminator='\n')

for x in hotentry:
    writer.writerow(x)

f.close()

＜上記コードで出来なかった時用＞タグとclassの確認

時間が経つとclassが変わったりして動かなくなるかもしれません。そんな時は開発者ツールを使って取得したい情報のclassを確認しに行きましょう。

ブラウザで目的のページにアクセスし、F12を押す

f:id:temcee:20180826144452p:plain
右側に宇宙語の羅列が出てきます。

抽出する要素を探す

f:id:temcee:20180826145733p:plain
①開発者ツール左上のアイコンをクリック(Ctrl+Shift+c)
②目的ページ内の欲しい要素をクリック
③ページコード内の欲しい要素が見つかる

コードの修正

コードの中で、findAllやfindで要素を検索しているところを、上記で抽出したものに置き換えます。

"div"や"a"といったタグや、{"class":"entrylist-contents"}といった検索条件のところを弄る感じですね。

# はてブ数とタイトルの取得
hotentry = []
for x in bs_res.findAll("div", attrs={"class":"entrylist-contents"}):
    a_tag = x.find("a", attrs={"class":"js-keyboard-openable"})
    hatebu_num = x.find("a", attrs={"class":"js-keyboard-entry-page-openable"})

    if a_tag is not None:
        hotentry.append((hatebu_num.find("span").text, a_tag.attrs["title"], a_tag.attrs["href"]))