Pythonスクレイピング再び、RSSからはてブのホットエントリーを取得

以前、スクレイピングでホッテントリを取得する記事を書きました。

temcee.hatenablog.com

この記事に「RSSフィードの取得ならそちらでやった方がいい」という意見があったので、調べてコードを書きなおしてみました。

はてブのRSSフィード
feedparser
整列してcsv出力まで行うコード
まとめ
参考リンク
こんな記事も書いています

はてブのRSSフィード

各カテゴリーのページ末尾に.rssを追加すればいいそうです。

「総合」のホットエントリーの場合、以下のとおりです。

http://b.hatena.ne.jp/hotentry.rss

RSSフィードを検出する機能がブラウザにある、というのも、覚えておくと役に立つかもしれません。

feedparser

RSSの解析にはfeedparserが便利そうです。

まずはパッケージをインストールします。

pip install feedparser

次にコードです。

feedparserをimportして、RSSのURLをparseしてやります。

入ったdictionaryの中身をprintで覗いたりドキュメントで確認したりしました。

最終的に欲しかった、はてブ、タイトル、リンクは下記の要領で取得できました。

import feedparser

RSS_URL = "http://b.hatena.ne.jp/hotentry.rss"

hatebu_dic = feedparser.parse(RSS_URL)

for x in hatebu_dic.entries:
    hbm_count = x.hatena_bookmarkcount
    title = x.title
    link = x.link

    print(hbm_count, title, link)

結果はこんな感じです。

f:id:temcee:20180916220654p:plain

これなら怒られないかな？

整列してcsv出力まで行うコード

今回ははてブ総合じゃなくて、自分が興味のある分野のホットエントリーを取得してます。

import feedparser
import csv

# ホットエントリRSSの取得、解析
# 「総合」 RSS_URL = "http://b.hatena.ne.jp/hotentry.rss"
it = "http://b.hatena.ne.jp/hotentry/it.rss"
manabi = "http://b.hatena.ne.jp/hotentry/knowledge.rss"
kurashi = "http://b.hatena.ne.jp/hotentry/life.rss"
yononaka = "http://b.hatena.ne.jp/hotentry/social.rss"

rss = [it, manabi, kurashi, yononaka]

hotentry = []

# はてブ数、タイトル、リンクを格納
for n in rss:
    hatebu_dic = feedparser.parse(n)

    for x in hatebu_dic.entries:
        hbm_count = x.hatena_bookmarkcount
        title = x.title
        link = x.link

        hotentry.append((hbm_count, title, link ))

# はてブ数でソート
hotentry = sorted(hotentry, key=lambda x:int(x[0]), reverse=True)

# 確認用に表示
for x in hotentry:
    print('{} || {} \n {}'.format(x[0], x[1], x[2]))

# csvに出力
f = open('hatebu_rss.csv', 'w', encoding='CP932', errors='ignore')
writer = csv.writer(f, lineterminator='\n')

for x in hotentry:
    writer.writerow(x)

f.close()