RSS

BeautifulSoupでスクレイピング

    付与されたタグ:
  • Python

少しだけテスト。

from bs4 import BeautifulSoup
import re
import urlparse

soup = BeautifulSoup(file('index.html'))

tags_a = soup.findAll('a', href=re.compile('.*foo.*'))

for i in tags_a:
    print i.get('href')
    print i.get_text().encode('utf-8')

これでURLにfooが含まれるリンク先の取得して一覧にして表示。