PythonでWebスクレイピング:urllibとBeautifulSoupでページ情報を取得する
Python3でwebスクレイピングする方法を解説します。BeautifulSoupというモジュールをあらかじめインストールしてください。
pip3 install beautifulsoup4
まとめ
- urllib.requestのurlopenでサイトにアクセスする
- BeautifulSoupでHTMLを解析する
- タイトルなどの文字列を取得する
入力
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = '/'
html = urlopen(url)
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
print(title)
出力
Irohabook|中学生、高校生、大学生のための学習サイト
このサイトのトップページにアクセスし、タイトルを取得しています。
注意
Python2系はurllib.requestでなくurllib2を使います。
システム・環境
-
Pythonの環境設定0166
-
Pythonのプログラムを終了する0339
-
Pythonのコメントアウト(コメントの書き方)0180