Irohabook
Python システム・環境

PythonでWebスクレイピング:urllibとBeautifulSoupでページ情報を取得する

広告

Python3でwebスクレイピングする方法を解説します。BeautifulSoupというモジュールをあらかじめインストールしてください。

pip3 install beautifulsoup4

まとめ

入力

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'http://www.irohabook.com/'
html = urlopen(url)
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
print(title)

出力

Irohabook|中学生、高校生、大学生のための学習サイト

このサイトのトップページにアクセスし、タイトルを取得しています。

注意

Python2系はurllib.requestでなくurllib2を使います。

広告

コンピューター コンピューター
プログラミング プログラミング
数学 数学
英語 英語
国語 国語
理科 理科
社会 社会