search
New サムネイル GORMでError 1054: Unknown column ‘valueR New サムネイル Goをインストールしてバージョンを確認する(Mac) New サムネイル 新元号・令和の意味を万葉集から理解する:令は「良い」を表す漢字!

PythonでWebスクレイピング:urllibとBeautifulSoupでページ情報を取得する

広告

Python3でwebスクレイピングする方法を解説します。BeautifulSoupというモジュールをあらかじめインストールしてください。

pip3 install beautifulsoup4

まとめ

  • urllib.requestのurlopenでサイトにアクセスする
  • BeautifulSoupでHTMLを解析する
  • タイトルなどの文字列を取得する

入力

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'http://www.irohabook.com/'
html = urlopen(url)
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
print(title)

出力

Irohabook|中学生、高校生、大学生のための学習サイト

このサイトのトップページにアクセスし、タイトルを取得しています。

注意

Python2系はurllib.requestでなくurllib2を使います。

広告

広告

広告

コンピューター コンピューター
プログラミング プログラミング
数学 数学
英語 英語
国語 国語
理科 理科
社会 社会

Python入門

Python入門

化学入門

化学入門

漢字辞典

漢字辞典

整数辞典

漢字辞典

Lord Candy

Lord Candy