Irohabook @go

27 February 2018

0

476

PythonでWebスクレイピング：urllibとBeautifulSoupでページ情報を取得する

Python3でwebスクレイピングする方法を解説します。BeautifulSoupというモジュールをあらかじめインストールしてください。

pip3 install beautifulsoup4

まとめ

urllib.requestのurlopenでサイトにアクセスする
BeautifulSoupでHTMLを解析する
タイトルなどの文字列を取得する

入力

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = '/'
html = urlopen(url)
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
print(title)

出力

Irohabook｜中学生、高校生、大学生のための学習サイト

このサイトのトップページにアクセスし、タイトルを取得しています。

注意

Python2系はurllib.requestでなくurllib2を使います。

次の記事

システム・環境

Irohabook @go 15 April 2019
Windows10にPythonとDjangoをインストールする

0

410
Irohabook @go 15 April 2019
Pythonの環境設定

0

166
Irohabook @go 15 April 2019
MacでPythonのバージョンを確認する

0

89
Irohabook @go 15 April 2019
Pythonのプログラムを終了する

0

339
Irohabook @go 15 April 2019
Pythonのコメントアウト（コメントの書き方）

0

180
Irohabook @go 15 April 2019
PythonでWebスクレイピング：urllibとBeautifulSoupでページ情報を取得する

0

470
Irohabook @go 15 April 2019
Pythonアプリをデプロイするときのrequirements.txtの作り方

0

4940
Irohabook @go 10 November 2019
MacにPythonをインストールする：Homebrewとpyenvを使う（2019年最新版）

0

658
Irohabook @go 23 May 2020
Python の ThreadPoolExecutor は max_workers を適切に指定しないとゾンビのプロセスが生まれるかもしれない

0

1138
Irohabook @go 15 February 2023
Python のモジュール、パッケージ、ライブラリとはなにか？その違いをくわしく考える

0

151

python