記事には広告が含まれています
なかぴょん
へびにょん
なかぴょんです。
今回はUdemyの講座、Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup、Selenium、Requests)を受けてきました。
Webスクレイピングに関する基礎的な知識を身に着け、実践演習を通して、Webスクレイピングの知識を身に着けられる講座です。
Webスクレイピングの事前知識は必要ありませんので、Webスクレイピングの勉強を始めたばかりの人でも問題なく講座を受けられます。
2022年11月現在、5800人以上の方が受講されている人気の講座です。
それでは、講座について簡単に解説していきます。
Webスクレイピング講座の受講対象者
本講座の受講対象者や講座のおすすめポイントは以下のようになります。
・Webスクレイピングを趣味に活用されたい方
・Webスクレイピングに興味があるが、始め方がわからない方
・Webサイトから効率的にデータを取得する方法を学習されたい方
Webスクレイピング講座で何が学べるのか
本講座で学べる内容を箇条書きでまとめております。
専門的な用語が多く難易度が高いように感じますが、講座内できちんと解説がありますので、現時点で知らない単語があっても問題ございません。
- Python3のスクレイピング用ライブラリBeautifulSoup、Selenium、Requests、Newspaper3k、Pandas(read_html)が扱えるようになります。
- Beautiful Soupを用いて、複数のWebページを巡回し、目的の情報を取得する方法を理解することができます。
- Seleniumを利用した、ログイン画面への対処、JavaScriptを用いた動的なサイトへの対処、画像を取得・ダウンロードする方法を理解することができます。
- newspaper3kを用いて、ニュースサイトやブログのトップページに表示されている複数の記事を順に巡回し、記事や要約、キーワードをダウンロード・保存する方法を理解することができます。
- Pandasのread_htmlを用いて、Webサイト上のテーブルに格納されているデータを取得する方法を理解することができます。
- スクレイピングにおけるXPath、CSSセレクタ、正規表現の利用方法を学ぶことができます。
- スクレイピングでデータを取得・抽出し、取得したデータを整形・グラフ化、保存する一連の流れを習得することができます。
Webスクレイピング講座を学ぶ際の事前準備
Webスクレイピングが全くの未経験でも問題ありません。HTML、CSSの基本についても解説しております。
講師はWindowsの環境で解説しておりますが、Macでも同様に進めていくことができます。
Webスクレイピング講座の詳細
講座ページに記載されている詳細も載せておきます。
講座内容の中で気になる部分がありましたら、実際に講座ページを覗いてみてください。
Webスクレイピング講座 セクション1:はじめに
コース概要について解説があります。
Webスクレイピングに関する知識が全くない方でも講座を受けられるように、学ぶ内容や項目を教えてくれてとても親切です。
- コースの概要
- 各セクションで学ぶトピック1~3(スクレイピングのステップ、スクレイピング用ライブラリの種類・役割 )
- 【重要】Udemyの使い方
Webスクレイピング講座 セクション2:Jupyter Notebookのインストールと使い方
プログラミング言語でプログラムを組む際には、環境構築という事前準備が必要となります。
こちらのセクションでは自分のPCで開発をする際に役立つJupyter Notebookという開発環境の構築をします。
すでに、Jupyter Notebookのインストールが終わっている方は飛ばして問題ございません。
- Jupyter Notebookのインストール
- 基本的な使い方
- エディットモード・コマンドモード、ショトカットキー
- マークダウン
- コードの実行
- データ保存
- ファイル共有、終了方法
- その他の便利な機能
- ライブラリのインストール
Webスクレイピング講座 セクション3:HTMLの基本
HTMLの基礎について解説があります。
- HTMLの構成、タグの種類
- HTMLタグの属性
- CSSとは
- HTMLの階層構造
Webスクレイピング講座 セクション4:newspaper3kによるニュース記事の取得
実際にPythonを使ったWebスクレイピングを学んでいきます。
基礎的な知識を一通り学べますので、Webスクレイピング初心者の方には必見の内容となります。
- newspaper3kでデータが取得できない場合の対応方法
- 単一のニュース記事の取得
- 自然言語処理による要約の取得
- 複数のニュース記事の取得
- CSVファイルへの保存1(ヘッダデータ)
- CSVファイルへの保存2(明細データ)
- newspaper3kの基本演習
- ソースコード
Webスクレイピング講座 セクション5:Pandasでスクレイピング(株価の取得)
引き続きひたすらWebスクレイピングに関する知識を学んでいきます。
講座項目を実際に並べてみて感じたのですが、こんなに数多くの内容を1つの講座で学べるってすごくコスパが良いですね。
- Pandas・read_htmlの基本
- read_htmlによるデータの取得と表示
- 取得データの変換1(数値)
- 取得データの変換2(日付)
- 株価グラフの描画
- 株価データの保存
- ソースコード
Webスクレイピング講座 セクション6:Requestsの基本的な使い方
- Requestsの解説
- Requestsの使い方(responseオブジェクト)
- Requestsの使い方(getメソッドの引数)
- ソースコード
Webスクレイピング講座 セクション7:BeautifulSoupの基本
- BeautifulSoupの基本
- BeautifulSoupでHTMLの階層を移動してタグを指定する方法
- BeautifulSoupのfind、find_allメソッドの使い方
- BeautifulSoupのselectメソッドの使い方
- BeautifulSoupの基本演習
- ソースコード
Webスクレイピング講座 セクション8:BeautifulSoupで読売新聞オンラインからニュースのタイトル・URLを取得
- 読売新聞オンラインからHTMLデータの取得
- サイトの変更に伴うコードの変更点
- selectメソッドによるニュースタイトル・URLの取得
- 複数のニュースタイトル・URLの取得
- find_allメソッドによるニュースタイトル・URLの取得
- ソースコード
Webスクレイピング講座 セクション9:【演習】BeautifulSoupでYahooニュースから主要ニュースの記事を取得
- 【課題】主要ニュースのタイトル・URL一覧の取得
- 【解説】主要ニュースのタイトル・URL一覧の取得
- 【課題】要約ページからニュースページへのリンクの取得
- 【ヒント】リンクをたどって複数のページを遷移する方法
- 【解説】要約ページからニュースページへのリンクの取得
- 【課題】各主要ニュースの記事の取得
- 【解説】各主要ニュースの記事の取得
- ソースコード
Webスクレイピング講座 セクション10:正規表現
- 正規表現の書き方と使い方
- 正規表現で使う関数(match・search)
- 正規表現で使う関数(findall・finditer・fullmatch・sub)
- 文字列の先頭・末尾を指定する記号
- 繰り返し回数を指定する記号
- 集合(否定を含む)・ORを指定する記号
- 特殊シーケンス
- コンパイル・特殊文字のエスケープ
- 貪欲マッチ・非貪欲マッチ
- フラグ引数
- ソースコード
Webスクレイピング講座 セクション11:CSSセレクタの記述方法
- CSSセレクタの基本と属性の指定
- CSSセレクタでの子・子孫・兄弟要素の指定
- CSSセレクタでのリストの要素の指定
Webスクレイピング講座 セクション12:XPathの記述方法
- XPathとは、XPathの基本的な書き方
- XPathの基本
- XPathによる属性の取得
- XPathでのリストの要素の取得
- XPathでの親・先祖・兄弟・子・子孫要素の取得
- XPathによる前方にある要素の取得
- XPathによる後方にある要素の取得
Webスクレイピング講座 セクション13:BeautifulSoupでHTMLの階層を移動してタグを指定する方法
- 基本的なタグの指定方法
- 子・子孫要素の取得方法
- 親・先祖・兄弟要素の取得方法
- ソースコード
Webスクレイピング講座 セクション14:BeautifulSoupのfind、find_allメソッドの使い方
- find、find_allメソッドの概要解説
- find_allメソッドのname引数
- find_allメソッドのキーワード、attr引数
- find_allメソッドのtext、limit、recursive引数
- findメソッドの詳細解説
- ソースコード
Webスクレイピング講座 セクション15:BeautifulSoupのselectメソッドの使い方
- selectメソッドの基本
- 属性、属性値を指定しての要素の取得
- 子孫・子・兄弟要素の取得
- リストの要素の取得
- ソースコード
Webスクレイピング講座 セクション16:Seleniumの基本的な使い方(Googleでの検索結果の取得と保存)
- Seleniumとは、WebDriverの準備
- Chrome Driverのインストール方法
- Google検索の自動化
- XPathによる検索結果一覧の取得(タイトルとURL)
- Seleniumのヘッドレスモード
- 次のページへ遷移(「次へ」のリンクをクリック)
- データのCSVファイルへの保存1
- データのCSVファイルへの保存2
- ソースコード
Webスクレイピング講座 セクション17:Seleniumでログインする方法(インスタグラムへのログイン)
- インスタグラムのログイン画面の表示
- ログイン画面でユーザーネーム・パスワードの入力
- 確認画面を閉じメイン画面を表示
- ソースコード
Webスクレイピング講座 セクション18:Seleniumで画面スクロールする方法(インスタグラムで全ての画像を表示)
- インスタグラムで対象ページの表示
- 画面スクロール回数の計算(投稿件数を取得)
- ソースコード
Webスクレイピング講座 セクション19:Seleniumで画像をダウンロードする方法(インスタグラムからの画像の取得)
- 画面スクロールしてimgタグを取得
- 重複タグの削除・imgタグの表示
- Selenium・Requestsを用いた画像ファイルのダウンロード・保存1
- Selenium・Requestsを用いた画像ファイルのダウンロード・保存2
Webスクレイピング講座 セクション20:【参考リンク】Pythonの基礎
- Pythonの基礎が学べるサイトへのリンク
Webスクレイピング講座まとめ
今回はUdemyの講座、Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup、Selenium、Requests)についてご紹介しました。
分厚い参考書で勉強しなくても、Webスクレイピングの知識を身に着けられて本当に助かりました。
Webスクレイピングができるようになると、以前より業務をスムーズにこなせるようになり、自信を持って仕事ができますので気分も良いです。
Udemyの講座には30日間の返金保証がついておりますので、ぜひ1度、気軽に受けてみてください。
今回紹介した講座以外にも僕が受けた講座はいくつかあるので、興味がある方はこちらの記事をご覧ください。
【2022年最新版】UdemyにあるPythonや機械学習が学べるおすすめ講座まとめ
なかぴょんに受けてほしい学習サービスのリクエストを募集中です。
講義のリクエストなどありましたら、お問い合わせにてお伝えください。
リクエストをいただいた講座は受け終わった後で記事にします。
なかぴょん