Written By mathew

【Udemy】Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup、Selenium、Requests)メモ④

ALL DataScience Study

Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup、Selenium、Requests)を学んでのメモ④

https://www.udemy.com/course-dashboard-redirect/?course_id=2948214
備忘録でメモしていきます。

【Udemy】Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup、Selenium、Requests)メモ③

CSSセレクタ(Try jsoup)

◆Try jsoupの使用
https://try.jsoup.org/

◆正規表現を用いたhref属性の指定
前方一致/[href^=”属性値(先頭)”]/指定された属性値(先頭)からhref属性の値が始まるものを取得
後方一致/[href$=”属性値(末尾)”]/指定された属性値(末尾)でhref属性の値が終わるものを取得
あいまい検索/[href*=”属性値”]/指定された属性値がhref属性の値に含まれるものを取得

◆子孫要素の指定
例:body a

◆子要素の指定
例:body > p.end(直接の子要素(classがend)を指定)
例:p.title + p(classがtitleの次に隣接するp要素を指定)
例:p.title ~ p(classがtitle以外のp要素を指定)

◆ulの全てのli要素を指定
例:ul.book > li(classがbookのulの全てのliを指定)

◆ulのliを1つ指定
例:ul.book > li:nth-of-type(1)