爬蟲特訓

網頁

組成

架構

HTML

CSS

JavaScript

美妝

特徵

主幹

資訊

互動功能

快速鍵

ctrl+u

ctrl+shift+i

標籤

性質

結尾

起始

層級關係

自訂標籤

開頭

內部

/

.

外部

class

id

程式碼

開發者工具

element

network

2xx

正常

3xx

引導至別的網站

程式

解析器

html

html.parser

html5lib

lxml

要求網頁格式

內建解析器

相容性高

需另外安裝

套件

BeautifulSoup

soup.HTML標籤

回傳標籤本身

.text

標籤內容

['邊謙的屬性名']

符合標籤與屬性的值

HTML標籤2

分支下

soup.find_all

找出所有HTML標籤

回傳list

children

.parent(s)

需用for迴圈讀取

需用for迴圈

next_sibling(s)

弟弟妹妹

previous_sibling(s)

哥哥姊姊