Please enable JavaScript.
Coggle requires JavaScript to display documents.
案例 (練習素材 (新聞網 (蘋果日報), 糗百 成人版, 趕集, 簡書), 動態載入的網頁要怎麼爬蟲 (selenium, PhantomJS,…
案例
練習素材
新聞網
蘋果日報
糗百 成人版
趕集
簡書
動態載入的網頁要怎麼爬蟲
selenium
PhantomJS
CasperJS
不用登入
抓取租屋資訊
Step1.抓取頁面所有ITEM 的List
Step2.抓取ITEM中的訊息
觀念
加點的區別
重點觀念
資料庫的操作
ORM
SQLAlchemy
2.creat_engine,declarative_base,sessionmaker
1.import sqlalchemy
3.creat Beam
ORM
sqlalchemy一对多的关系表案例
SQLAlchemy_定义(一对一/一对多/多对多)关系
SQLAlchemy —— 一对多关系
Python SQLAlchemy ORM
圖表數據分析
Pygal
代理池
IP池
proxies
User-Agent
偽裝瀏覽器
headers
如何取得User-Agent
分離頁面數據
Ajax
如何獲取評論?
network->XHR->response
network->XHR->headers =>可取得網址
對此網址發request會回覆一段json字串
parser json
json.loads(content)
Step3.觀察URL
觀察網頁資料規則
此案例是一種隨機的選取資料的模式
串接字串 =>字串1.fotmat(數字)
此語法會將formate的輸入置換字串1中的大括號
抓取圖片
步驟
Step3 加入下載規則(10節)
一個頁面有許多圖片
資源 =
>@src
3.寫入檔案
with as
1.指定存取路徑
2.取得檔案名稱 =>img.split("/")[-1]=>倒數第一個
Step 1 從首頁,觀察規則,使用jupyter notebook
Step2 找出所有的link的遍歷程式(8、9節)
雖然一次可以看到很多頁但我們發現其實點及下一頁也可以達到直接點擊的效果,但一次一個更有規律性
一次一個link
可以加上sleep(1) =>from time import sleep
学生授权申请方式
Link Title