Please enable JavaScript.

Coggle requires JavaScript to display documents.

案例 (練習素材 (新聞網 (蘋果日報), 糗百成人版, 趕集, 簡書), 動態載入的網頁要怎麼爬蟲 (selenium, PhantomJS,…

- - - - 觀念
        
        加點的區別
    - - 資料庫的操作
        
        ORM
        
        SQLAlchemy
        
        2.creat_engine，declarative_base，sessionmaker
        
        1.import sqlalchemy
        
        3.creat Beam
        
        ORM
        
        sqlalchemy一对多的关系表案例
        
        SQLAlchemy_定义(一对一/一对多/多对多)关系
        
        SQLAlchemy —— 一对多关系
        
        Python SQLAlchemy ORM
        
        圖表數據分析
        
        Pygal
      - 代理池
        
        IP池
        
        proxies
        
        User-Agent
        
        偽裝瀏覽器
        
        headers
        
        如何取得User-Agent
      - 分離頁面數據
        
        Ajax
        
        如何獲取評論?
        
        network->XHR->response
        
        network->XHR->headers =>可取得網址
        
        對此網址發request會回覆一段json字串
        
        parser json
        
        json.loads(content)
    - - 觀察網頁資料規則
      - 此案例是一種隨機的選取資料的模式
      - 串接字串 =>字串1.fotmat(數字)
        
        此語法會將formate的輸入置換字串1中的大括號
  - - - Step3 加入下載規則(10節)
        
        一個頁面有許多圖片
        
        資源 = >@src
        
        3.寫入檔案
        
        with as
        
        1.指定存取路徑
        
        ２.取得檔案名稱 =>img.split("/")[-1]=>倒數第一個
      - Step 1 從首頁，觀察規則，使用jupyter notebook
      - Step2 找出所有的link的遍歷程式(8、9節)
        
        雖然一次可以看到很多頁但我們發現其實點及下一頁也可以達到直接點擊的效果，但一次一個更有規律性
        
        一次一個link
        
        可以加上sleep(1) =>from time import sleep