Please enable JavaScript.
Coggle requires JavaScript to display documents.
爬虫原理 请求网站并提取数据的自动化的程序 (解析数据 (怎么样解决JavaScript渲染的问题 (分析Ajax请求,…
爬虫原理
请求网站并提取数据的自动化的程序
发起请求
通过HTTP发送一个Request
1 GET ,POST
2 DELETE
请求方式
GET,POST
请求URL
用URL来确定
请求头
user-agent
HOST
Cookies
请求体
请求时候额外附带的数据
递交表单数据时的表单数据
获取响应内容
响应状态
200,404,
响应头
如服务器类型,内容长度
响应体
包含请求的资源
如网页的HTML
解析数据
直接处理
Json解析
正则表达式
beautifulSoup
PyQuery
Xpath
怎么样解决JavaScript渲染的问题
分析Ajax请求
Seleium,WebDriver
Splash
保存数据
文本
纯文本,Json,xml
关系型数据库
Mysql,Oracle,sqlserver
非关系型数据库
2进制文件
能抓到怎么样的数据
网页文本
HTML文档
Json格式
图片的2进制
视频格式
其他格式