Please enable JavaScript.
Coggle requires JavaScript to display documents.
update (爬虫 (2、小说 (纵横小说网 (神马搜索参数免费), 起点小说网, 笔趣阁:http://www.biquge5200.com/,…
update
爬虫
2、小说
-
-
-
-
算法:1、把网页分解成很多DOM块。
2、分解的dom块。用一定的标准去丢弃,排除。比如有些dom快里面,都是大堆的链接这个一般是列表。还有 算出文本密度(文本/html)的比值。比如(span,p,a,font)等标签所占的百分比。等等,经过多重过滤,最终会留下不多的几个dom块。再按照一定的规则过滤掉。正确率会比较高。
-
-
-
-
-
-
-