Please enable JavaScript.
Coggle requires JavaScript to display documents.
Botnet Crawler - Coggle Diagram
Botnet Crawler
考察重点
Consisten Hasing
Fault Tolerance 因为bot通常上PC,很不稳定,而且不可控
网络安全
Botnet两种主要结构
Client - Server, a C&C server control all bots, C&C server normally is also a hacked machine
Peer To Peer, no C&C
需求
功能
爬取一个大型网站的所有网页
尽量减少网络内机器间的交流
非功能
高效,尽量避免重复爬取
容灾,PC不稳定,随时可能掉线
负载均衡,平衡每台机器的工作量
非需求
存储
设计方案
完全Client Server架构
Pros
Crawler Node 的逻辑简单
Cons
C&C Server 负担太重,存在SPOF问题
Crawler Node也存在单点问题
不推荐
Peer To Peer
Consistent Hashing +
Light weight C&C
Pros
Cons
How to fail over?
仍需要C&C,只记录和同步Node List,压力小,也要做n个replica
Pure Distributed P2P,No Master?
相似题型
传统Web Crawler
Craw Wikipedia