Please enable JavaScript.

Coggle requires JavaScript to display documents.

(안정성이 높은 크롤러 (크롤링할 때 cpu 점유율이 낮은 크롤러인지, 크롤러를 사용할 때 에러가 적게 일어나는지, 크롤링 할 때…

- - - - 크롤링한 파일을 하드디스크에 저장할 때, 저장하는 작업은 크롤러를 돌리던 스레드가 아닌 커널 스레드라는 별도의 스레드에서 하게 된다.
        그 때 크롤러를 돌리던 스레드는, 커널 스레드에서 저장하는 작업이 끝나기를 기다리며 작업을 진행하지 않는다. 이 기다리는 시간만큼 하나의 스레드가 작업을 안하기 때문에, 그 시간만큼 크롤링 작업이 지연된다.
        그래서 커널 스레드에서 저장하는 작업을 처리하는 동안에도 크롤러를 돌리던 스레드가 계속 작업을 하게 만드는 방식인 논블로킹 방식이 필요하다.
        또한 커널 스레드로 넘긴 저장하는 작업이
        
        비동기 논블로킹 방식을 쓰지 않는다면, 크롤링 하면서 디스크에 데이터를 읽거나 저장할 때 크롤링을 하던 스레드를 cpu가 처리하지 않고 기다리게 된다.
        디스크에 데이터를 읽거나 저장할 때에도 크롤링을 하던 스레드를 cpu가 처리하게 하기 위해, 비동기 논블로킹 방식이 필요하고, 그 방식을 쓰기위해서는 크롤러에 비동기 네트워크 라이브러리가 있어야 한다.
        
        저는 크롤링할 때 최소 7만개 이상의 웹페이지를 다운로드해야 되는데, 다운로드 하는 시간동안 크롤링을 하던 스레드가 다음 크롤링 작업을 하지 않고 기다리게 됩니다.
        이렇게 되면 크롤링 작업이 다운로드하는 시간만큼 지연되는 문제가 있습니다.
        이 때 비동기 논블로킹 방식을 사용하면 다운로드 하는 중에도 크롤링을 할 수 있습니다. 또한 비동기 논블로킹 방식을 사용하려면, 크롤러가 비동기 네트워크 라이브러리를 지원해야 하기 때문에 비동기 네트워크 라이브러리가 있는 크롤러가 필요합니다.
        
        비동기 네트워크 라이브러리를 이용하면 크롤링 속도가 빨라지기 때문에 비동기 네트워크 라이브러리를 지원하는 크롤러가 필요합니다.
        왜냐면, 저는 크롤링할 때 최소 7만개 이상의 웹페이지를 다운로드해야 되는데, 기존 방식인 동기 블로킹 방식으로는 다운로드 하는 시간동안 크롤링을 하던 스레드가 다음 크롤링 작업을 하지 않고 기다리게 됩니다.
        이렇게 되면 크롤링 작업이 다운로드하는 시간만큼 지연되는 문제가 있습니다.
        이 때 비동기 논블로킹 방식을 사용하면 다운로드 하는 중에도 크롤링을 할 수 있어서 그 시간만큼 크롤링 속도가 빨라지게 됩니다.
        또한 비동기 논블로킹 방식을 사용하려면, 크롤러가 비동기 네트워크 라이브러리를 지원해야 하기 때문에 비동기 네트워크 라이브러리가 있는 크롤러가 필요합니다.
        
        비동기 논블로킹 방식을 이용하면 크롤링 속도가 빨라집니다.
        크롤러에서 비동기 논블로킹 방식을 이용하려면, 비동기 네트워크 라이브러리를 지원해야 되기 때문에, 비동기 네트워크 라이브러리를 지원하는 크롤러가 필요합니다.
        
        비동기 논블로킹 방식을 이용하면 동기 블로킹, 동기 논블로킹, 비동기 블로킹 방식에 비해 크롤링 속도가 빨라집니다.
        
        1 more item...
- - - - 분산처리는 어떻게 하는지? 분산처리의 장단점은? 분산처리의 대안이 있는지?
        
        분산처리 장점 : 하드웨어 확장 비용이 낮음