웹 크롤링으로 인한 방문자 수 급증... 스크래핑이 인터넷 서핑인가?

2020. 7. 20. 02:43 | 댓글 11

지난달 중순에 이 티스토리 블로그에 이상한 트래픽이 감지되었습니다. 일정한 패턴으로 방문이 이루어졌고, 한 번으로 끝나는 것이 아니라 계속 반복되었습니다. 이틀 정도 이상한 공격이 목격되어 다음 고객센터에 문의하여 해킹 시도 같으니 IP 주소를 차단해줄 것을 요청했지만 고객센터에서는 정상적인 방문이라는 답변을 받았습니다. 그러다가 얼마 전에 우연히 어떤 개발자가 크롤러를 만들어 테스트했다는 사실을 알게 되었습니다.

웹 크롤링으로 인한 방문자 수 급증

지난달 15일과 16일, 티스토리 방문자 통계에서는 평소 방문자보다 2~3배 방문자가 급증하는 것으로 표시되었습니다.

하지만 유입 경로를 확인해보니 일정한 패턴으로 지속적인 방문이 이루어지고 있었습니다.

위의 그림과 같이 모든 페이지를 순차적으로 방문한 다음, 조금 쉬었다가 다시 같은 패턴으로 방문이 이루어지기를 반복했습니다.

티스토리에 이 문제를 문의했지만 정상적인 방문이기 때문에 IP 주소를 차단할 수 없다는 답변을 받았습니다.

그러다가 우연히 어떤 티스토리 블로그에 내 포스트 글의 일부가 올라와있는 것을 발견했습니다. 그리고 다음과 같이 크롤링을 시도했음을 암시하는 내용을 발견했습니다.

아마 크몽 같은 사이트에서 크롤링 서비스를 제공하기 위해 웹 크롤러 (스크래퍼)를 테스트했던 것으로 추정됩니다. 블로그 주인 허락 없이 크롤링하는 것을 인터넷 서핑이라고 생각하고 있네요.ㅠ

티스토리 블로그에서는 이런 크롤링 공격을 당해도 트래픽을 티스토리에서 감당하므로 블로거 입장에서는 큰 피해가 안 될 수 있지만, 내 블로그 콘텐츠를 허락 없이 모두 복사해간다고 생각하면 기분이 좋지 않은 것은 사실입니다.

만약 웹호스팅이나 서버에서 운영되는 사이트를 대상으로 크롤러를 돌리면 문제가 될 수 있습니다. 순간적으로 트래픽이 급증하기 때문에 잘못하면 서버 장애가 발생할 가능성도 배제할 수 없습니다. 서버 관리자가 있다면 그런 공격을 차단하기 위해 고생하게 될 것입니다. 제가 이용하고 있는 블루호스트나 사이트그라운드에서는 이런 공격을 효과적으로 감지하여 차단할 수 있을지 궁금하네요.

위의 스크린샷에 언급되어 있듯이, 인터벌을 줄이면 웹호스팅에서 이상한 트래픽을 감지하여 차단될 가능성이 있을 것입니다.

마치며

최근 티스토리 방문자 통계가 이상하게 작동하는 것 같습니다. 일부 (혹은 대부분) 블로그에서 방문자 수가 높게 표시되는 경우가 있고 특정 시간대(예: 새벽 1시부터 5시 사이)의 통계가 잡히지 않기도 합니다.

티스토리에서 제공하는 방문자 통계는 실시간 유입을 통해 어떤 경로를 통해 방문자가 유입되는지 확인할 수 있어 유용하지만, 정확한 통계를 원하는 경우 구글 애널리틱스를 활용할 수 있습니다. Google Analytics를 이용하면 상세한 방문자 통계를 확인할 수 있습니다.

https://avada.tistory.com/1700

 

구글 애널리틱스 구글, 네이버, 페이스북 방문자 수 확인 방법

구글 애널리틱스를 사용하면 사이트 방문자에 대한 상세한 정보를 확인할 수 있습니다. 구글 애널리틱스를 사용하는 경우 맞춤형 대시보드를 만들어 활용하면 원하는 정보를 한 곳에서 확인이

avada.tistory.com

https://avada.tistory.com/1892

 

애드센스 수익이 높은 페이지 제목 확인하기 / 페이지 뷰가 높은 페이지의 수익 확인하기

구글 애드센스를 구글 애널리틱스에 연결하면 구글 애널리틱스에서 다양한 메트릭으로 애드센스 수익을 확인할 수 있습니다. 구글 애널리틱스의 행동 > 게시자 > 개요를 클릭하여 애드센스 수��

avada.tistory.com

참고

 

보안 사고 대응 준비 조치 - 서버 로그 유지

보안 사고가 발생할 경우 가장 먼저 하는 질문이 '어떻게 침투했지?'일 것입니다. 시간대별로 이벤트 로그를 제공하는 서버 로그를 확인하면 공격이 어떤 식으로 발생했는지 파악하는 데 도움이

www.thewordcracker.com

 

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기

댓글을 달아 주세요

">
  1. thumbnail
    2020.07.20 04:35

    비밀댓글입니다

  2. thumbnail
    공수래공수거

    최근 그런일이 일어나네요
    티스토리 운영자도 알텐데 안내라도 좀 해 주었으면 좋겠습니다.

  3. thumbnail
    [찌쏘]'s Magazine

    이런 상황도 발생하는군요 요즘 유심히 블로그를 보지 않고 있었는데 한번 체크해봐야겠습니다.

  4. thumbnail
    멜랑쉬

    저도 같은 경험이 두 번이상
    있어요..이런 원인이군요~
    게다가 최근 무효 트래픽 시도도
    많고 방문자수도 이상하고..

    • thumbnail
      홈페이지 제작, 워드프레스, 웹호스팅 정보를 제공하는 블로그 Avada
      2020.07.28 21:18 신고

      최근 들어 무효 트래픽 공격이 많아진 것 같습니다. 실제로 무료 트래픽 공격으로 구글 애드센스가 정지되었다는 분들도 계시고, 이 때문에 자료를 모아서 고소를 준비하는 분도 계시더군요.

      경쟁이 치열해지다 보니 불법적인 방법으로 상대방을 공격하는 질이 안 좋은 블로거들이 있는 것 같습니다.

    • thumbnail
      2020.07.28 21:24

      비밀댓글입니다

    • thumbnail
      홈페이지 제작, 워드프레스, 웹호스팅 정보를 제공하는 블로그 Avada
      2020.07.28 21:30 신고

      다음 애드센스 커뮤니티 글을 한 번 참고해보시기 바랍니다:

      https://support.google.com/adsense/thread/41913184?hl=ko

      ===
      제3자가 악의적인 트래픽을 유발하는 경우 대부분 애드센스 시스템상으로는 체크 필터링 되므로 크게 염려하실 부분은 아닙니다. 그리고 해당 키워드의 경우 해당 포털에서 검색했을 때 상위 노출되는 항목이 해당 웹사이트가 아니라 블로그로 표시되면서 게시자님의 블로그로 유입되는 비중이 많은 듯 합니다.

      구글 애널리틱스 등 데이터를 사전에 확보하여 본인이 고의적으로 유발시킨 트래픽이 아니라는 보고서 자료 등을 사전에 수집해두시는 것이 기본 대응 방법이 될 듯 합니다.
      ====

    • thumbnail
      2020.07.28 21:48

      비밀댓글입니다