티스토리 블로그에 대하여 가끔 크롤러를 돌려 블로그 글들을 크롤링하는 시도가 이루어지고 있습니다. 이 블로그에서도 3년 전에 크롤링 시도 때문에 방문자 수가 급증한 적이 있습니다.
당시 티스토리에 문의하니 정상적인 접근이라는 답변을 들었습니다.
티스토리 블로그는 티스토리에서 트래픽을 감당하지만, 워드프레스나 그누보드 등을 이용하는 경우에는 서버의 CPU 사용량이 급증하면서 사이트 전체에 부정적인 영향을 미치고 트래픽도 증가하게 될 것입니다.
이런 시도가 있다면 IP 주소를 확인하여 차단할 수 있습니다.
차단하면 좋은 IP 대역
222.239.104.로 시작하는 IP 대역은 크롤링에 사용되는 유명한(?) IP 대역입니다. 이 IP 대역으로 사이트 게시물을 무단 수집하는 시도가 매초 간격으로 이루어지는 사례가 보고되고 있습니다.
네이버 카페에 클라우드웨이즈에서 특정 IP 주소 접근을 차단하는 방법에 대한 질문이 올라와서 클라우드웨이즈에 문의해 보았습니다.
클라우드웨이즈에서는 [**.htaccess**] 파일에 접근을 차단하는 코드를 추가하는 방법을 알려주었습니다. 가령 다음과 같은 코드를 [**.htaccess**] 파일에 추가하면 222.239.104.0부터 222.239.104.225까지의 모든 IP 주소들이 사이트에 접속할 수 없도록 차단됩니다.
<Limit GET POST>
Order Allow,Deny
Deny from 222.239.104.0/24
Allow from all
</Limit>
FTP에 접속하여 루트 폴더에 있는 [**.htaccess**] 파일에 상기 코드를 추가할 수 있습니다.
그러면 해당 IP 주소에서 사이트에 접근을 시도하면 Forbidden 오류 화면이 표시되게 됩니다.
패스트코멧을 사용하는 경우에는 cPanel의 IP Blocker 툴을 사용하여 차단할 수 있습니다.
티스토리에서는 크롤링 공격을 당해도 사용자들이 조치할 수 있는 방법이 없지만, 웹호스팅을 이용하는 경우에는 문제가 되는 IP 주소를 차단할 수 있습니다.
크롤링 시도가 염려되는 경우 미리 222.239.104.1 - 222.239.104.255 범위의 IP 주소를 차단하는 것도 고려해 볼 수 있을 것입니다. 마트몬에 의하면 SK 브로드밴드 IP 대역으로 대규모로 VPN을 운영하는 업체로 추정이 된다고 하네요.
저는 중요한 워드프레스 사이트에 위의 코드를 추가했습니다.😁😁😁
패스트코멧의 경우 IP Blocker를 사용한다면 다음과 같이 CIDR 포맷으로 IP 대역을 추가할 수 있을 것입니다. (패스트코멧에 문의해 보아도 좋을 것 같습니다.)
222.239.104.0/24
남의 사이트를 그대로 스크래핑하여 무엇에 사용하려는지 모르겠습니다. 그럴 시간에 좋은 콘텐츠나 만들든가 보다 생산적인 일을 하든가...😥😥
참고
https://avada.tistory.com/3046