티스토리 데이터를 Google Sheets에서 XPath로 추출하기

워드프레스 정보를 제공하는 블로그 Avada 2018. 6. 25. 07:14 • 댓글:

현재 티스토리에서 데이터 백업을 제공해주지 않기 때문에 다른 플랫폼으로 이전하려면 텍스트를 복사하여 붙여넣기 방식으로 해야 하는데, 글이 많을 경우 여간 힘든 작업이 아닐 수 없습니다.

티스토리 데이터를 추출할 수 있다면 워드프레스 등으로 이전하는 것이 가능해질 것입니다.

몇 가지 방법을 알아보다가 XPath로 데이터를 추출하는 것이 가능하다는 것을 알게 되었습니다. 다음 사이트에서 URL 리스트를 입력하고 XPath를 지정하면 데이터가 추출됩니다.

  • http://www.urlitor.com/web-scraping

하지만 아쉽게도 한글 데이터가 모두 깨지네요. 그리고 HTML 코드는 모두 제거됩니다. (한글이 깨지는 문제를 사이트 운영자에게 알렸지만 이 문제를 해결해줄지는 모르겠습니다.)

티스토리 데이터 추출하기

다른 방법으로 Google Sheets에서 XPath를 사용하면 데이터를 비교적 수월하게 추출할 수 있습니다. XPath 문법은 다음 글을 참고해볼 수 있습니다.

  • https://www.w3schools.com/xml/xpath_syntax.asp

예를 들어, URL 리스트만 정리하여 넣으면 원하는 데이터를 추출할 수 있습니다.

구글 시트에서 웹사이트 데이터 추출하기

테스트로 제목과 meta description을 추출해보았습니다. 한글이 깨지지 않고 잘 추출되네요.

하지만 문제는 본문 내용을 html tag를 유지한 채 가져올 수가 없네요. 방법이 아예 없는 것은 아니고, 다음 글을 보면 스크립트(Tools > Script Editor 메뉴)를 만들어서 html tag를 유지한 상태로 끌어올 수 있을 것 같습니다.

  • https://webapps.stackexchange.com/questions/91382/using-importxml-to-pull-html-tags-along-with-data
  • https://developers.google.com/apps-script/guides/sheets

티스토리 데이터 추출을 떠나서 구글 시트에서 XPath를 활용하면 웹사이트 데이터를 추출하는 데 도움이 될 것 같습니다. (예: 쇼핑몰 페이지에서 상품명, 상품 설명 등의 데이터 추출)

참고로 파이썬으로 데이터 추출 프로그램을 만들거나 유료 프로그램을 사용하면 티스토리 데이터를 원하는 방식으로 뽑아서 워드프레스로 이전이 가능할 것으로 보입니다("티스토리에서 워드프레스로 이전하기 [案]" 참고).

참고: