티스토리 데이터를 Google Sheets에서 XPath로 추출하기

2018. 6. 25. 07:14 | 댓글 6

현재 티스토리에서 데이터 백업을 제공해주지 않기 때문에 다른 플랫폼으로 이전하려면 텍스트를 복사하여 붙여넣기 방식으로 해야 하는데, 글이 많을 경우 여간 힘든 작업이 아닐 수 없습니다.

티스토리 데이터를 추출할 수 있다면 워드프레스 등으로 이전하는 것이 가능해질 것입니다.

몇 가지 방법을 알아보다가 XPath로 데이터를 추출하는 것이 가능하다는 것을 알게 되었습니다. 다음 사이트에서 URL 리스트를 입력하고 XPath를 지정하면 데이터가 추출됩니다.

  • http://www.urlitor.com/web-scraping

하지만 아쉽게도 한글 데이터가 모두 깨지네요. 그리고 HTML 코드는 모두 제거됩니다. (한글이 깨지는 문제를 사이트 운영자에게 알렸지만 이 문제를 해결해줄지는 모르겠습니다.)

티스토리 데이터 추출하기

다른 방법으로 Google Sheets에서 XPath를 사용하면 데이터를 비교적 수월하게 추출할 수 있습니다. XPath 문법은 다음 글을 참고해볼 수 있습니다.

  • https://www.w3schools.com/xml/xpath_syntax.asp

예를 들어, URL 리스트만 정리하여 넣으면 원하는 데이터를 추출할 수 있습니다.

구글 시트에서 웹사이트 데이터 추출하기

테스트로 제목과 meta description을 추출해보았습니다. 한글이 깨지지 않고 잘 추출되네요.

하지만 문제는 본문 내용을 html tag를 유지한 채 가져올 수가 없네요. 방법이 아예 없는 것은 아니고, 다음 글을 보면 스크립트(Tools > Script Editor 메뉴)를 만들어서 html tag를 유지한 상태로 끌어올 수 있을 것 같습니다.

  • https://webapps.stackexchange.com/questions/91382/using-importxml-to-pull-html-tags-along-with-data
  • https://developers.google.com/apps-script/guides/sheets

티스토리 데이터 추출을 떠나서 구글 시트에서 XPath를 활용하면 웹사이트 데이터를 추출하는 데 도움이 될 것 같습니다. (예: 쇼핑몰 페이지에서 상품명, 상품 설명 등의 데이터 추출)

참고로 파이썬으로 데이터 추출 프로그램을 만들거나 유료 프로그램을 사용하면 티스토리 데이터를 원하는 방식으로 뽑아서 워드프레스로 이전이 가능할 것으로 보입니다("티스토리에서 워드프레스로 이전하기 [案]" 참고).

참고:

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기

댓글을 달아 주세요

">
  1. thumbnail
    공수래공수거

    티스토리에서 다른곳으로 글을 옮겨야 할 경우가 안 생기게 되길
    바랄뿐입니다 ㅎ

  2. thumbnail
    veneto

    백업기능을 없애서 난감해요 혹시나 블로그가 망해버리면 이전할수도 없이 그냥 버려야하니까요..ㅠㅠ

    • thumbnail
      홈페이지 제작, 워드프레스, 웹호스팅 정보를 제공하는 블로그 Avada
      2018.06.26 06:31 신고

      카카오에서 백업할 수 있는 방법을 제공한다면 좋겠지만, 그렇지 않을 경우 그럴 가능성도 있어 보입니다.

      무식하게 Ctrl+C, Ctrl+V 방식으로 복사하여 워드프레스 등으로 이전해야 하지만, 글이 많을 경우 쉽지 않은 작업이 될 것입니다.

      능력자가 나타나서 본문을 온전한 형태(HTML 태그까지 포함)로 추출하는 스크립트를 만들어준다면 데이터 추출이 가능해지고, 그러면 다른 플랫폼으로 쉽게 이전할 수 있을 것입니다.

  3. thumbnail
    IT세레스

    티스토리 서비스가 절대 중단될 일은 없다고 보지만 데이터 백업말고도 그래도 간단하게 추출하는 방법도 있었군요.