728x90
반응형

Crawling 4

[Crawling] Google Sheets IMPORTXML()로 Xpath가져오기

인터넷 자료를 Google Sheets 자동으로 가져오는 방법은 여러가지 있습니다. 테이블로 만들어진 자료는 =IMPORTHTML( )로 가져 올 수 있지만, 필자가 가져오고 싶은 리스트는 형식이어서, 다른 방법이 필요했습니다. 이 때는 =IMPORTXML함수를 사용하여 Xpath를 가져오면 좋습니다. 제가 불러오고 싶은 것은 바로 아래의 컨텐츠였어요. 회사 로고를 제외한 이름, 카테고리, 나라 위치를 구글시트에 가져오고 싶었습니다. 처음에는 표 형식으로 되어 있는 줄 알고, =IMPORTHTML("링크","table",index)해서 가져오려고 했었어요. 그런데 inspect를 보니까, 테이블로 이루어져 있지 않고, div형식으로 되어있었어요. 이럴 때는 어떻게 해야 할까요? 이럴 때는 =IMPORTX..

Crawling 2022.02.27

웹 크롤링 VS 웹 스크래핑

정말 헷갈리는 두 단어. 사람들과 말할 때, 이 단어 썼다 저 단어 썼다 하게 되는데, 이참에 명확히 차이점을 이해하고 가겠다! 웹 크롤링 - 웹 크롤러(자동화 봇)가 일정 규칙으로 웹페이지를 브라우징 하는 것 웹 스크래핑 - 웹 사이트 상에서 원하는 정보를 추출하는 기술 웹 스크래핑이라는 말은 쓰는 사람은 쓰고 안 쓰는 사람은 안 쓰는 묘한 단어 같아요. 쉽게 말해서 웹 크롤링은 그냥 돌아만 다니는 거고 스크래핑은 긁어 오는 거에요. 그래서 우리가 보통 크롤링을 한다고 하는것은 사실은 스크래핑이라고 할 수 있어요. 앞으로 다른 글에서, 저는 이 둘을 합쳐서, 크롤링이라고 부를게요!

Crawling 2022.02.22

👩‍💻코딩적으로 생각하기 _ youtube 자막 추출 (글만 가져오는 방법)

Youtube를 보다가 저 영어! 나도 따라서 공부하고 싶다고 생각할 때가 있죠? 그렇다고 저 긴 영상을 다 쉐도잉할 수도 없고... 이럴 때는 Youtube의 Open transcript 기능을 활용하면 좋아요. 그럼 어떻게 스트립트만 가져올 수 있는지 코딩적으로 접근해 볼까요? 1. Youtube의 자막을 복사해서, 엑셀로 붙여넣기 해줍니다. 2. 컬럼명을 만들어 줍니다. import pandas as pd subtitle_data = pd.read_csv('youtube_subtitle.csv') df = pd.DataFrame(subtitle_data) df 3. 계속해서 이 데이터 프레임에 x열을 2로 나눴을 때 나머지를 담고 있는 g열을 추가합니다. 판다스에서는 assign() 메서드를 써서 ..

Crawling 2022.02.17
728x90
반응형