728x90
반응형

분류 전체보기 110

MODE PROJECT 'A Drop In Engagement' _SQL Query_#WAU

아래 차트의 쿼리문을 살펴 봅시다. 현업에서 듣는 query 작성 팁 | Query 1 1 | Query 1 해설 1 # DATE_TRUNK함수를 쓰면, week 별로 그룹을 만들어 준다. # occurred_at에 있는 날짜를 week별로 그룹을 지을거라는 의미. # week라고 alias 할거라는 의미 SELECT DATE_TRUNK('week', e.occured_at) AS week ,COUNT(DISTINCT user_id) AS weekly_active_users # 한명이 여러 번 engagemenr를 할 수 있으니까, user_id로 DISTINCT를 해줌. FROM tutorial.yammer_events e # ‘WHERE ~에 있으면서,AND이고, AND이다. 라는 조건 명시' WHE..

Data Analysis 2022.03.03

[Crawling] Google Sheets IMPORTXML()로 Xpath가져오기

인터넷 자료를 Google Sheets 자동으로 가져오는 방법은 여러가지 있습니다. 테이블로 만들어진 자료는 =IMPORTHTML( )로 가져 올 수 있지만, 필자가 가져오고 싶은 리스트는 형식이어서, 다른 방법이 필요했습니다. 이 때는 =IMPORTXML함수를 사용하여 Xpath를 가져오면 좋습니다. 제가 불러오고 싶은 것은 바로 아래의 컨텐츠였어요. 회사 로고를 제외한 이름, 카테고리, 나라 위치를 구글시트에 가져오고 싶었습니다. 처음에는 표 형식으로 되어 있는 줄 알고, =IMPORTHTML("링크","table",index)해서 가져오려고 했었어요. 그런데 inspect를 보니까, 테이블로 이루어져 있지 않고, div형식으로 되어있었어요. 이럴 때는 어떻게 해야 할까요? 이럴 때는 =IMPORTX..

Crawling 2022.02.27

Stemming VS Lemmatization

어간추출 스테밍 (Stemming) 출처 : 어간 추출 - 위키백과, 우리 모두의 백과사전 어간 추출(語幹 抽出, 영어: stemming)은 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 것 “cats”(“catlike”, “catty” 등도 마찬가지)의 어간으로는 “cat”이 추출된다. “stemmer”, “stemming”, “stemmed”의 어간은 “stem”이다. “fishing”, “fished”, “fisher”는 “fish”가 된다. “argue”, “argued”, “arguing”, “argus”의 어간은 “argu”이다. “argument”, “arguments”에서는 “argument”가 추출된다. 스테밍 알고리즘 1. 포터스테머 알고리즘을 통한 어간 추..

Deep Learning 2022.02.26

[Python. Seaborn] FacetGrid, PairGrid, PairPlot, kdeplot

이번 글에서는 그래프 시각화에 자주 쓰이는 plot들을 정리해 보았습니다. Keywords - FacetGrid - PairGrid / PairPlot - kdeplot Facet Grid 쉽게 말해 Multi plot이라고 이해하면 됩니다. 하나의 데이터를 여러 개의 plot으로 나눠서 보고자 할 때 사용됩니다. g = sns.FacetGrid(tips, col='time', row='smoker') #2x2 graph 그리기 g = g.map(plt.hist, 'total_bill') #각 분류별 total_bill의 histogram 위의 예시는 row/col을 나눠서 흡연자 여부와 점심/저녁 여부에 따른 총 식사 비용의 histogram을 보여주고 있습니다. tips 데이터를 column은 tim..

Python_Basic 2022.02.24

강의 평가에 쓰이는 데이터 시각화

강의 평가는 보통 Google Forms 서베이를 통해서 참석자들에게 피드백을 받았습니다. 이번 글에서는 서베이 답변 정리에 Matplotlib 함수를 적극적으로 사용한 이제현님의 사례를 통해서, 데이터 시각화의 중요성을 한번 살펴 볼게요. 강의평가 중 강의 속도와 강의 난이도 답변 결과를 한번 보겠습니다. 5점 만점 중 3점에 몰려있습니다. 만족도가 중간이니까, 강의 속도와 난이도 조절을 실패한 것 처럼 보입니다. 그러나 실제 문항을 보면 너무 느림과 너무 빠름의 딱 중간입니다. 속도와 난이도가 적절했음을 알 수 있습니다:) Matplotlib 함수를 사용하면 별칭을 표시해줄 수 있기 때문에, 강의 속도가 적절했다는 것을 파악할 수 있겠죠? plot_count(Qs[6], df, filename="Q6..

Data in Education 2022.02.22

Data is the new oil & soil

데이터는 이제 석유같은 자원이고, 토양같은 자원입니다. 데이터를 통해 스킬의 꽃을 피우는 역량이 중요한거죠. 데이터를 석유라는 말, 토양이라는 말이 무슨 말이고, 스킬은 왜 중요한지 한번 살펴 볼까요? | Data is the new soil? 4차 산업혁명의 ‘꽃’이 AI라면 데이터는 꽃이 자랄 수 있는 ‘토양’이다. AI는 데이터를 먹고 성장한다. 제대로 된 데이터를 확보하지 못한다면 4차 산업혁명 시대 글로벌 기업들과의 경쟁에서 살아남기 쉽지 않다. | AI 플랫폼 ‘알렉사’ 3만개 이상의 ‘스킬’ 보유 아마존과 구글이 AI 시대에 강자로 발돋움한 이유는 생태계 덕분이다. 아마존의 AI 플랫폼 ‘알렉사’는 3만개 이상의 ‘스킬’(알렉사를 이용해 할 수 있는 일을 ‘스킬’이라고 부름)을 갖고 있다. ..

Data Analysis 2022.02.22

데이터를 진짜 쓸모 있는 무기로 장착하는 법

유투브 데이터 맛집 채널 「Do it! 구글 애널리틱스」 저자인 김선영편에서는 데이터 인재가 되기 위한 너무 중요한 말들이 다 들어 있어요:) 저는 edtech 회사에 일하면서 데이터가 정말 중요하다는 걸 느끼고, 현재 열심히 데이터 분석을 위한 기술을 배우는 중이에요. 막상 기술들을 배우고 있으니까, 데이터 활용능력에 대한 필요성과 니즈가 또 느껴지더 라구요. 그래서 이제는 데이터 인재가 되기 위해 기술 + 활용능력 양쪽의 역량을 키우기 위해 부단히 노력하고 있어요. 그런 저에게, 김선영 저자님의 말씀은 데이터 역량을 더 완성시켜주시는 빛같은 말씀을 많이 해주셨어요. 저는 영상을 보고 빨리 개인 프로젝트 해보고 싶다라는 영감까지 받았답니다:) 자, 그럼 데이터 인재되기 출발! | 데이터를 다룰 수 있는..

Data Analysis 2022.02.22

웹 크롤링 VS 웹 스크래핑

정말 헷갈리는 두 단어. 사람들과 말할 때, 이 단어 썼다 저 단어 썼다 하게 되는데, 이참에 명확히 차이점을 이해하고 가겠다! 웹 크롤링 - 웹 크롤러(자동화 봇)가 일정 규칙으로 웹페이지를 브라우징 하는 것 웹 스크래핑 - 웹 사이트 상에서 원하는 정보를 추출하는 기술 웹 스크래핑이라는 말은 쓰는 사람은 쓰고 안 쓰는 사람은 안 쓰는 묘한 단어 같아요. 쉽게 말해서 웹 크롤링은 그냥 돌아만 다니는 거고 스크래핑은 긁어 오는 거에요. 그래서 우리가 보통 크롤링을 한다고 하는것은 사실은 스크래핑이라고 할 수 있어요. 앞으로 다른 글에서, 저는 이 둘을 합쳐서, 크롤링이라고 부를게요!

Crawling 2022.02.22

한국인들을 위한 Udemy(유데미), Udemy Korea

| 강의 수 15만 5천여 개, 전 세계 180개국의 4,000만 수강생! 숫자가 말해주는 글로벌이 사랑하는 세계 최대의 온라인 강의 플랫폼 'Udemy(유데미)', 국내 정식 론칭! Udemy(유데미)는 "The Academy of You", 즉 당신의 학교를 뜻하며 그 이름에 걸맞게 '누구에게나 지식과 기술을 개방하고 연결하며, 사람과 기업들이 새로운 가능성을 창조하도록 돕고, 세상을 변화시킨다'라는 미션을 갖고 있습니다. 모든 이들이 교육에 대하여 동등한 기회를 얻을 수 있게, 세계적으로 인정받은 온라인 강의들을 저렴한 가격으로 제공하며 IT개발과 같은 전문 주제부터 비즈니스 공통 역량강화를 위한 스킬, 그리고 취미 활동까지 사용자가 필요로 하고 상상하는 모든 주제의 강의들을 담고 있습니다. 202..

Edtech 2022.02.22
728x90
반응형