728x90
반응형

전체 글 110

One-Hot Encoding, Label Encoding, Binary Encoding

One-Hot Encoding 과 Label Encoding 비교 One-Hot Encoding 숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에서 범주형 데이터 변환시 라벨 인코딩 보다 원핫 인코딩을 사용한다. 두 가지 방법 1) Pandas get_dummies 방법 pd.get_dummies(df, columns = [ '컬럼명1','컬럼명2']) 문자열 컬럼은 삭제되고, 인코딩된 컬럼이 끝에 대체되어 붙는다. get_dummies() 의 경우, 문자열 데이터는 자동으로 전부다 인코딩이 이루어 진다. 숫자형으로 되어 있는 범주형을 인코딩하려면(ex married 0,1) 따로 지정을 해줘야 한다. get_dummies 함수는 우리가 원하는 범주를 제외시켜주는 기능..

github 데이터 파일 jupyter notebook으로 불러오기

다른 사람과 코드를 공유했을 때, 상대이 데이터 파일을 일일이 다운로드 하지 않고도 자동으로 파일이 열릴 수 있도록 하는 방법이 있어요. 바로 github의 데이터 파일을 열리게 하면 되는데요. 아래 사진과 같이 path라는 변수에 데이터 파일이 들어있는 github링크를 올려주시면 됩니다. 이 링크가 아니고, View raw 를 클릭하고 열리는, 아래와 같은 화면의 링크를 복사해서 오셔야 해요.

대시보드에 웹 호스팅 이미지 표시

이번 포스팅에서는 대시보드에 이미지 url을 가지고 띄워보는 작업을 해보겠습니다. 첫번째 미션은 회사 이름을 마우스오버하면 웹페이지개체 박스 안에서 회사 로고 이미지를 보이게 하는 것. 두번째 미션은 회사 이름을 클릭(선택)하면 웹페이지개체 박스 안에서 회사 웹 페이지를 보이게 하는 것. 이를 위해서는 회사 이름에 두개의 동작 (URL로 이동)을 넣어 주어야 합니다. 세번째 미션은 회사이름을 클릭하면, 해당 회사의 웹페이지로 이동할 수 있는 url을 도구박스에 띄우기 첫번째 미션: 회사 이름을 마우스오버하면 웹페이지개체 박스 안에서 회사 로고 이미지를 보이게 하는 것. | 동작 실행 조건 : ◎ 마우스오버 | URL 대상: 웹 페이지 개체로 지정을 해준다. 그 이유는 지금 대시보드 안에 웹페이지 개체가 ..

Tableau 2022.03.25

if __name__ == "__main__": 은 무엇인가요? 쉽게 정리!

상황에 따라서 어떤 파이썬 파일에서 만들었던 코드를 다른 파일에서 가져다가 쓸 때가 있다. 예를 들어 보자, 아래와 같이 name01.py 파일안에 'Hello, How are you', 00을 쳐주는 함수가 있다. 결과값은, 이렇게 나온다. 이번에는 name_01.py를 import한 name02 파일이 있다고 하자. Hello, How are you, other file을 출력하겠지? 결과값은, name01의 출력값과 name02에서 새로 선언한 "other file" 까지 두개의 결과가 출력된다. 이렇게 두 값이 출력되는 것을 막기 위한 코드가 바로! if __name__ == "__main__": 이 조건문을 입력하고 name01.py 함수명을 써주면 name01.py 에 있는 함수 식은 사용 하..

Python_Basic 2022.03.21

for 반복문: 데이터프레임과 함께 사용하기

for col in dataframe 을 하게 되면, dataframe[col] 출력시, dataframe에 담긴 모든 컬럼명들이 출력되게 됩니다. import pandas as pd import numpy as np df1 = pd.DataFrame(np.random.randn(4,3),columns=['n1','n2','n3']) #DataFrame 생성 for i in df1: print(i) ---- n1 n2 n3 df1은 dataframe 형태인데, for문을 돌려서 출력해 보면, 위의 보이는 바와 같이 컬럼명만 출력이 됩니다. 즉, for문의 경우 dataFrame을 반복 요소에 넣으면 Column이 출력됩니다. for in : 사례로 확인을 해볼게요. app_train 이라는 데이터 프레임..

Python_Basic 2022.03.20

검색 기능 이해하기 Understanding Search Functionality

이런 말 들어보신적 있지 않으세요? Google knows everything about you Google 검색을 하고 있는 여러분의 모든 행동을 다 추적 및 분석할 수 있다는 말입니다. 그렇다면 구글은 그 정보들을 어떻게 모으고 어디에 활용하는지 yammer 프로젝트 자료를 가지고 한번 살펴 봅시다. | Column 명을 통해 이해하기 search_autocomplete: This is logged when a user clicks on a search option from autocomplete ▶ 예를 들어, 검색창에 product라고 입력하는 중에, 자동완성으로 표시된 목록 중의 버튼을 클릭했을 경우 search_run: This is logged when a user runs a search ..

Data Analysis 2022.03.04

DAU 그래프와 WAU을 이동해 가면서 분석하기

일 별(Daily)로 그래프를 보면, 그래프에 아무 문제가 없어 보이지만, 그림 처럼 Aug3부터 뭉뚝하게 그래프가 보이기 시작했다. 다른 그래프와 크게 다를 바가 없어 보이지만, 혹시 모르는 일. 이럴 때는, WAU로 주 별로 차트를 보면 뭔가 새로운 게 보이는 게 있다. | 신규 가입자 (주별)로 %를 분석해 본다. 해석: 8/4일에 감소는 했지만, 이후 소폭 증가하는 것으로 보아서 크게 영향을 주는 요소는 아닌 걸로 보임

Data Analysis 2022.03.04

MODE PROJECT 'A Drop In Engagement' _SQL Query_#신규가입유저

위 차트의 쿼리문을 살펴 봅시다. 현업에서 듣는 query 작성 팁 | Query 1 1 | Query 1 해설 1 # DATE_TRUNC()함수: DATE_TRUNC('day')를 써주면, 년월일시간 중에서 일만 뽑아줌 SELECT DATE_TRUNC('day', created_at) AS signup_date ,COUNT(user_id) AS signup_users ,COUNT(CASE WHEN activated_at IS NOT NULL THEN user_id ELSE NULL END) AS activated_users # activated_at이 null값 아닌 것만 세는 것 FROM tutorial.yammer_users WHERE created_at BETWEEN '2014-06-01 00:0..

Data Analysis 2022.03.03
728x90
반응형