What if_Genie

What is data mining(데이터 마이닝)?

데이터 마이닝 정의 데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다. 다른 말로는 KDD(데이터베이스 속의 지식 발견, knowledge-discovery in databases)라고도 일컫는다. 출처: WIKIPEDIA 데이터 (Data) : 우리가 알고있는 그 데이터이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말한다. 마이닝 (Mining) : 채굴, 채광, 채광 산업을 말한다. 채광이란 광산에서 광석을 캐내는것을 의미한다. 즉, 데이터마이닝이란 광산에서 광석을 캐내는 것에 비유한 것으로, 금광석에 극히 미량으로 포함된 금을 여러 단계를 거쳐 추출하듯이 "수 많은 데이터의 산에서 가치있는..

Machine Learning & Data Analytics 2022.02.18

[Tableau] 고유ID는 왜 차원 데이터 일까?

태블로의 가장 기본 컨셉 중 하나는 측정값과 차원입니다. 보통 측정값은 숫자 데이터(성적, 매출 등)를, 차원은 분류형의 데이터(국가, 고객명 등)를 말합니다. 그런데, 고유Id 데이터는 데이터 값이 숫자로 쓰여 있어도 자동으로 차원으로 속하게 됩니다. 그 이유는, 아이디의 경우 1번 학생, 2번 학생, ... 처럼 분류가 가능하기 때문입니다. 측정값과 차원에 대한 더 자세한 설명은 여기에 적어 놓았어요. https://whatif-genie.tistory.com/8?category=977866 [Tableau] 측정값 VS 차원 / 연속 VS 불연속형 / axis VS header/ data type Keywords - Text table - 측정값 (Measures) 차원 (Dimensions) - ..

Tableau 2022.02.18

[Tableau]Data type

The data type reflects the kind of information stored in that field, for example, integers (410), dates (1/23/2015), and strings (“Wisconsin”). The data type of a field is identified in the Data pane by one of the icons shown below. Data type icons in Tableau ※ 필드명을 Country로 하면 자동으로 데이터 형태가 Geographic value로 세팅됩니다. 만약 map으로 세팅되는 것을 원하지 않으면, 아래 세모 옵션을 눌러서,Geographic value를 삭제하면 됩니다. Reference htt..

Tableau 2022.02.18

[Jupiter Notebook] 기본적으로 자주 사용되는 마크다운 사용법

오랜만에 Jupiter Notebook를 사용하면, 잠깐씩 사용법이 헷갈릴 때가 있지 않나요? 그럴 땐 슬쩍 간단한 단축키 메모를 보기만 하면 바로 뇌가 재 가동되죠? Jupiter Notebook, Colab을 처음 사용하시나요? 다음의 마크다운만 알아도 많은 것을 할 수 있어요 :) [저를 위한 메모이기도 합니다 ^^] Esc + M : 코드 작성이 아닌 글 메모 하고 싶을 때 Esc + A: 위에 줄 삽입 Esc + DD: 해당 줄 삭제 **analyzer** : bold 처리 (※글자와 *를 붙여 써야 해요.) : 한 줄 띄기 : 두줄 띄기 표만들기 |Class| Text | |:----|:-----| |Spam| free message | |Ham| send me a messsage | |Ham..

Machine Learning & Data Analytics 2022.02.18

👩‍💻코딩적으로 생각하기 _ youtube 자막 추출 (글만 가져오는 방법)

Youtube를 보다가 저 영어! 나도 따라서 공부하고 싶다고 생각할 때가 있죠? 그렇다고 저 긴 영상을 다 쉐도잉할 수도 없고... 이럴 때는 Youtube의 Open transcript 기능을 활용하면 좋아요. 그럼 어떻게 스트립트만 가져올 수 있는지 코딩적으로 접근해 볼까요? 1. Youtube의 자막을 복사해서, 엑셀로 붙여넣기 해줍니다. 2. 컬럼명을 만들어 줍니다. import pandas as pd subtitle_data = pd.read_csv('youtube_subtitle.csv') df = pd.DataFrame(subtitle_data) df 3. 계속해서 이 데이터 프레임에 x열을 2로 나눴을 때 나머지를 담고 있는 g열을 추가합니다. 판다스에서는 assign() 메서드를 써서 ..

Crawling 2022.02.17

Data encoding (2. One-hot Encoding)

원핫 인코딩은 n개의 범주형 데이터를 n개의 비트(0,1) 벡터로 표현합니다.예를 들어, 위에서 언급한 소형, 중형, 대형으로 이루어진 범주형 변수를 원핫 인코딩을 통해 변환하면 다음과 같이 표현할 수 있습니다.소형 : [1, 0, 0]중형 : [0, 1, 0]대형 : [0, 0, 1]원핫 인코딩으로 범주형 데이터를 나타내게되면, 서로 다른 범주에 대해서는 벡터 내적을 취했을 때 내적 값이 0이 나오게 됩니다.이는 서로 다른 범주 데이터는 독립적인 관계라는 것을 표현할 수 있게 됩니다. One-hot Encoding은 Scikit-Learn의 preprocessing 패키지에 있습니다. from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncode..

Machine Learning & Data Analytics 2022.02.17

Data encoding (1. Label Encoding)

Label Encoding: 카테고리 피처를 코드형 숫자 값으로 변환하는 것입니다 One-hot Encoding 문자열(object)을 정수형(int)으로 return 1. Label Encoding (Categorical Variable to Numeric Variable) 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력 값으로 허용하지 않는다. 그래서 모든 문자열 값은 인코딩돼서 숫자 형으로 변환해야 합니다. 레이블 인코딩은 카테고리 피처를 코드형 숫자 값으로 변환하는 것입니다. 예: 차의 등급 변수 소형 : 0 / 중형 : 1 / 대형 : 2 '소형'과 '중형'이라는 범주형 데이터가 가지고 있는 차이가 0과 1의 수치적인 차이라는 의미가 아님을 주의 #Label Encoding은 Scikit-Lea..

Machine Learning & Data Analytics 2022.02.17

데이터 전처리 Data Preprocessing

데이터를 분석에 사용할 수 있도록 정제(cleansing), 데이터 변환(transforming) 등을 거쳐서 모델링에 필요한 변수로 만드는 과정. 이상값 처리, 결측치 처리 등 https://blog.naver.com/seeyapangpang/222459509531 1. 데이터 정제 일반적으로 데이터 정제에서는 결측값(missing data) 또는 이상치(outlier)를 처리 및 데이터 인코딩을합니다. ✔ Nan,Null,None 값을 처리해야 한다. # isna()로 결손 데이터 여부 확인 df.isna().sum() #OR df.isnull().sum() # 1)DataFrame에서 결측값이 있는 샘플을 제거하기 위해서는 dropna를 사용합니다. titanic_2 = titanic.dropna(..

Machine Learning & Data Analytics 2022.02.17

concat과 merge의 차이

concat과 merge의 차이 merge : index 혹은 특정 컬럼 값을 기준으로 두 개의 데이터프레임을 연결 concat : axis=0 행을 기준으로 위아래로 같은 컬럼끼리 값을 이어 붙여 새로운 행을 만듦 axis=1 컬럼을 기준으로 인덱스가 같은 값을 옆으로 붙여 새로운 컬럼을 만듦

Pandas 2022.02.16

KPI란?

소규모 기업을 운영하거나 마케팅 캠페인을 시행할 때 직관이 담당하는 역할이 있습니다. 여기에는 성공을 측정하고 수량화할 수 있는 능력이 매우 중요합니다. 여기에 핵심성과지표(KPI)가 필요합니다. KPI는 Key Performance Indicator의 약자입니다. 우리 말로 옮기면 ‘핵심성과지표’가 되지요. 예: 배민선물하기 팀에서는 몇 개월 동안 KPI를 추적해 왔습니다. 가정의 달을 맞아 5월에 5000원 상품권 선물하기 이벤트를 진행했는데, KPI가 확 올랐네요!? 5000원 상품권 지급은 이 이벤트가 효과가 있었다는 것을 보여주고, KPI를 달성하는 데 중요한 역할을 한 것이죠.

Data Analysis 2022.02.16

What if_Genie

전체 글 110

티스토리툴바