728x90
반응형

Machine Learning & Data Analytics 11

predict_proba & predict in sklearn LogisticRegression

이 글은 유투브 '도움코드'의 영상을 보고 도움을 받아 작성하였음을 밝힙니다. https://www.youtube.com/watch?v=hB_b_vgxjiw 모델을 예측하는 코드를 살펴보다가 비슷한 듯 비슷하지 않은 비슷한 코드를 마주했다. 보통 예측을 할 때는, pred = log_reg.predict(test_df) 라고 썼는데, 오늘은 log_reg_pred = log_reg.predict_proba(test_df) 라는 코드도 보게 되었다. 둘 다 sklean에서 지원되는 메소드인데, 무엇이 다를까? 둘 다 써도 되는 건가? 하나만 쓰는 건가? iris 데이터를 가지고 한번 알아보자! predict_proba VS predict | predict_proba() & predict() 결론부터 말하자..

One-Hot Encoding, Label Encoding, Binary Encoding

One-Hot Encoding 과 Label Encoding 비교 One-Hot Encoding 숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에서 범주형 데이터 변환시 라벨 인코딩 보다 원핫 인코딩을 사용한다. 두 가지 방법 1) Pandas get_dummies 방법 pd.get_dummies(df, columns = [ '컬럼명1','컬럼명2']) 문자열 컬럼은 삭제되고, 인코딩된 컬럼이 끝에 대체되어 붙는다. get_dummies() 의 경우, 문자열 데이터는 자동으로 전부다 인코딩이 이루어 진다. 숫자형으로 되어 있는 범주형을 인코딩하려면(ex married 0,1) 따로 지정을 해줘야 한다. get_dummies 함수는 우리가 원하는 범주를 제외시켜주는 기능..

github 데이터 파일 jupyter notebook으로 불러오기

다른 사람과 코드를 공유했을 때, 상대이 데이터 파일을 일일이 다운로드 하지 않고도 자동으로 파일이 열릴 수 있도록 하는 방법이 있어요. 바로 github의 데이터 파일을 열리게 하면 되는데요. 아래 사진과 같이 path라는 변수에 데이터 파일이 들어있는 github링크를 올려주시면 됩니다. 이 링크가 아니고, View raw 를 클릭하고 열리는, 아래와 같은 화면의 링크를 복사해서 오셔야 해요.

What is data mining(데이터 마이닝)?

데이터 마이닝 정의 데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다. 다른 말로는 KDD(데이터베이스 속의 지식 발견, knowledge-discovery in databases)라고도 일컫는다. 출처: WIKIPEDIA 데이터 (Data) : 우리가 알고있는 그 데이터이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말한다. 마이닝 (Mining) : 채굴, 채광, 채광 산업을 말한다. 채광이란 광산에서 광석을 캐내는것을 의미한다. 즉, 데이터마이닝이란 광산에서 광석을 캐내는 것에 비유한 것으로, 금광석에 극히 미량으로 포함된 금을 여러 단계를 거쳐 추출하듯이 "수 많은 데이터의 산에서 가치있는..

[Jupiter Notebook] 기본적으로 자주 사용되는 마크다운 사용법

오랜만에 Jupiter Notebook를 사용하면, 잠깐씩 사용법이 헷갈릴 때가 있지 않나요? 그럴 땐 슬쩍 간단한 단축키 메모를 보기만 하면 바로 뇌가 재 가동되죠? Jupiter Notebook, Colab을 처음 사용하시나요? 다음의 마크다운만 알아도 많은 것을 할 수 있어요 :) [저를 위한 메모이기도 합니다 ^^] Esc + M : 코드 작성이 아닌 글 메모 하고 싶을 때 Esc + A: 위에 줄 삽입 Esc + DD: 해당 줄 삭제 **analyzer** : bold 처리 (※글자와 *를 붙여 써야 해요.) : 한 줄 띄기 : 두줄 띄기 표만들기 |Class| Text | |:----|:-----| |Spam| free message | |Ham| send me a messsage | |Ham..

Data encoding (2. One-hot Encoding)

원핫 인코딩은 n개의 범주형 데이터를 n개의 비트(0,1) 벡터로 표현합니다.예를 들어, 위에서 언급한 소형, 중형, 대형으로 이루어진 범주형 변수를 원핫 인코딩을 통해 변환하면 다음과 같이 표현할 수 있습니다.소형 : [1, 0, 0]중형 : [0, 1, 0]대형 : [0, 0, 1]원핫 인코딩으로 범주형 데이터를 나타내게되면, 서로 다른 범주에 대해서는 벡터 내적을 취했을 때 내적 값이 0이 나오게 됩니다.이는 서로 다른 범주 데이터는 독립적인 관계라는 것을 표현할 수 있게 됩니다. One-hot Encoding은 Scikit-Learn의 preprocessing 패키지에 있습니다. from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncode..

Data encoding (1. Label Encoding)

Label Encoding: 카테고리 피처를 코드형 숫자 값으로 변환하는 것입니다 One-hot Encoding 문자열(object)을 정수형(int)으로 return 1. Label Encoding (Categorical Variable to Numeric Variable) 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력 값으로 허용하지 않는다. 그래서 모든 문자열 값은 인코딩돼서 숫자 형으로 변환해야 합니다. 레이블 인코딩은 카테고리 피처를 코드형 숫자 값으로 변환하는 것입니다. 예: 차의 등급 변수 소형 : 0 / 중형 : 1 / 대형 : 2 '소형'과 '중형'이라는 범주형 데이터가 가지고 있는 차이가 0과 1의 수치적인 차이라는 의미가 아님을 주의 #Label Encoding은 Scikit-Lea..

데이터 전처리 Data Preprocessing

데이터를 분석에 사용할 수 있도록 정제(cleansing), 데이터 변환(transforming) 등을 거쳐서 모델링에 필요한 변수로 만드는 과정. 이상값 처리, 결측치 처리 등 https://blog.naver.com/seeyapangpang/222459509531 1. 데이터 정제 일반적으로 데이터 정제에서는 결측값(missing data) 또는 이상치(outlier)를 처리 및 데이터 인코딩을합니다. ✔ Nan,Null,None 값을 처리해야 한다. # isna()로 결손 데이터 여부 확인 df.isna().sum() #OR df.isnull().sum() # 1)DataFrame에서 결측값이 있는 샘플을 제거하기 위해서는 dropna를 사용합니다. titanic_2 = titanic.dropna(..

Exploratory Data Analysis (EDA)_1. Feature Distribution Visualization

Exploratory Data Analysis (EDA) 💡 데이터 모델링 전에, 데이터가 모델링에 적합한지 알기 위해서 다양한 각도에서 관찰하고 이해하는 과정입니다. 데이터 분포에 대해서 파악하고, 결측치, 이상치 등 데이터가 이상이 없는지 그리고 데이터 변수 간의 상관성은 얼마나 있는지 통계적 방법으로 미리 탐색적 분석을 하는 과정입니다. 탐색적 데이터 분석 과정 간단하게 얘기하면 정해진 틀 없이 데이터에 대해 최대한 많은 정보를 뽑아내면 됩니다. 평균값,중앙값,최솟값,최댓값, 법위,분포, 이상치 등이 있습니다. 이러한 값들을 확인하고 히스토그램, 그래프 등의 다양한 방법으로 시각화하면서 데이터에 대한 직관을 얻어야 합니다. Feature Distribution Visualization Feature..

Machine Learning paradigms schematization

Machine Learning paradigms schematization. 비지도 학습( Unsupervised Learning) 우리가 예측해야 하는 값(target)의 출력값이 없이 입력 데이터 만을 이용하여 학습 알고리즘을 가르쳐야 하 는 모든 종류의 머신러닝 비지도 학습의 종류: clustering(군집화), 차원 축소 비지도 변환: 100개의 특징을 다 쓰면, 과대적합이 생기니까, 중요한 성분을 뽑아낸다. 공통성이 있는 특징을 만들어서 10개만 추출해서, 100개 특징을 99% 쓴 것과 같은 효과를 낸다. 적은 수로도 기존의 데이터 성질을 잘 반영할 수 있도록 변환 시켜 준다. 예) PCA 특성이 많은 고차원 데이터의 특성(feature)의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현..

728x90
반응형