Machine Learning & Data Analytics

Exploratory Data Analysis (EDA)_1. Feature Distribution Visualization

Genie Lee 2022. 2. 13. 16:17
728x90
λ°˜μ‘ν˜•


Exploratory Data Analysis (EDA)

πŸ’‘ 데이터 λͺ¨λΈλ§ 전에, 데이터가 λͺ¨λΈλ§μ— μ ν•©ν•œμ§€ μ•ŒκΈ° μœ„ν•΄μ„œ λ‹€μ–‘ν•œ κ°λ„μ—μ„œ κ΄€μ°°ν•˜κ³  μ΄ν•΄ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€. 데이터 뢄포에 λŒ€ν•΄μ„œ νŒŒμ•…ν•˜κ³ , 결츑치, μ΄μƒμΉ˜ λ“± 데이터가 이상이 μ—†λŠ”μ§€ 그리고 데이터 λ³€μˆ˜ κ°„μ˜ 상관성은 μ–Όλ§ˆλ‚˜ μžˆλŠ”μ§€ 톡계적 λ°©λ²•μœΌλ‘œ 미리 탐색적 뢄석을 ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.

 

탐색적 데이터 뢄석 κ³Όμ •

κ°„λ‹¨ν•˜κ²Œ μ–˜κΈ°ν•˜λ©΄ μ •ν•΄μ§„ ν‹€ 없이 데이터에 λŒ€ν•΄ μ΅œλŒ€ν•œ λ§Žμ€ 정보λ₯Ό 뽑아내면 λ©λ‹ˆλ‹€. 평균값,쀑앙값,μ΅œμ†Ÿκ°’,μ΅œλŒ“κ°’, λ²•μœ„,뢄포, μ΄μƒμΉ˜ 등이 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ 값듀을 ν™•μΈν•˜κ³  νžˆμŠ€ν† κ·Έλž¨, κ·Έλž˜ν”„ λ“±μ˜ λ‹€μ–‘ν•œ λ°©λ²•μœΌλ‘œ μ‹œκ°ν™”ν•˜λ©΄μ„œ 데이터에 λŒ€ν•œ 직관을 μ–»μ–΄μ•Ό ν•©λ‹ˆλ‹€.

  • Feature Distribution Visualization
  • Feature Statistics & Outlier
  • Missing Values

1. Feature Distribution Visualization

728x90
λ°˜μ‘ν˜•

'Machine Learning & Data Analytics' μΉ΄ν…Œκ³ λ¦¬μ˜ λ‹€λ₯Έ κΈ€

Data encoding (2. One-hot Encoding)  (0) 2022.02.17
Data encoding (1. Label Encoding)  (0) 2022.02.17
데이터 μ „μ²˜λ¦¬ Data Preprocessing  (0) 2022.02.17
Machine Learning paradigms schematization  (0) 2022.02.13
Machine Learning  (0) 2022.02.13