전체 글 76

Outlier Detection (standard deviation v.s. interquartile range)

데이터의 분포가 정규분포를 띌 때는, 표준편차를 이용한 outlier detection가 적합 데이터의 분포가 꼬리를 가지고 있거나 정규분포가 아닐 때는, Q1-1.5*IQR와 Q3+1.5*IQR 를 이용한 outlier detection이 적합 https://towardsdatascience.com/5-ways-to-detect-outliers-that-every-data-scientist-should-know-python-code-70a54335a623 5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know (Python Code) Detecting Anomalies is critical to any business eith..

표준화(standardization)과 정규화(normalization)

표준화 (Standardization) 수식 : (요소값-평균) / 표준편차 평균을 기준으로 얼마나 떨어져 있는지 나타내는 값으로, 이 방법에 적용하려는 때는 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 합니다. 예를 들어, 삼성전자와 현대차의 주식시세에 대해 동일 기간에 대해 표준화를 수행하면 두 종목이 어떤 특징을 가지고 움직이는지 관찰하는데 도움이 됩니다. 또 다른 예시로, 몸무게와 키에 대해 표준화를 수행한 후 데이터를 보았을 때 몸무게는 음수, 키는 양수 값이 나온다면 그 사람은 평균보다 키가 크고 몸이 마른 편이라 볼 수 있습니다. 이 방법은 데이터를 다소 평평하게 하는(로그보다는 덜하지만 데이터의 진폭을 줄이는) 특성을 가집니다. 이 방법을 적용하면 간극이 줄..

DBSCAN

DBSCAN Density based clustering technique이다. 비공식적 가정 : 클러스터는 높은 밀도 지역에 존재하고, 다른 낮은 밀도 지역과는 분리되어 있다. DBSCAN의 목적 - 임의의 모양의 cluster를 찾을 수 있다 - outlier/noise에 강하다 DBSCAN algorithm 2개의 parameter 존재 - 이웃의 크기 : ε - 이웃 내에 있는 최소의 포인트 개수 : MinPts 각 포인트의 이웃은 ε보다 더 작은 거리에 있는 모든 다른 점들로 구성된다 DBSCAN은 포인트를 3개 포인트의 그룹으로 분류함으로써 작동한다 - Core point : 만약에 이웃이 적어도 MinPts개의 포인트를 포함한다면 - Border point : core point는 아니지만,..

PCA (Principal Component Analysis)

변수 선택/추출을 통한 차원 축소 ˙ 변수 선택 (selection) : 분석 목적에 부합하는 소수의 예측 변수만을 선택 - 장점 : 선택한 변수 해석 용이 - 단점 : 변수간 상관관계 고려 어려움 ˙ 변수 추출 (extraction) : 예측 변수의 변환을 통해 새로운 변수 추출 - 장점 : 변수간 상관관계 고려, 일반적으로 변수의 개수를 많이 줄일 수 있음 - 단점 : 추출된 변수의 해석이 어려움 Feature selection Feature Extraction Supervised Information gain, Stepwise regression, LASSO, Genetic algorithm, many more... Partial Least Squares(PLS) Unsupervised PCA lo..

Eigen value와 Eigen vector의 의미

정의. Let A be an n * n matrix. A number λ is said to be an eigen value of A if there exists a nonzero solution vector K of the linear system AK = λK The solution vector K is said to be an eigen vector corresponding to the eigen value λ. 기하학적 의미 - 우변 (λK) : 벡터의 크기 변화 - 좌변 (AK) : K라는 벡터를 A(행렬)가 선형변환 K 벡터를 선형변환(A 행렬만큼) 시켰을 때, K 벡터의 방향은 변화하지 않고 크기만 변화할 때 변화한 크기를 eigen value라 하고, 그 벡터 K을 eigen vector하..