분류 전체보기 76

Markdown in r

https://blog.zarathu.com/posts/2019-01-03-rmarkdown/ Zarathu Blog: R Markdown 기초 YAML Header, 마크다운(Markdown) 텍스트, R 코드 청크(chunk) 그리고 그림과 테이블을 중심으로, R 코드와 분석 결과가 포함된 문서를 작성하는 방법을 정리하였습니다. blog.zarathu.com https://gomguard.tistory.com/211 [R] 마크다운 (Markdown) 사용법 마크다운? 마크다운(markdown)은 일반 텍스트 문서의 양식을 편집하는 문법입니다. README 파일이나 온라인 문서, 혹은 일반 텍스트 편집기로 문서 양식을 편집할 때 쓰입니다. 또한 R 에서는 마크다운에 R 언어.. gomguard.tis..

Machine Learning/R 2020.01.07

다중공선성 존재할 때 선형 회귀

Partial least squares regression(PLSR)은 chemometric 분야에서 많이 사용되는 회귀분석 방법으로, 다수의 Y(종속변수)를 예측하고자 하는 경우, 변수(variable)의 갯수가 관측치(observation)의 갯수보다 많은 경우, X(독립변수)들 간에 다중공선성(multicollinearity)이 존재하는 경우에 적합한 분석 방법이다. 다중 선형 회귀(Multiple linear regression, MLR)는 X들 간에 다중공선성이 존재하는 경우 정확한 회귀모수의 추정이 어렵기 때문에 적용하기 어렵다. 이 경우 능형회귀(ridge regression), 주성분 회귀(principal component regression, PCR), 그리고 PLSR을 이용하여 분석할..

Whitening transformation

Whitening transformation(혹은 sphering transformation)은 random variable의 벡터(covariance matrix를 알고 있는)를 covariance matric가 identity matrix인 variable들로 변형하는 linear transformation이다. 즉, 모든 변수가 uncorrelated이고 1의 분산을 갖는다. 이러한 transformation은 input vector를 white noise vector로 바꾸기 때문에 'whitening'이라고 불린다. Whitening과 밀접하게 관련되어 있는 다른 transformation : 1. Decorrelation transformation : correlation을 제거하지만, 분산은..

Linear Regression (선형회귀모델) - 2 (파라미터 추정, 최소제곱법)

파라미터 추정 $d_{1}+d_{2}+...+d_{n}=0$인 것은 오차항($\varepsilon$)이 정규분포를 따르기 때문 이러한 과정을 '모델링'이라고 한다. (여러 '가정'에 따라 parameter를 이용하여 데이터를 표현하는 방법을 만들고, 그 parameter를 최적화해가는 과정이라고 생각한다.) 파라미터 추정 알고리즘 Cost function의 형태에 따라서 어려운 문제 혹은 쉬운 문제가 될 수 있다. (오타 존재 : $\hat{\beta_{0}}=\bar{Y}-\hat{\beta_{1}}\bar{X}$) 잔차 오차($\varepsilon$)는 확률 분포를 따르는 것이고, 잔차(e)는 정해진 값이다. 잔차(e)는 확률 오차($\varepsilon$)이 실제로 구현된 값이다. [참조] 김성범 ..

Linear Regression (선형회귀모델) - 1 (개요, 가정)

변수 사이의 관계 X변수(원인)과 Y변수(결과) 사이의 관계 1. 확정적 관계 2. 확률적 관계 확정적 관계 : X변수만으로 Y를 100% 표현 (오차항 없음) $$Y=f(X)$$ 예) 힘 = f(질량, 가속도), 주행거리 = f(속도, 시간) 확률적 관계 : X변수와 오차항이 Y를 표현 (오차항 있음) $$Y=f(X)+\varepsilon$$ 예) 반도체 수율 = f(설비 파라미터들의 상태, 온도, 습도) + $\varepsilon$ 포도주 가격 = f(강우량, 온도, 포도품종) + $\varepsilon$ 위조카드 여부 = f(사용시간, 사용액, 사용장소) + $\varepsilon$ 대부분의 머신러닝, 데이터 분석이 설명하는 관계는 '확률적 관계'인 경우가 많다. 선형회귀모델 선형회귀모델 : 출력변..

tf.nn.softmax_cross_entropy_with_logits_v2

tf.nn.softmax_cross_entropy_with_logits_v2 가 수행하는 3가지 연산 logits인 (y_hat)에 softmax 함수 적용 (정규화를 위해) : y_hat_softmax = softmax(y_hat) cross-entropy loss 계산 : y_cross = y_true * tf.log(y_hat_softmax) 각 데이터로부터 각각 loss 값 계산 : -tf.reduce_sum(y_cross, reduction_indices=[1]) 아래의 코드는 이것을 완벽하게 보여준다. 코드 : y_true = tf.convert_to_tensor(np.array([[0.0, 1.0, 0.0],[0.0, 0.0, 1.0]])) y_hat = tf.convert_to_tensor..

Diagnosing Network-Wide Traffic Anomalies

PCA(Principal Component Analysis)를 이용해 anomaly를 찾는 general method 제시 고차원의 traffic measurement(여러 개의 link로 구성)를 이용하여 anomalous network condition 지점을 찾는 것 Anomaly의 source를 찾을 수 있고, anomaly 정도 측정 가능 [참조] Lakhina, Anukool, Mark Crovella, and Christophe Diot. "Diagnosing network-wide traffic anomalies." ACM SIGCOMM computer communication review. Vol. 34. No. 4. ACM, 2004.

Multivariate Unsupervised Machine Learning for Anomaly Detection in Enterprise Applications

시계열 데이터의 oulier detect 방법으로 LOF와 DBSCAN을 제시 Outlier detect algorithm using DBSCAN for time-series data 1단계 : DBSCAN으로 학습시킨다. 2단계 : 가장 많은 포인트가 할당된 cluster를 선택하고, 그것을 normaly system state로 정의한다. 해당 cluster의 중심을 anomaly index 계산을 위한 reference point로 사용한다. 3단계 : 각 포인트와 reference point의 거리를 계산한다. 이것이 anomaly index이다. 4단계 : 각 차원이 anomaly index에 얼마나 contribution 하는지 (어떤 차원이 anomalous 하기에 anomaly index가..

Local Outlier Factors (LOF)

Local Outlier Factors (LOF) : 거리 기반의 outlier 탐지 기법. 거리 기반이지만, (내 관심대상 A의 k개 neighbor과의 평균거리)와 (그 neighbor들의 k개 neighbor 평균거리)를 비교하여, 주변과 비교했을 때 밀집해있는지 '밀도'를 측정한다. 위 그림에서 O1은 이상치라는걸 바로 알 수 있지만 O2는 이상치라고 말할 수 있을까요? 얼핏 보기엔 아닌 것 같지만 근처에 빡빡하게 밀집해 있는 데이터가 있으므로 이상치라고 볼 수도 있을 것입니다. LOF(Local outlier factors)관점에서는 O2도 이상치입니다. 밀집 지역에서 밀도 관점으로 봤을 때 급격한 감소가 이루어지기 때문입니다. 즉, LOF는 데이터가 가지는 상대적인 밀도까지 고려한 이상치 탐지..

Random Forest (랜덤 포레스트)

개별 트리 모델의 단점 - 계층적 구조로 인해 중간에 에러가 발생하면 다음 단계로 에러가 계속 전파 - 학습 데이터의 미세한 변동에도 최종 결과 크게 영향 - 적은 개수의 노이즈에도 크게 영향 - 나무의 최종노드 개수를 늘리면 과적합 위험 (Low bias, Large Variance) - 해결 방안으로, Random Forest가 있음 앙상블 (랜덤 포레스트의 배경) - 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확성을 향상시키는 방법 - 다음 조건을 만족할 때 앙상블 모델은 Base 모델보다 우수한 성능을 보여줌 Base 모델들이 서로 독립적 Base 모델들이 무작위 예측을 수행하는 모델보다 성능이 좋은 경우 ex) 5개의 binary classifier를 base..