오늘의 아티클
확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT (wishket.com)
아티클 요약
랜덤 포레스트(Random Forest) - 회귀/분류
- 결정 트리의 단점인 오버피팅 문제를 완화시켜주는 발전된 형태의 트리 모델
- 랜덤으로 생성된 무수히 많은 트리를 이용하여 예측을 하기 때문에 랜덤 포레스트라 불림
- 앙상블 : 여러 모델을 활용하여 하나의 모델을 이루는 기법
목적 | - 랜덤으로 독립적인 트리를 여러 개 만들어 결정 트리의 오버피팅 문제를 완화해 분류 |
데이터셋 | - 일반적인 데이터 |
TOP 10 선정 이유 | - 앙상블 기법을 사용한 트리 기반 모델 중 가장 보편적인 방법 - 다른 발전된 모델에 비해 예측력이나 속도에서 부족한 부분이 있고, 시각화에서는 결정 트리에 못 미치나 발전된 모델을 이해하려면 알아야 함 |
장점 | - 아웃라이어에 거의 영향을 받지 않음 - 선형/비선형 데이터에 상관없이 잘 작동 |
단점 | - 학습 속도가 상대적으로 느림 - 수많은 트리를 동원하기 때문에 모델 해석이 어려움 |
XG부스트(XGBoost) - 회귀/분류
[부스팅]
- 순차적으로 트리를 만들어 이전 트리로부터 더 나은 트리를 만들어내는 알고리즘
- 트리 모델을 기반으로 한 최신 알고리즘 중 하나, 랜덤 포레스트보다 훨씬 빠른 속도와 더 좋은 예측 능력을 보여줌
- 대표적 알고리즘 : XG 부스트, 라이트GBM, 캣부스트 등
[XG부스트]
- 가장 먼저 개발, 가장 널리 활용됨
- 손실함수뿐만 아니라 모형 복잡도도 고려함
목적 | - 이전 트리의 결과를 다음 트리에 반영하여 연속성 있는 트리를 만들어 분류함 |
TOP 10 선정 이유 | - 성능이 검증된 부스팅 모델, 가장 인기 있는 모델 |
장점 | - 예측 속도가 상당히 빠르고 예측력 또한 좋음 - 변수 종류가 많고 데이터가 클수록 상대적으로 뛰어난 성능을 보임 |
단점 | - 복잡한 모델인 만큼 해석에 어려움 있음 - 더 나은 성능을 위한 하이퍼파라미터 튜닝이 까다로움 |
라이트GBM (LightGBM) - 회귀/분류
- XGBoost 이후 나온 최신 부스팅 모델
- XGBoost와 비슷한 수준 혹은 그 이상으로 활용되고 있으며, 성능을 인정 받음
목적 | - Tree 기반의 분류 모델 |
데이터셋 | - 일반적인 데이터 |
TOP 10 선정 이유 | - 표로 정리된 데이터에서 Catboost, XGBoost와 함께 가장 좋은 성능을 보여주는 알고리즘 - XGBoost보다 나은 성능을 보여줌 - LightGBM과 Catboost는 상황에 따라 다른 결과를 보여줘 우열을 가리기 어려움 |
장점 | - XGBoost보다도 빠르고 높은 정확도 - 예측에 영향을 미친 변수의 중요도 확인 가능 - 변수 종류가 많고 데이터 클수록 상대적으로 뛰어난 성능을 보여줌 |
단점 | - 복잡한 모델인 만큼 해석에 어려움 - 하이퍼 파라미터 튜닝이 까다로움 |
K-평균 군집화(K Means Clustering)
- 비지도 학습의 대표적인 알고리즘
- 목표 변수가 없는 상태에서 데이터를 비슷한 유형끼리 묶어내는 머신러닝 기법
- K-최근접 이웃 알고리즘과 비슷하게 거리 기반으로 작동, 적절한 K값을 사용자가 지정
- 거리 기반으로 작동하기 때문에 데이터 위치가 가까운 데이터끼리 한 그룹으로 묶음
목적 | - 목표 변수가 없는 상태에서 데이터를 비슷한 유형끼리 클러스터링함 |
TOP 10 선정 이유 | - 수많은 데이터를 가지고 있을 때 데이터를 적절한 수의 그룹으로 나누고 그 특징을 살펴볼 수 있는 장점을 제공함 - 여러 클러스터링 기법 중에서도 K-평균 군집화는 가장 보편적이고 무난하게 사용됨 |
장점 | - 구현이 비교적 간단 - 클러스터링 결과를 쉽게 해석 가능 |
단점 | - 최적의 K값을 자동으로 찾지 못하고, 사용자가 직접 선택해야 함 - 거리 기반 알고리즘이기 때문에 변수의 스케일에 따라 다른 결과를 나타낼 수 있음 |
주성분 분석(Principal Component Analysis; PCA)
- 비지도 학습, 종속 변수는 존재하지 않고 어떤 것을 예측하는지도 분류하지 않음
- 데이터의 차원을 축소, 변수의 개수를 줄이되 가능한 그 특성을 보존해내는 방법
- 기존의 변수 중 일부를 그대로 선택하는 방식이 아닌, 기존 변수들의 정보를 모두 반영하여 새로운 변수들을 만드는 방식으로 차원을 축소
- 다차원 변수들을 2차 그래프로 표현하는 데 사용 가능
- 변수가 너무 많아 모델 학습에 시간이 너무 오래 걸릴 때 유용
- 오버피팅을 방지하는 용도로 사용 가능
목적 | - 데이터의 차원을 축소 |
TOP 10 선정 이유 | - 차원 축소 방법 중 가장 인기 있으며 구현하기 또한 쉬운 편임 - 차원 축소를 시도해봄으로써 시각화 내지 모델링 효율성을 개선할 여지가 항상 존재 |
장점 | - 다차원을 2차원에 적합하도록 차원 춗소하여 시각화에 유용 - 변수 간의 높은 상관관계 문제를 해결 |
단점 | - 기존 변수가 아닌 새로운 변수를 사용하여 해석하는 데 어려움 존재 - 차원이 축소됨에 따라 정보 손실 불가피 |
용어 정리
- 오버피팅(Overfitting) : 모델이 훈련 데이터에 대해 과도하게 학습되어 새로운 데이터에 대한 일반화 능력이 저하되는 현상. 즉, 모델이 훈련 데이터에 너무 맞추어져서 훈련 데이터 이외의 데이터에 대한 예측 능력이 떨어지는 것을 의미. 훈련 데이터에 대한 예측 정확도가 높으나 실제 데이터에 대한 정확도는 낮게 나타날 수 있음
- 하이퍼 파라미터(Hyperparameter) : 최적의 훈련 모델을 구현하기 위해 모델에 설정하는 변수로 학습률, 에포크 수(훈련 반복 횟수), 가중치 초기화 등을 결정할 수 있음
'아티클 스터디' 카테고리의 다른 글
[아티클 스터디] 데이터 시각화는 왜 중요할까? (4) | 2024.09.27 |
---|---|
[아티클 스터디] 데이터 기반 의사결정의 장점 (2) | 2024.09.26 |
[아티클 스터디] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 (1) (0) | 2024.08.13 |
[아티클 스터디] ‘머신러닝’ 기초 지식 톺아보기 (2) (0) | 2024.08.06 |
[아티클 스터디] ‘머신러닝’ 기초 지식 톺아보기 (1) (0) | 2024.08.06 |