오늘의 아티클
확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT (wishket.com)
아티클 요약
목적
실무에서 머신러닝을 원활하게 사용하기 위한 정형 데이터를 위한 10가지의 알고리즘 안내.
지도 학습 8가지, 비지도 학습 2가지 안내
선형 회귀 (Linear Regression) - 회귀
- 가장 기초적인 지도 학습 머신러닝 모델.
- 연속된 변수를 예측하는 데 사용
목적 | - 여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것 |
변수 형태 | - 독립변수 : 범주형, 연속형 가능 - 종속변수 : 연속형만 가능 |
TOP 10 선정 이유 | - 복잡한 알고리즘에 비해 예측력이 떨어지나, 데이터 특성이 복잡하지 않을 때 쉽고 빠른 예측이 가능 - 다른 모델과의 성능을 비교하는 베이스라인으로 사용하기도 함 |
장점 | - 모델이 간단하여 구현과 해석이 쉽고, 모델링하는 데 오랜 시간이 걸리지 않음 |
단점 | - 최신 알고리즘에 비해 예측력이 떨어짐. - 독립변수와 예측변수의 선형 관계를 전재, 이러한 전제에서 벗어나는 경우 좋은 예측을 보여주기 어려 움 |
로지스틱 회귀(Logistic Regression) - 분류
- 가장 기초적인 지도 학습 머신러닝 모델.
- 선형 회귀 분석과 달리 Yes/No, True/False와 같은 두 가지 범주로 나뉜 값을 예측하는 데 사용(분류)
- 분류 문제에 있어 기준선 Baseline으로 자주 활용 (타 모델과 비교 목적)
목적 | - 여러 가지 데이터를 활용하여 분류를 예측해 내는 것 |
변수 형태 | - 독립변수 : 범주형, 연속형 가능 - 종속변수 : 범주형 변수 |
TOP 10 선정 이유 | - 이진분류가 필요한 상황이 많기 때문에, 두 가지 범주를 구분하는 간단한 예측에 유용 - 딥러닝에서도 기본 지식임 |
장점 | - 선형 회귀 분석만큼 구현하기 용이 - 계수(기울기)를 사용해 독립변수 내 중요성을 쉽게 파악 가능 |
단점 | - 선형 회귀 분석을 근간으로 하고 있어, 선형 관계가 아닌 데이터에 대한 예측력이 떨어짐 |
K-최근접 이웃(K-Nearest Neighbors; KNN) - 회귀/분류
- 선형 관계를 전제로 하지 않고, 거리를 기반으로 하는 지도 학습 모델
- 각 데이터 간의 거리를 활용하여 새로운 데이터를 예측하는 모델로, 가까이에 있는 데이터를 고려하여 예측값이 결정됨
- 이름에 나와있듯이 K개의 가장 가까운 이웃 데이터에 의해 예측된다는 의미
- 주로 분류(classification)에서 사용, 로지스틱 회귀로 해결할 수 없는 3개 이상의 목표 변수들도 분류 가능
목적 | - 데이터 간의 거리를 활용하여, 새로운 데이터가 어디에 속하는지 구분 |
데이터셋 | - 작은 데이터셋에 적합 |
TOP 10 선정 이유 | - 다중 분류 문제에 가장 간편히 적용할 수 있는 알고리즘. - 데이터가 크지 않고 예측이 까다롭지 않은 상황에서 사용하면 신속하고 쉽게 예측 모델 구현 가능 |
장점 | - 수식에 대한 설명이 필요 없을 만큼 직관적이고 간단 - 선형 모델과 다르게 별도의 가정이 없음 |
단점 | - 데이터가 커질수록 상당히 느려질 수 있음 - 아웃라이어에 취약 |
나이브 베이즈(Naive Bayes) - 분류
- 베이즈 정리를 적용한 조건부 확률 기반의 지도 학습 분류 모델
- 조건부 확률 : A가 일어났을 때 B가 일어날 확률
- 딥러닝으로 가능하여 해당 모델을 사용하는 상황이 많지 않으나, 자연어 처리가 목적일 때 간단하지만 좋은 성능을 보임
- EX) 스팸 필더링을 위한 대표적인 모델
목적 | - 조건부 확률로 데이터를 분류할 때 사용 |
변수 형태 | - 범주 형태의 변수가 많을 때 적합 - 숫자형 변수가 많은 때는 적합하지 않음 |
데이터셋 | - 독립변수의 종류가 매우 많은 경우 - 독립변수들이 모두 독립적이고 중요도가 비슷할 때 유용함 |
TOP 10 선정 이유 | - 범용성이 높지 않으나, 독립변수가 모두 독립적이라면 충분히 경쟁력이 있는 알고리즘 - 딥러닝 제외, 자연어 처리에 가장 적합한 알고리즘 |
장점 | - 비교적 간단한 알고리즘에 속하며 속도 또한 빠름 - 작은 훈련셋으로도 잘 예측 가능 |
단점 | - 모든 독립변수가 독립적임을 전제로 하나, 이는 장점이 되기도 하고 단점이 되기도 함 - 독립변수가 모두 독립적이라면 다른 알고리즘 보다 우수하나 실제 데이터셋에서 그런 경우가 많지 않아 단점이기도 함 |
결정 트리(Decision Tree) - 회귀/분류
- 관측값과 목푯값을 연결시켜주는 지도 학습 예측 모델. 나무 모양으로 데이터를 분류
- 수많은 트리 기반 모델의 기본 모델이 되는 중요 모델임
- 각 변수의 특정 지점을 기준으로 데이터를 분류해가며 예측 모델을 만듦
- 아웃라이어가 문제될 정도로 많을 때 선형 모델보다 좋은 대안이 됨
목적 | - 여러 가지 데이터를 활용하여 데이터를 분류 |
변수 | - 종속변수 : 연속형, 범주형 데이터 모두 사용 가능 |
데이터셋 | - 일반적인 데이터 |
TOP 10 선정 이유 | - 예측력과 성능으로만 따지면 결정 트리 모델을 사용할 일은 없음 - 시각화가 매우 뛰어나다는 유일한 장점 - 그러나, 다른 트리 기반 모델(딥러닝 제외하고 가장 유용하고 많이 쓰이는 트렌드)을 설명하려면 알아야 함 |
장점 | - 데이터에 대한 가정이 없어 어디에나 자유롭게 적용 가능 - 아웃라이어에 영향을 거의 받지 않음 - 트리 그래프를 통해 직관적으로 이해하고 설명 가능. 즉, 시각화에 굉장히 탁월 |
단점 | - 트리가 무한정 깊어지면 오버피팅 문제 야기 - 다른 트리 기반 모델들에 비해 예측력이 상당히 떨어짐 |
정리
[용어 정리]
- 베이즈 정리 : 어떤 사건이 서로 상반되는 두 가지 원인에 의해 일어난다고 할 때, 두 원인 중 하나일 확률을 구하는 정리. 조건부 확률, 즉 사후 확률을 구하는 것으로 어떤 사건이 만들어 놓은 상황에서 그 사건 이후 일어나게 될 다른 사건의 가능성을 구하는 이론. 이 이론에 따르면 기존 사건들의 확률(사전 확률)을 안다면, 어떤 사건 이후 각 원인들의 조건부 확률을 알 수 있음. 반대로 기존 사건들의 확률을 알지 못한다면 그 효용가치를 잃게 됨.
'아티클 스터디' 카테고리의 다른 글
[아티클 스터디] 데이터 기반 의사결정의 장점 (2) | 2024.09.26 |
---|---|
[아티클 스터디] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 (2) (0) | 2024.08.13 |
[아티클 스터디] ‘머신러닝’ 기초 지식 톺아보기 (2) (0) | 2024.08.06 |
[아티클 스터디] ‘머신러닝’ 기초 지식 톺아보기 (1) (0) | 2024.08.06 |
[아티클 스터디] 대기업 데이터 분석가가 추천하는 데이터 분석 프로젝트 주제 (0) | 2024.07.18 |