아티클 스터디

[아티클 스터디] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 (1)

뜌비뜌바밥 2024. 8. 13. 17:09

오늘의 아티클

확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT (wishket.com)


아티클 요약

목적

 

실무에서 머신러닝을 원활하게 사용하기 위한 정형 데이터를 위한 10가지의 알고리즘 안내.

지도 학습 8가지, 비지도 학습 2가지 안내

 

선형 회귀 (Linear Regression) - 회귀
  • 가장 기초적인 지도 학습 머신러닝 모델.
  • 연속된 변수를 예측하는 데 사용
목적  - 여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것
변수 형태  - 독립변수 : 범주형, 연속형 가능
 - 종속변수 : 연속형만 가능
TOP 10 선정 이유  - 복잡한 알고리즘에 비해 예측력이 떨어지나, 데이터 특성이 복잡하지 않을 때 쉽고 빠른 예측이 가능
 - 다른 모델과의 성능을 비교하는 베이스라인으로 사용하기도 함
장점  - 모델이 간단하여 구현과 해석이 쉽고, 모델링하는 데 오랜 시간이 걸리지 않음
단점  - 최신 알고리즘에 비해 예측력이 떨어짐. 
 - 독립변수와 예측변수의 선형 관계를 전재, 이러한 전제에서 벗어나는 경우 좋은 예측을 보여주기 어려 움

 

로지스틱 회귀(Logistic Regression) - 분류
  • 가장 기초적인 지도 학습 머신러닝 모델.
  • 선형 회귀 분석과 달리 Yes/No, True/False와 같은 두 가지 범주로 나뉜 값을 예측하는 데 사용(분류)
  • 분류 문제에 있어 기준선 Baseline으로 자주 활용 (타 모델과 비교 목적)
목적  - 여러 가지 데이터를 활용하여 분류를 예측해 내는 것
변수 형태 - 독립변수 : 범주형, 연속형 가능
- 종속변수 : 범주형 변수
TOP 10 선정 이유 - 이진분류가 필요한 상황이 많기 때문에, 두 가지 범주를 구분하는 간단한 예측에 유용
- 딥러닝에서도 기본 지식임
장점 - 선형 회귀 분석만큼 구현하기 용이
- 계수(기울기)를 사용해 독립변수 내 중요성을 쉽게 파악 가능
단점 - 선형 회귀 분석을 근간으로 하고 있어, 선형 관계가 아닌 데이터에 대한 예측력이 떨어짐

 

K-최근접 이웃(K-Nearest Neighbors; KNN) - 회귀/분류
  • 선형 관계를 전제로 하지 않고, 거리를 기반으로 하는 지도 학습 모델
  • 각 데이터 간의 거리를 활용하여 새로운 데이터를 예측하는 모델로, 가까이에 있는 데이터를 고려하여 예측값이 결정됨
  • 이름에 나와있듯이 K개의 가장 가까운 이웃 데이터에 의해 예측된다는 의미
  • 주로 분류(classification)에서 사용, 로지스틱 회귀로 해결할 수 없는 3개 이상의 목표 변수들도 분류 가능
목적 - 데이터 간의 거리를 활용하여, 새로운 데이터가 어디에 속하는지 구분
데이터셋 - 작은 데이터셋에 적합
TOP 10 선정 이유 - 다중 분류 문제에 가장 간편히 적용할 수 있는 알고리즘.
- 데이터가 크지 않고 예측이 까다롭지 않은 상황에서 사용하면 신속하고 쉽게 예측 모델 구현 가능
장점 - 수식에 대한 설명이 필요 없을 만큼 직관적이고 간단
- 선형 모델과 다르게 별도의 가정이 없음
단점 - 데이터가 커질수록 상당히 느려질 수 있음
- 아웃라이어에 취약

 

나이브 베이즈(Naive Bayes) - 분류
  • 베이즈 정리를 적용한 조건부 확률 기반의 지도 학습 분류 모델
  • 조건부 확률 : A가 일어났을 때 B가 일어날 확률
  • 딥러닝으로 가능하여 해당 모델을 사용하는 상황이 많지 않으나, 자연어 처리가 목적일 때 간단하지만 좋은 성능을 보임
  • EX) 스팸 필더링을 위한 대표적인 모델
목적 - 조건부 확률로 데이터를 분류할 때 사용
변수 형태 - 범주 형태의 변수가 많을 때 적합
- 숫자형 변수가 많은 때는 적합하지 않음
데이터셋 - 독립변수의 종류가 매우 많은 경우
- 독립변수들이 모두 독립적이고 중요도가 비슷할 때 유용함
TOP 10 선정 이유 - 범용성이 높지 않으나, 독립변수가 모두 독립적이라면 충분히 경쟁력이 있는 알고리즘
- 딥러닝 제외, 자연어 처리에 가장 적합한 알고리즘
장점 - 비교적 간단한 알고리즘에 속하며 속도 또한 빠름
- 작은 훈련셋으로도 잘 예측 가능
단점 - 모든 독립변수가 독립적임을 전제로 하나, 이는 장점이 되기도 하고 단점이 되기도 함
- 독립변수가 모두 독립적이라면 다른 알고리즘 보다 우수하나 실제 데이터셋에서 그런 경우가 많지 않아 단점이기도 함

 

결정 트리(Decision Tree) - 회귀/분류
  • 관측값과 목푯값을 연결시켜주는 지도 학습 예측 모델. 나무 모양으로 데이터를 분류
  • 수많은 트리 기반 모델의 기본 모델이 되는 중요 모델임
  • 각 변수의 특정 지점을 기준으로 데이터를 분류해가며 예측 모델을 만듦
  • 아웃라이어가 문제될 정도로 많을 때 선형 모델보다 좋은 대안이 됨
목적  - 여러 가지 데이터를 활용하여 데이터를 분류
변수 - 종속변수 : 연속형, 범주형 데이터 모두 사용 가능
데이터셋 - 일반적인 데이터
TOP 10 선정 이유 - 예측력과 성능으로만 따지면 결정 트리 모델을 사용할 일은 없음
- 시각화가 매우 뛰어나다는 유일한 장점
- 그러나, 다른 트리 기반 모델(딥러닝 제외하고 가장 유용하고 많이 쓰이는 트렌드)을 설명하려면 알아야 함
장점 - 데이터에 대한 가정이 없어 어디에나 자유롭게 적용 가능
- 아웃라이어에 영향을 거의 받지 않음
- 트리 그래프를 통해 직관적으로 이해하고 설명 가능. 즉, 시각화에 굉장히 탁월
단점 - 트리가 무한정 깊어지면 오버피팅 문제 야기
- 다른 트리 기반 모델들에 비해 예측력이 상당히 떨어짐

 


정리

 

[용어 정리]

  • 베이즈 정리 : 어떤 사건이 서로 상반되는 두 가지 원인에 의해 일어난다고 할 때, 두 원인 중 하나일 확률을 구하는 정리. 조건부 확률, 즉 사후 확률을 구하는 것으로 어떤 사건이 만들어 놓은 상황에서 그 사건 이후 일어나게 될 다른 사건의 가능성을 구하는 이론. 이 이론에 따르면 기존 사건들의 확률(사전 확률)을 안다면, 어떤 사건 이후 각 원인들의 조건부 확률을 알 수 있음. 반대로 기존 사건들의 확률을 알지 못한다면 그 효용가치를 잃게 됨.