[아티클 스터디] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 (1)

아티클 스터디

[아티클 스터디] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 (1)

뜌비뜌바밥 2024. 8. 13. 17:09

오늘의 아티클

확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT (wishket.com)

아티클 요약

목적

실무에서 머신러닝을 원활하게 사용하기 위한 정형 데이터를 위한 10가지의 알고리즘 안내.

지도 학습 8가지, 비지도 학습 2가지 안내

선형 회귀 (Linear Regression) - 회귀

가장 기초적인 지도 학습 머신러닝 모델.
연속된 변수를 예측하는 데 사용

목적	- 여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것
변수 형태	- 독립변수 : 범주형, 연속형 가능 - 종속변수 : 연속형만 가능
TOP 10 선정 이유	- 복잡한 알고리즘에 비해 예측력이 떨어지나, 데이터 특성이 복잡하지 않을 때 쉽고 빠른 예측이 가능 - 다른 모델과의 성능을 비교하는 베이스라인으로 사용하기도 함
장점	- 모델이 간단하여 구현과 해석이 쉽고, 모델링하는 데 오랜 시간이 걸리지 않음
단점	- 최신 알고리즘에 비해 예측력이 떨어짐. - 독립변수와 예측변수의 선형 관계를 전재, 이러한 전제에서 벗어나는 경우 좋은 예측을 보여주기 어려 움

로지스틱 회귀(Logistic Regression) - 분류

가장 기초적인 지도 학습 머신러닝 모델.
선형 회귀 분석과 달리 Yes/No, True/False와 같은 두 가지 범주로 나뉜 값을 예측하는 데 사용(분류)
분류 문제에 있어 기준선 Baseline으로 자주 활용 (타 모델과 비교 목적)

목적	- 여러 가지 데이터를 활용하여 분류를 예측해 내는 것
변수 형태	- 독립변수 : 범주형, 연속형 가능 - 종속변수 : 범주형 변수
TOP 10 선정 이유	- 이진분류가 필요한 상황이 많기 때문에, 두 가지 범주를 구분하는 간단한 예측에 유용 - 딥러닝에서도 기본 지식임
장점	- 선형 회귀 분석만큼 구현하기 용이 - 계수(기울기)를 사용해 독립변수 내 중요성을 쉽게 파악 가능
단점	- 선형 회귀 분석을 근간으로 하고 있어, 선형 관계가 아닌 데이터에 대한 예측력이 떨어짐

K-최근접 이웃(K-Nearest Neighbors; KNN) - 회귀/분류

선형 관계를 전제로 하지 않고, 거리를 기반으로 하는 지도 학습 모델
각 데이터 간의 거리를 활용하여 새로운 데이터를 예측하는 모델로, 가까이에 있는 데이터를 고려하여 예측값이 결정됨
이름에 나와있듯이 K개의 가장 가까운 이웃 데이터에 의해 예측된다는 의미
주로 분류(classification)에서 사용, 로지스틱 회귀로 해결할 수 없는 3개 이상의 목표 변수들도 분류 가능

목적	- 데이터 간의 거리를 활용하여, 새로운 데이터가 어디에 속하는지 구분
데이터셋	- 작은 데이터셋에 적합
TOP 10 선정 이유	- 다중 분류 문제에 가장 간편히 적용할 수 있는 알고리즘. - 데이터가 크지 않고 예측이 까다롭지 않은 상황에서 사용하면 신속하고 쉽게 예측 모델 구현 가능
장점	- 수식에 대한 설명이 필요 없을 만큼 직관적이고 간단 - 선형 모델과 다르게 별도의 가정이 없음
단점	- 데이터가 커질수록 상당히 느려질 수 있음 - 아웃라이어에 취약

나이브 베이즈(Naive Bayes) - 분류

베이즈 정리를 적용한 조건부 확률 기반의 지도 학습 분류 모델
조건부 확률 : A가 일어났을 때 B가 일어날 확률
딥러닝으로 가능하여 해당 모델을 사용하는 상황이 많지 않으나, 자연어 처리가 목적일 때 간단하지만 좋은 성능을 보임
EX) 스팸 필더링을 위한 대표적인 모델

목적	- 조건부 확률로 데이터를 분류할 때 사용
변수 형태	- 범주 형태의 변수가 많을 때 적합 - 숫자형 변수가 많은 때는 적합하지 않음
데이터셋	- 독립변수의 종류가 매우 많은 경우 - 독립변수들이 모두 독립적이고 중요도가 비슷할 때 유용함
TOP 10 선정 이유	- 범용성이 높지 않으나, 독립변수가 모두 독립적이라면 충분히 경쟁력이 있는 알고리즘 - 딥러닝 제외, 자연어 처리에 가장 적합한 알고리즘
장점	- 비교적 간단한 알고리즘에 속하며 속도 또한 빠름 - 작은 훈련셋으로도 잘 예측 가능
단점	- 모든 독립변수가 독립적임을 전제로 하나, 이는 장점이 되기도 하고 단점이 되기도 함 - 독립변수가 모두 독립적이라면 다른 알고리즘 보다 우수하나 실제 데이터셋에서 그런 경우가 많지 않아 단점이기도 함

결정 트리(Decision Tree) - 회귀/분류

관측값과 목푯값을 연결시켜주는 지도 학습 예측 모델. 나무 모양으로 데이터를 분류
수많은 트리 기반 모델의 기본 모델이 되는 중요 모델임
각 변수의 특정 지점을 기준으로 데이터를 분류해가며 예측 모델을 만듦
아웃라이어가 문제될 정도로 많을 때 선형 모델보다 좋은 대안이 됨

목적	- 여러 가지 데이터를 활용하여 데이터를 분류
변수	- 종속변수 : 연속형, 범주형 데이터 모두 사용 가능
데이터셋	- 일반적인 데이터
TOP 10 선정 이유	- 예측력과 성능으로만 따지면 결정 트리 모델을 사용할 일은 없음 - 시각화가 매우 뛰어나다는 유일한 장점 - 그러나, 다른 트리 기반 모델(딥러닝 제외하고 가장 유용하고 많이 쓰이는 트렌드)을 설명하려면 알아야 함
장점	- 데이터에 대한 가정이 없어 어디에나 자유롭게 적용 가능 - 아웃라이어에 영향을 거의 받지 않음 - 트리 그래프를 통해 직관적으로 이해하고 설명 가능. 즉, 시각화에 굉장히 탁월
단점	- 트리가 무한정 깊어지면 오버피팅 문제 야기 - 다른 트리 기반 모델들에 비해 예측력이 상당히 떨어짐

정리

[용어 정리]

베이즈 정리 : 어떤 사건이 서로 상반되는 두 가지 원인에 의해 일어난다고 할 때, 두 원인 중 하나일 확률을 구하는 정리. 조건부 확률, 즉 사후 확률을 구하는 것으로 어떤 사건이 만들어 놓은 상황에서 그 사건 이후 일어나게 될 다른 사건의 가능성을 구하는 이론. 이 이론에 따르면 기존 사건들의 확률(사전 확률)을 안다면, 어떤 사건 이후 각 원인들의 조건부 확률을 알 수 있음. 반대로 기존 사건들의 확률을 알지 못한다면 그 효용가치를 잃게 됨.

'아티클 스터디' 카테고리의 다른 글

[아티클 스터디] 데이터 기반 의사결정의 장점 (2)	2024.09.26
[아티클 스터디] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 (2) (0)	2024.08.13
[아티클 스터디] ‘머신러닝’ 기초 지식 톺아보기 (2) (0)	2024.08.06
[아티클 스터디] ‘머신러닝’ 기초 지식 톺아보기 (1) (0)	2024.08.06
[아티클 스터디] 대기업 데이터 분석가가 추천하는 데이터 분석 프로젝트 주제 (0)	2024.07.18

현재글[아티클 스터디] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 (1)

Beginner's luck

데이터 분석가를 준비하는 하고 싶은 게 많은 사람

파이썬, crm정의, date, 프로그래머스, customerrelationshipmanagement, 서브쿼리, 지표, DATE_FORMAT, 데이터분석가, 도메인, python, 코드카타, mysql, 고객관계관리정의, 머신러닝, 데이터분석, 북극성지표, sql, Where, 데이터리터러시,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Beginner's luck

[아티클 스터디] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 (1)

오늘의 아티클

아티클 요약

'아티클 스터디' 카테고리의 다른 글

'아티클 스터디'의 다른글

티스토리툴바

[아티클 스터디] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 (1)

오늘의 아티클

아티클 요약

'아티클 스터디' 카테고리의 다른 글

'아티클 스터디'의 다른글

관련글

티스토리툴바