미누에요
[Machine Learning] 나이브 베이즈 분류(Naive Bayes Classification) 본문
나이브 베이즈 분류(Naive Bayes Classification)
나이브 베이즈 분류는 "베이즈 정리(Bayes Rule)을 활용한 통계학적 분류 알고리즘이다.
베이즈 정리(Bayes Rule)
베이즈 정리는 지극히 통계적인 개념으로, 조금은 어렵게 다가올 수 있으나 차근차근 읽어보자.
- : 사건 B가 발생했을 때 A가 발생할 확률 (사후 확률)
- P(B∣A): A가 발생했을 때 B가 발생할 확률 (우도)
- P(A): A가 발생할 확률 (사전 확률)
- P(B): B가 발생할 확률 (정규화 상수)
단순히 사건 A가 일어날 확률이 아니라, 사건 B에 대한 A의 확률을 계산하는 것이다.
자세한 베이즈 정리에 대한 내용은 따로 찾아보기 바란다.
그렇다면 왜 베이즈 정리를 활용하는지 궁금할 것이다.
그 이유는 주어진 데이터(특징)로부터 목표 클래스에 속할 확률을 계산하기 위해서 나이브 베이즈 분류를 활용하게 된다.
그럼 나이브(Naive) 는 뭘까 ??
나이브 가정(Naive Assumption)
나이브 베이즈 분류기에서 사용하는 가정으로, 모든 특징(feature)이 조건부로 서로 독립적이라고 가정하는 것을 말한다.
즉, 나이브 베이즈 분류기에 들어가는 피쳐들은 모두 독립적, 상관관계가 없어야한다는 것이다.
이것을 가정으로 깔고 들어가기 때문에 피쳐들 간의 상관관계가 높은 경우에 성능이 낮아질 수밖에 없다.
예를 들어 스팸 메일을 분류한다고 하자.
우리는 스팸 메일과 정상 메일의 단어를 확인해야 할 것이다.
그리고 파악한 단어들로 새로운 메일의 단어를 파악하여 스팸인지를 구분하게 된다.
이 경우에, P(스팸 | 단어1, 단어2) > P(정상 | 단어1, 단어2)
즉, 단어 1과 단어 2가 스팸일 확률이 정상일 확률보다 높다면 나이브 베이즈 분류기는 이 메일을 스팸메일로 분류한다는 뜻이다.
특징
- 확률 기반 접근
- 빠르고 간단한 구현
- 다양한 응용 가능
장점
- 학습과 예측이 모두 빠르고 계산량이 적다.
- 적은 데이터로도 효과적으로 학습할 수 있다.
- 각 클래스에 속할 확률을 계산하므로, 신뢰도를 제공한다.
단점
- 피쳐들 간 독립성이 없는 데이터에서는 성능이 저하된다.
- 단어 간의 상관관계가 높으면 안된다.
- 복잡한 구조의 데이터에는 적합하지 않다.
- 가장 높은 확률을 기준으로 판단하기 때문에 성능이 제한될 수 있다.
'AI' 카테고리의 다른 글
[Machine Learning] 혼동 행렬(Confusion Matrix), 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) (0) | 2024.12.23 |
---|---|
[Machine Learning] KNN(K-nearest Neighbor) (1) | 2024.12.13 |
[Machine Learning] SVM(Support Vector Machine) (0) | 2024.12.11 |
[Machine Learning] 로지스틱 회귀(Logistic Regression) (0) | 2024.11.11 |
[Machine Learning] 분류(Classification) (0) | 2024.11.11 |