머신러닝이란 ?
간단하게 머신러닝이 뭔가?
기계학습 or 머신러닝은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구.
컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하고 인공지능의 한 분야로 간주된다.
유형
- 이진 분류 : 데이터를 받으면 두 가지의 대상중 하나로 예측.
ex) 공부시간을 바탕으로 합격 or 불합격 으로 분류
- 다중 분류 : 데이터를 받으면 여러가지 대상중 하나로 예측.
ex) 공부시간을 바탕으로 등급 분류
- 회귀 : 데이터의 연속적인 흐름을 파악해 입력이 들어왔을때 float 형태의 값을 예측.
ex) 공부시간을 바탕으로 한 최종 시험 점수 예측
머신러닝 알고리즘 종류 - 1 지도학습
: 레이블이 있고 정답을 알려주어 그 정답 기반으로 학습을 해서 새로운 데이터의 정답을 알려줌.
레이블이 주어진 데이터란? 고양이, 개 등과 같이 개체의 특징이 명확하게 존재하는 데이터.
K-NN
- 가장 가까운 데이터를 기준으로 새로운 데이터의 클래스를 분류.
- 새로운 입력 데이터와 가까운 가장 가까운 k 개의 이웃 데이터 선택.
- 쉽게 활용이 되지만 정확도는 그렇게 높지 않음.
SVM(Support Vector Machine)
- 상당히 유명한 알고리즘이면서 정확도가 높아 다양 곳에서 활용되는 알고리즘.
- 데이터를 2개의 영역으로 분류하는 이진 분류( 기준을 찾아서 2개 영역으로 나눔).
- 분류오 회귀 분석을 위해 사용.
- 비선형 분류에도 활용.
- 영역의 여백(margin, gap)이 최대가 되는 중심선 찾기.
의사결정 트리(Decision Tree)
- 스무고개 문답처럼..
랜덤 포레스트 (Random Forest) - 앙상블 기법
- 다수의 의사결정 트리를 만들고 그 나무들의 분류를 집계하여 최종 분류하는 방법.
- 의사결정 트리들이 여러개 모인 것을 의미.
- 의사결정 트리의 단점인 오버피팅 문제를 개선.
- 오버피팅 - 특정 데이터에 집중적으로 학습 후 외부 데이터가 들어왔을때 잘 분류하지 못하는 단점.
나이브 베이즈 분류기 ( Naive Bayes Classifier)
- 조건부 확률 모델, 모든 특성 값은 서로 독립이라 가정함.
- ex) 어떤 사건이 일어났을때 이 사건이 일어난 확률?
- 야구장에 갔을 때 비가 올 확률...
- 택시를 타고 가는데 요금이 얼마나 나올지 ?
- 신호, 교통량, 택시 종류, 날씨 등... 에 따라 달라짐.
- 이러한 특성은 서로 독립적인 요소로 결과에 영향을 줌
머신러닝 알고리즘 종류 - 2 비지도 학습
: 레이블이 없고 정답도 없다. 스스로 분류
K-means 클러스터링
- 유사한 특성을 가진 n 개의 데이터 그룹으로 묶는 방법.
- 알고리즘이 비교적 간단, 속도 빠름
선형회귀 (Linear Regression)
- 과거의 데이터를 기반으로 학습한 내용을 예측.
- X에 대한 y의 회귀직선
- y = a + bX
로지스틱 회귀 (Logistic Regression)
- 예를 들어 청문회 때 당신 비리를 저질렀나요?@?!?@?!?!?!
- 예 아니오로 대답하세요!!!!! - 이게 로지스틱 회귀
- 0 ~ 1사이의 갑으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류.
* 참고 : k-mooc 머신러닝 빅데이터 분석 강의
📖 복습차원에서 작성하는 글입니다. 잘못된 부분이 있다면 알려주세요 !!
728x90
'AI 빅데이터 > 머신러닝(ML)' 카테고리의 다른 글
와인 품질 예측 모델 만들기 01_K-ICT 빅데이터센터 / 머신러닝 강의 (4) | 2024.10.06 |
---|