[ML] 머신러닝?
본문 바로가기
AI 빅데이터/머신러닝(ML)

[ML] 머신러닝?

by 뚱구리 2022. 8. 9.

머신러닝이란 ?


간단하게 머신러닝이 뭔가?
기계학습 or 머신러닝은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구.
컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하고 인공지능의 한 분야로 간주된다.

유형
- 이진 분류 : 데이터를 받으면 두 가지의 대상중 하나로 예측.
ex) 공부시간을 바탕으로 합격 or 불합격 으로 분류

- 다중 분류 : 데이터를 받으면 여러가지 대상중 하나로 예측.
ex) 공부시간을 바탕으로 등급 분류

- 회귀 : 데이터의 연속적인 흐름을 파악해 입력이 들어왔을때 float 형태의 값을 예측.
ex) 공부시간을 바탕으로 한 최종 시험 점수 예측


머신러닝 알고리즘 종류 - 1 지도학습
: 레이블이 있고 정답을 알려주어 그 정답 기반으로 학습을 해서 새로운 데이터의 정답을 알려줌.
레이블이 주어진 데이터란? 고양이, 개 등과 같이 개체의 특징이 명확하게 존재하는 데이터.

K-NN

  • 가장 가까운 데이터를 기준으로 새로운 데이터의 클래스를 분류.
  • 새로운 입력 데이터와 가까운 가장 가까운 k 개의 이웃 데이터 선택.
  • 쉽게 활용이 되지만 정확도는 그렇게 높지 않음.

SVM(Support Vector Machine)

  • 상당히 유명한 알고리즘이면서 정확도가 높아 다양 곳에서 활용되는 알고리즘.
  • 데이터를 2개의 영역으로 분류하는 이진 분류( 기준을 찾아서 2개 영역으로 나눔).
  • 분류오 회귀 분석을 위해 사용.
  • 비선형 분류에도 활용.
  • 영역의 여백(margin, gap)이 최대가 되는 중심선 찾기.

 

의사결정 트리(Decision Tree)

  • 스무고개 문답처럼..

랜덤 포레스트 (Random Forest) - 앙상블 기법

  • 다수의 의사결정 트리를 만들고 그 나무들의 분류를 집계하여 최종 분류하는 방법.
  • 의사결정 트리들이 여러개 모인 것을 의미.
  • 의사결정 트리의 단점인 오버피팅 문제를 개선.
  • 오버피팅 - 특정 데이터에 집중적으로 학습 후 외부 데이터가 들어왔을때 잘 분류하지 못하는 단점.

 

나이브 베이즈 분류기 ( Naive Bayes Classifier)

  • 조건부 확률 모델, 모든 특성 값은 서로 독립이라 가정함.
  • ex) 어떤 사건이 일어났을때 이 사건이 일어난 확률?

- 야구장에 갔을 때 비가 올 확률...

  • 택시를 타고 가는데 요금이 얼마나 나올지 ?

- 신호, 교통량, 택시 종류, 날씨 등... 에 따라 달라짐.

- 이러한 특성은 서로 독립적인 요소로 결과에 영향을 줌


머신러닝 알고리즘 종류 - 2 비지도 학습
: 레이블이 없고 정답도 없다. 스스로 분류

 

K-means 클러스터링

  • 유사한 특성을 가진 n 개의 데이터 그룹으로 묶는 방법.
  • 알고리즘이 비교적 간단, 속도 빠름

 

선형회귀 (Linear Regression)

  • 과거의 데이터를 기반으로 학습한 내용을 예측.
  • X에 대한 y의 회귀직선
  • y = a + bX

 

로지스틱 회귀 (Logistic Regression)

  • 예를 들어 청문회 때 당신 비리를 저질렀나요?@?!?@?!?!?!
  • 예 아니오로 대답하세요!!!!! - 이게 로지스틱 회귀
  • 0 ~ 1사이의 갑으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류.

 

* 참고 : k-mooc 머신러닝 빅데이터 분석 강의 

📖 복습차원에서 작성하는 글입니다. 잘못된 부분이 있다면 알려주세요 !!

728x90