클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

머신러닝의 이해 3 - 머신러닝 모델 훈련과 테스트 과정 본문

인공지능/머신러닝

머신러닝의 이해 3 - 머신러닝 모델 훈련과 테스트 과정

huenuri 2024. 9. 13. 10:55

오늘은 공부가 잘 안되는 것 같다. 내일부터 쉬는 날이라서 그런지 마음이 조금 들떠있는지도 모르겠다. 그래도 오늘까지는 열심히 공부해야 한다.

다시 머신러닝 학습을 이어가기로 하자. 별로 재미있는 내용은 아니라서 지루할 수 있겠지만 공부란 게 원래 재미있는 건 아니다. 필요하니까 하는 거지.


 

 

 

머신러닝 모델 훈련과 테스트 과정

 

 

1. 문제 데이터 (Feature, Input Data)

  • Feature (입력특성): 머신러닝 모델이 학습할 때 사용되는 독립 변수(Feature), 즉 입력 데이터이다. 문제를 해결하기 위해 제공되는 데이터의 속성 또는 특성이라고 할 수 있다. 예를 들어, 집값 예측 문제에서는 '집 크기', '방 개수' 등이 Feature에 해당된다.
  • Label (종속 변수): 입력 특성(Feature)에 대응하는 정답 데이터이다. 예를 들어, '집값 예측 문제'에서 Feature가 집 크기나 방 개수라면, Label은 실제 집값이 됩니다. 모델은 이 데이터를 학습하여 결과를 예측할 수 있게 된다.

 

2. 데이터 분할 (Training Data & Test Data)

  • X-train: 주어진 데이터를 학습용 데이터(Train Data)와 평가용 데이터(Test Data)로 나누는데, 여기서 X-train입력 데이터의 학습용 부분이다. 일반적으로 전체 데이터의 70% 정도를 학습용 데이터로 사용한다.
  • y-train: y-train은 입력 데이터(X-train)에 해당하는 *정답 데이터(Label)*입니다. X-train과 y-train을 이용하여 모델을 학습한다.
  • X-test: 남은 30%의 데이터는 *테스트 데이터(Test Data)*로 사용되며, 학습이 끝난 모델의 성능을 평가하는 데 사용된다. X-test는 입력 데이터의 평가용 부분이다.
  • y-test: y-test는 X-test에 해당하는 정답 데이터이다. 이를 이용해 모델의 예측 결과를 실제 정답과 비교하여 평가한다.

 

3. 모델 훈련 과정

  • model.fit(X_train, y_train): 이 단계에서 머신러닝 모델은 학습 데이터를 이용해 학습한다. 즉, X_train(입력 데이터)와 y_train(정답 데이터)을 사용하여 패턴을 학습하고 규칙을 만든다.
  • model.predict(X_test): 모델이 학습을 마친 후, 새로운 입력 데이터 X_test에 대해 예측을 수행합니다. 즉, 학습된 모델을 사용해 X-test에 대한 예측값을 만들어낸다.

4. 모델 평가

  • 비교 및 평가: 모델이 예측한 결과와 실제 y_test를 비교하여 모델의 성능을 평가한다. 여기서 정확도, 오차율 등의 지표를 사용하여 평가하게 됩니다. 평가 결과는 모델이 새로운 데이터에서 얼마나 잘 작동할 수 있는지를 나타낸다.

 

이 과정은 머신러닝 모델을 학습시키고, 테스트 데이터를 사용해 실제로 잘 예측하는지를 평가하는 일반적인 방법이다. 학습 데이터로는 모델을 학습시키고, 테스트 데이터로는 모델이 새로운 데이터에 대해 잘 예측하는지 성능을 확인하는 것이 중요하다.


 

 

 

머신러닝 테스트 문제 풀기

 

다 맞은 줄 알았는데 틀린 문제가 절반이 넘었다. 다시 한번 정리하며 풀어보기로 하자.

 

2번 문제의 답은 비지도학습이다. 고객을 그룹으로 분할하는 문제는 정답 데이터가 주어지지 않고, 데이터를 군집화하는 것이므로 비지도학습이 적합하다. 그리고 5번은 분류이다. A, B, C, D, F와 같이 범주형 데이터를 예측하는 문제는 분류 문제에 해당됩니다. 회귀는 연속적인 수치를 예측할 때 사용하는 모델이다.

 

 


 

 

학습을 마치고

오늘은 정말 공부에 집중이 안되고 빨리 시간이 지나갔으면 하는 바램이 크다. 그냥 오늘 하루 조퇴하고 집에 가버릴까 하는 생각도 여러 번 했지만 그냥 마음을 바꾸어본다.

어제도 아침에 2시간은 뭔가 잘 안되는 게 많아서 헛짓거리처럼 보이는 일을 하기도 했었다. 이제 남은 2시간은 정말 열심히 공부해보자.