Orange 4 - 머신러닝 7단계에 따라 BMI 예측 실습해보기 2 : 5~7단계 과정

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지

Orange 4 - 머신러닝 7단계에 따라 BMI 예측 실습해보기 2 : 5~7단계 과정 본문

인공지능/머신러닝

Orange 4 - 머신러닝 7단계에 따라 BMI 예측 실습해보기 2 : 5~7단계 과정

huenuri 2024. 9. 13. 15:45

머신러닝 4단계 과정이 끝난줄 알았는데 아직 몇 가지 과정이 남아있었다. Data Sampler로 훈련용과 평가용을 분리하는 일이다. 그럼 나머지 학습을 이어서 시작해보자!

다시 머신러닝 공부가 재미있어졌다.

BMI 예측 실습해보기 2

4. Data Sampler (Train/Test 분리)

훈련 데이터(Train Data)와 평가용 데이터(Test Data)로 나뉘는 과정과 각각의 세부 내용을 보여주는 자료이다. 이 과정을 통해 머신러닝 모델을 학습시키고 평가할 수 있게 된다.

Orange의 Data Sampler를 통해 전체 데이터를 70%는 훈련 데이터, 30%는 테스트 데이터로 나누었다.

Train Data (훈련 데이터)

350개의 인스턴스가 훈련 데이터로 사용됨
이 데이터는 머신러닝 모델이 학습하는 데 사용되는 데이터이다.
변수는 **Height(키)**와 Weight(몸무게) 두 개의 특성(Feature)으로 이루어져 있고, Label은 BMI 상태(Obesity, Normal, Extreme Obesity 등)를 나타낸다.
이 데이터를 기반으로 모델이 패턴을 학습하게 된다.

Test Data (평가용 데이터)

150개의 인스턴스가 평가용 데이터로 사용됨
테스트 데이터는 모델이 학습된 후, 새로운 데이터에서 얼마나 잘 예측하는지를 확인하는 데 사용된다.
마찬가지로 키와 몸무게를 가지고 있고, BMI 상태를 예측해야 한다. 여기서는 모델이 이 데이터를 얼마나 정확하게 예측하는지 평가할 수 있다.

이렇게 데이터를 나누는 이유는 학습된 모델이 훈련 데이터에 과적합(overfitting)되지 않도록 새로운 데이터를 통해 모델의 일반화 능력을 평가하기 위해서이다.

Train Data는 모델을 학습시키는 데 사용되고, Test Data는 학습이 끝난 모델의 성능을 평가하는 데 사용된다.

결론

Train Data(훈련 데이터) : 350개 인스턴스가 포함된 데이터로, 모델을 학습시키는 데 사용됨
Test Data(평가용 데이터) : 150개의 인스턴스로, 학습된 모델의 성능을 테스트하기 위해 사용됨
Data Sampler: 데이터를 훈련용과 테스트용으로 나누어 학습과 평가의 두 가지 목적에 맞게 데이터를 준비하는 과정

5. 모델 선택 및 학습

KNN 모델과 의사결정 나무(Tree) 모델 두 가지가 사용되고 있다. 두 모델을 동시에 학습시켜 예측 결과를 비교할 수 있다.
- KNN (최근접 이웃 모델): 입력 데이터와 가장 가까운 이웃 데이터를 기반으로 분류 또는 회귀를 수행하는 모델
- 의사결정 나무 (Tree): 데이터를 기준에 따라 여러 개의 분기로 나누어 의사결정을 내리는 트리 구조의 모델

6. Predictions (예측)

학습된 모델은 새로운 데이터(여기서는 Test Data)를 예측하게 돼. Predictions 단계에서 학습된 모델이 평가용 데이터를 입력받고 BMI 상태를 예측한다.
이 결과는 모델이 학습된 대로 올바르게 예측했는지, 얼마나 정확하게 맞췄는지를 확인할 수 있다.

7. Test and Score (평가 및 점수화)

Test and Score는 모델의 성능을 평가하는 단계이다. 이 단계에서 모델의 정확도, 정밀도, 재현율 등의 성능 지표를 계산하게 된다.
학습된 모델이 평가 데이터에서 얼마나 잘 예측했는지를 정량적으로 측정할 수 있다. 이를 통해 KNN과 의사결정 나무 모델 중 어떤 모델이 더 잘 작동하는지를 평가할 수 있다.

모델 선택은 문제에 맞는 알고리즘을 선택하는 과정이고, 학습은 그 모델이 데이터를 기반으로 패턴을 배우는 과정이다. 이 두 단계를 잘 진행해야만, 이후 예측과 평가에서 좋은 성능을 낼 수 있다. KNN과 의사결정 나무는 각각의 장단점이 있으므로, 데이터를 잘 분석해서 적절한 모델을 선택하는 것이 중요하다.

KNN 모델

정확도는 1에 가까울수록 더 정확하다.

이 결과는 KNN 모델을 5-fold 교차 검증 방식으로 평가한 결과이다. 이 모델의 정확도는 88.5%, F1 스코어는 0.845로, 꽤 좋은 성능을 보여주고 있다. 또한 Precision과 Recall 값도 균형 잡힌 성능을 나타내고 있다.

학습을 마치고

강의 영상이 없음에도 불구하고 자료를 찾아가면서 이렇게 학습을 진행해보았다. 어떤 부분은 선생님이 설명하시는 것보다 더 많은 것들을 알게 되기도 했다.

이 다음부터는 수업 진도에 따라 여러 가지 실습을 진행해보려고 한다.

저작자표시 비영리 변경금지

'인공지능 > 머신러닝' 카테고리의 다른 글

Orange 5 - 레드 와인과 화이트 와인을 분류하는 실습 1 : 분류에 영향을 미치는 요인 (0)	2024.09.13
머신러닝의 이해 4 - 머신러닝 개념 정리 및 과대적합 · 과소적합 · 일반화에 대하여 (0)	2024.09.13
Orange 3 - 머신러닝 7단계에 따라 BMI 예측 실습해보기 1 : 1~4단계 과정 (0)	2024.09.13
머신러닝의 이해 3 - 머신러닝 모델 훈련과 테스트 과정 (0)	2024.09.13
머신러닝의 이해 2 - 머신러닝의 개념과 종류 그리고 머신러닝의 7단계 과정에 대하여 (0)	2024.09.13

이 글이 유익했다면 공감과 댓글로 응원 부탁드려요! 🙌

'인공지능/머신러닝' Related Articles

클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지

Orange 4 - 머신러닝 7단계에 따라 BMI 예측 실습해보기 2 : 5~7단계 과정 본문

Orange 4 - 머신러닝 7단계에 따라 BMI 예측 실습해보기 2 : 5~7단계 과정

BMI 예측 실습해보기 2

4. Data Sampler (Train/Test 분리)

Train Data (훈련 데이터)

Test Data (평가용 데이터)

결론

5. 모델 선택 및 학습

6. Predictions (예측)

7. Test and Score (평가 및 점수화)

KNN 모델

학습을 마치고

'인공지능 > 머신러닝' 카테고리의 다른 글

티스토리툴바