클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

머신러닝을 위한 데이터 이해하기 4 - 도메인 지식을 늘려 데이터 준비하기 본문

인공지능/머신러닝

머신러닝을 위한 데이터 이해하기 4 - 도메인 지식을 늘려 데이터 준비하기

huenuri 2024. 9. 19. 11:10

이제 두번째 실습을 진행해보겠다. 먼저 타이타닉 침몰에 대한 동영상도 함께 제공하고 있어 무척 재미있는 수업이 될 것 같다.


 

 

 

실습 1-2 : 타이타닉호 침몰 상황 파악하기

 

타이타닉호 침몰 동영상

 

타이타닉 호가 침몰하는 상황을 자세히 보여주고 있는 영상이다. 한국어 자막이 없어서 조금 아쉽지만 말이다.


 

 

 

실습 2-2 : 타이타닉호 침몰과 관련된 도메인 지식을 늘려보기

 

 

 


 

 

 

실습 2-3 : 도메인 지식을 늘려 데이터 준비하기

 


 

 

 


 

실습 문제 풀어보기

 

 

두번째 지시사항까지 완료한 코드이다. 이제 모델의 성능을 78% 이상으로 높여야 한다. 두번째 지시사항의 값을 변경하여 이 성능을 높여주면 된다.


 

 

 

 

이제 모델 성능이 78% 이상이 되었다.

 

 

채첨하는데 조금 오래 걸리지는 했지만 잘 풀었다.


 

 

단원 요약

왜 어떨 때는 성능이 높아지고 낮아지는지 의문이 들 수도 있겠다. 르네상스 시대에 윌리엄 오캄이라는 신학자는 다음과 같은 말을 남겼다고 한다. 어떤 가설이 있을 때 간단한 가설을 선택하는 것이 좋다.

현대 과학의 기조에서도 이러한 오캄's razor가 활용되고 있다. 많은 feature를 넣는다고 해서 모델이 좋아지지 않는다. 우리는 모델을 선택할 때 이 특징을 선택할 때 어떠한 결과가 있을지 생각해야 한다. feature는 데이터에서 시작하며 도메인의 전문성이 더 중요하다는 것을 기억해야 한다.

 


 

 

학습을 마치고

11시 무렵에 3주차 학습을 다 마치려고 했는데 목표한대로 잘 마칠 수 있었다. 실습 문제를 통해 머신러닝이 어떻게 동작하는지 이해할 수 있었고 어떤 feature를 바꾸느냐에 따라 성능이 이처럼 달라질 수 있다는 것도 배울 수 있었다.

그래도 나름 유익한 시간이었다고 생각한다. 이제 남은 아침 공부 시간에는 텍스트 마이닝 학습을 시작해볼 것이다.