클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

텍스트 마이닝 9 - 텍스트 마이닝 응용 실습 2 : 데이터 수치화하여 모델 학습 및 평가하기 본문

인공지능/머신러닝

텍스트 마이닝 9 - 텍스트 마이닝 응용 실습 2 : 데이터 수치화하여 모델 학습 및 평가하기

huenuri 2024. 9. 20. 12:08

이제 넷째날 수업의 1교시 내용을 정리해보려고 한다.


 

 

 

 

 

0으로 많이 채워져있어서 별로 효율적이지 않다. 딥러닝에서는 이런 점 때문에 활용하지 않는다. 1만 5천 개의 리뷰를 모두 쓰는 것은 좋지 않다. 어쩌다 사용하는 오타는 횟수가 적어 불필요한 단어 토큰이 된다.

빈도가 낮은 단어는 부피만 차지하고 분석에 별로 도움은 되지 않는다. 따라서 분석에 유용한 단어만 추출해서 사용하는 것이 좋다.

이 코드에 옵션을 넣어보자. 모두 다 사용하는 단어는 분석에 별 도움이 안되니 제거한다. 주로 max보다는 min을 사용할 때 범위가 확 줄게 된다.

 

 

 

바이그램으로 묶자 2개씩 적용이 되고 있다.


 

 

 

유니에서 바이까지 모두 적용하고 불용어도 등록했다.

 

 

 


 

 


 

 

약 58%의 점수가 나오는데 성능은 썩 좋지는 않지만 그래도 쓸만하다.


 

 

TF-IDF

 

각각의 문서에서 단어가 등장하는 횟수를 측정한 것이 TF이다. 하나의 단어에서 특정 단어가 많이 등장하면 그 단어는 문서를 대표한다고 생각한다. TF-IDF는 하나의 문서뿐 아니라 전체 문서에서 과도하게 등장하지 않는지 분석해서 파악하게 된다. 가장 좋은 수치값은 하나의 문서에서는 많이 등장하지만, 전체 문서에서는 적당히 등장하는 것이다. 

가지고 있는 말뭉치에 비해 너무나 많이 깎여 나가는 것을 방지하기 위해 로그를 사용한다.


 

 

 


 

 

 

 

 

 


 

 

 

학습을 마치고

반복되는 부분도 있고 해서 특별히 어려운 내용은 별로 없었다. 모델링하여 학습하는 과정이 끝났고 이제 하이퍼파라미터 튜닝을 하는 부분만 남아있다. 이틀 정도는 머신러닝 수업을 들었었는데 들었던 부분이 일부 기억이 나기도 했다. 하지만 그때는 무슨 말인지 하나도 이해하지 못한채 코드가 썼다.

앞 부분을 복습하며 공부하니 이제 머신러닝이 어떤 것인지 알게 되었다. 다만 별로 하고 싶지는 않아서 내가 좋아하고 잘할 수 있는 개발 분야를 해볼 생각이다.

 

그래도 이런 게 있다는 걸 알고 있는 것과 아예 모르는 건 아주 큰 차이가 있다. 나중에 이 부분을 잘하는 사람과 함께 일할 수도 있고 팀을 이루어 하는 경우가 많을 것이다. 그때 난 인공지능을 공부한 사람으로서 이들이 하는 개발을 훨씬 더 잘 이해할 거라는 생각이 든다.

그러니 남은 시간까지 열심히 공부해볼 것이다. 이제 아침 공부도 1시간도 남지 않았다.