클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

텍스트 마이닝 8 - 텍스트 마이닝 응용 실습 1 : 토큰화 및 단어사전 구축하여 단어 빈도 측정하기 본문

인공지능/머신러닝

텍스트 마이닝 8 - 텍스트 마이닝 응용 실습 1 : 토큰화 및 단어사전 구축하여 단어 빈도 측정하기

huenuri 2024. 9. 20. 10:48

이제 지난 시간에 조금 진행하다 말았던 응용 실습을 주피터 노트북으로 진행해볼 것이다.


 

 

텍스트마이닝 응용 실습해보기

코랩으로 만들었던 파일을 로딩하며 지금까지 작업했던 내용을 출력해본다.

 

반복되는 표현들을 모두 제거해주었다.


 

 

 

 

 

 

중복되는 단어를 제거하여 확인한 후 단어사전을 구축한다.

 

 

 

가나다 순으로 번호를 부여한 것이다. 이제 25개의 구축된 단어사전을 가지고 컬럼으로 구축하게 된다. 첫번째 문장에서 이 단어가 등장했는지 횟수를 표시한다. 등장했으면 1, 등장하지 않았다면 0으로. 원핫 인코딩과 비슷하지만 단어의 등장 횟수가 증가하면 2가 된다.


 

 

 

 

위치 정보를 담지 않기 때문에 문맥을 파악에는 적합하지 않다.

 

 

 

 

 

패턴을 추출하기에 나름 가치가 있는 방법이 BOW이다.

 


 

 

학습을 마치고

이렇게 해서 텍스트 마이닝 셋째날 수업까지 모두 학습하고 정리해보았다. 뒤로 갈수록 텍스트 마이닝에 흥미가 떨어져 기록도 전보다 열심히 하지 않고 대충 이해했으면 넘어가고 있다.

데이터 분석과 머신러닝을 공부하고는 있지만 별로 재미는 없는 게 사실이다. 그냥 배우는 과정 중에 있으니까 하는 것이다. 또 언제 써먹게 될지 모르니 공부는 한번 해놓는 게 좋을 것 같다.

 

이제 다음 포스트에서는 넷째날 수업에 대해서 정리해볼 것이다.