클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

텍스트 마이닝 11 - 텍스트 마이닝 응용 실습 4 : 단어의 가중치 추출하고 시각화하기 본문

인공지능/머신러닝

텍스트 마이닝 11 - 텍스트 마이닝 응용 실습 4 : 단어의 가중치 추출하고 시각화하기

huenuri 2024. 9. 20. 15:02

오후에 2시 반이 다 되어 이제 다시 공부를 시작해본다. 가능하면 5시까지 마지막날 수업을 모두 듣고 정리해보려고 한다. 그리고 조금 쉬었다가 마지막 30분 조금 넘는 시간 동안은 엘리스로 머신러닝 4주차 학습을 진행할 것이다.

지난 시간에 공부했던 베스트 모델 로딩부터 시작해볼 것이다.


 

 

 

텍스트 마이닝 응용 실습해보기

텍스트 마이닝에서는 입력 특성에 단어가 들어간다. 해당 단어가 얼마나 가중치가 있는지 알아보는 것이다.

 

 

 

2034개의 단어가 얼마나 가중치가 있는지 분석하게 된다.


 

 

 

 

단어마다 인덱스가 딕셔너리 형태로 출력되고 있다. 리스트는 순서가 있지만 딕셔너리는 순번이 없다. 하지만 가중치는 0번부터 순서대로 나열이 되어 있으므로 이를 정렬해야 한다.

 

 

 

 

 

 


 

 

시각화로 나타내기

단어가 너무 많아서 파이차트로 그리면 잘 보이지 않는다. 바 차트가 더 나을 것 같다.

 

 

 


 

 

 

 

 

 

 

주요 키워드만 뽑아서 출력해보는 실습도 해보았다. 세번째 시각화가 가장 나아보인다. 

 


 

 

 

학습을 마치고

단어의 가충치를 추출해서 시각화하는 실습을 진행했다. 시각화해서 눈으로 보여질 때가 가장 재미있는 것 같다. 재미라기 보다는 눈에 확 들어와서 좋았다.

이제 텍스트 마이닝 수업도 두 시간 분량이 남아있다. 1시간 반 안에 정리를 모두 마치고 오늘 오후 수업이 끝나기 전에 머신러닝 4주차 수업까지 모두 마칠 수 있었으면 좋겠다.