클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

텍스트 마이닝 2 - 텍스트 마이닝 기초 실습 2 : 워드 클라우드 생성하기 본문

인공지능/머신러닝

텍스트 마이닝 2 - 텍스트 마이닝 기초 실습 2 : 워드 클라우드 생성하기

huenuri 2024. 9. 19. 13:10

이어서 텍스트 마이닝 학습을 진행해보겠다. 분량이 생각보다 많은데 과연 오늘 안에 이틀치 수업을 모두 학습하고 내용을 정리할 수 있을지 의문이지만 열심히 해볼 것이다. 이제 아침 공부 시간도 20분도 남지 않았다. 다 하지 못한 건 오후에 이어서 해볼 것이다.


 

 

 

한국어 혐오 표현 텍스트 마이닝 실습 두번째

 

 

 

 


 

 


 

 

단어 추출하기

 

중복되는 단어도 많으므로 이런 작업을 할 때는 전처리 작업을 해주는 것이 좋다. 띄어쓰기와 오타도 교정한 후에 빈도 분석을 해야 올바른 결과를 얻을 수 있다. 여기서는 빈도수가 높은 100개의 단어를 보여주도록 했다.

 

 

워드 클라우드 설치 및 한글 폰트 설정

 

설치한 다음에는 다시 실행되지 않도록 주석 처리를 해준다. 그리고 원드 클라우드가 한글을 지원하지 않아 깨질 수도 있기에 이러한 설정을 하는 것이 좋다. C:윈도우-font에 가서 한글을 지원하는 폰트를 찾는다. 맑은 고딕을 폰트 경로로 지정해주려고 한다.

 

 

여기서 폰트의 경로를 찾아서 지정해주면 된다.


 

 

 

 

 

 

 

매플로립은 대부분의 라이브러리에서 시각화할 때 기초가 되는 라이브러리이다. savefig를 설정하면 이미지 파일로 저장되어 받아볼 수 있다. 웹 서버의 이미지 태그로도 넣을 수 있다.

 

 

 

 

 

워드 클라우드 생성기도 있어 여기에 텍스트를 넣고 JSP/Servlet을 넣어 하나짜리 페이지도 만들 수 있다. 

 


 

 

학습을 마치고

특정 문장을 추출하는 워드 클라우드 실습까지 진행하고 점심을 먹으러 가려고 했는데 써야 할 코드가 많은 관계로 여기서 아침 공부를 마치려고 한다.

텍스트 마이닝을 하는 작업도 정말 재미있었다. 사람들이 워드 클라우드로 생성한 것을 카톡방에서 잠깐 확인만 했었지 실제로는 거의 해보지 않았었다. 며칠 전에 오렌지 공부할 때 한번 사용한 것이 전부였다.

 

워드 클라우드라는 새로운 라이브러리로 만드는 방법도 배웠고 단어를 추출하는 것도 알게 되었다. 오후에 이어서 나머지 작업을 진행하며 학습해볼 것이다.