관리 메뉴

클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지

텍스트 마이닝 4 - 텍스트 마이닝 기초 실습 4 : 키위를 이용한 불용어 처리 본문

인공지능/머신러닝

텍스트 마이닝 4 - 텍스트 마이닝 기초 실습 4 : 키위를 이용한 불용어 처리

huenuri 2024. 9. 19. 16:14

한 달 전에 수업했던 내용인데 이제 공부해보고 있다. 그때는 아직 필요성을 느끼지 못했기 때문이다. 웹 크롤링도 공부해야 하는데 언제 다 할까 싶다. 이것도 딥러닝처럼 한 이틀 시간을 내서 가능하면 9월 안에 공부를 마치는 것이 좋을 것 같다. 컴퓨터 비전 일주일 동안 공부한 후에 크롤링 학습을 진행하면 될 것 같다.

텍스트 마이닝 수업을 하는 중에 쁘띠 프로젝트라고 팀별로 작은 프로젝트를 하나 작업하고 발표하는 시간을 가졌었다. 하지만 난 선생님에 팀에 딱 한번 넣어준 후로(그것도 3주에 불과했지만) 이전에도 이후에도 팀이 언제나 없는데다 수업도 듣지 않아서 참여하지 않았다. 가끔은 선생님이 나를 너무 소외시키는 건 아닌가 하는 생각을 한다.

 

하지만 뭐든 좋은 점이 있으면 그렇지 않는 점도 존재한다. 오히려 난 자유롭게 내가 하고 싶은 작업과 공부를 이어갈 수 있는 장점이 있다. 팀 프로젝트 작업은 생략하고 선생님이 수업하셨던 부분만 수업을 듣고 정리해볼 생각이다.


 

 

 

텍스트 마이닝 기초 실습해보기

현재 별로 필요 없는 단어를 제거하는 작업을 말한다. 이 부분은 오렌지 프로그램을 다룰 때도 많이 사용했었다. 인터넷에 보면 한국어에서 자주 사용하는 불용어 목록이 있는데 이걸 추가해서 제거해도 된다.

 

 

 

 

 

 

이렇게 불용어를 처리해보았다.


 

 

Kiwi 활용하기

 

 

Kiwi 깃 허브

 

GitHub - bab2min/kiwipiepy: Python API for Kiwi

Python API for Kiwi. Contribute to bab2min/kiwipiepy development by creating an account on GitHub.

github.com

 

 

의미를 상실하지 않는 최소 단위로 쪼개는 것을 형태소 분석이라고 한다. 형태소 분석에서 품사도 붙일 수 있다.

 


 

 

 

 

 

 

기본 불용어를 가진 객체이다.

 

 

Kiwi API 사이트

 

kiwipiepy API documentation (v0.18.1)

Package kiwipiepy Kiwipiepy란? Kiwipiepy는 한국어 형태소 분석기인 Kiwi(Korean Intelligent Word Identifier)의 Python 모듈입니다. C++로 작성되었고 다른 패키지에 의존성이 없으므로 C++ 컴파일이 가능한 환경이라

bab2min.github.io

 


 

 

 

학습을 마치고

키위를 사용해서 불용어를 제거하고 의미없는 단어를 처리하는 실습을 진행해보았다. 전처리 작업에서 해야 할 게 참 많은 것 같다.

지금은 키위가 무엇인지 잘 모르겠지만 나중에 시간날 때 이 사이트와 API를 참고해보려고 첨부해보았다. 이어서 이모지를 제거하고 형태소를 분석하는 작업까지 진행해볼 것이다. 이제 오후 공부도 2시간이 조금 남지 않았다.

 

오후에는 집중력이 조금 떨어지기도 하고 빨리 수업이 끝났으면 하는 마음도 있다. 그래도 끝까지 열심히 공부해볼 것이다.