클라이언트/ 서버/ 엔지니어 " 게임 개발자"를 향한 매일의 공부일지

텍스트 마이닝 3 - 텍스트 마이닝 기초 실습 3 : 정규 표현식을 이용한 전처리 작업 본문

인공지능/머신러닝

텍스트 마이닝 3 - 텍스트 마이닝 기초 실습 3 : 정규 표현식을 이용한 전처리 작업

huenuri 2024. 9. 19. 15:22

점심을 먹고 2시 반이 조금 넘어서 다시 오후 공부를 시작해본다. 점심 시간에 공부를 좀더 하느라 늦게 출발을 한데다 점심 때 영어 공부를 식사하며 했더니 평소보다 인사교에 늦게 도착했다. 난 어딜가든 선생님들이 자유롭게 풀어주는 편이라 규율에 얽매이지 않아서 정말 감사하다.

이제 다시 오후 공부를 시작해볼 것이다. 혐오 표현 클라우드 실습을 진행해볼 차례이다.


 

 

 

한국어 혐오 표현 실습해보기 세번째

 

 

 

 

 

 

 

다른 분류를 보고 싶다면 이름만 바꾸어주면 된다.


 

 

 

먹다, 먹는다, 먹었다 등 모든 것이 먹는 행위이니 먹만 추출할 수 있다.


 

 

문장 부호와 같은 단어의 중복을 제거할 것이다. 손쉽게 할 수 있는 방법으로 정규 표현식을 사용해본다. 이것은 파이썬뿐 아니라 자바, 자바스크립트 등 많은 언어에서 지원하는 방식이다.

 

정규 표현식 설명 사이트

 

02-05 정규 표현식(Regular Expression)

텍스트 전처리에서 정규 표현식은 아주 유용한 도구입니다. 이번에는 파이썬에서 지원하고 있는 정규 표현식 모듈 re의 사용 방법과 NLTK를 통한 정규 표현식을 이용한 토큰화에 대…

wikidocs.net

 

 

 

 

 

 

모듈 함수를 사용하는데 보통 search, split, sub 중에 하나를 사용한다.

 

 

앞의 글자가 최소 한 번 이상 들어갈 때 검출할 수 있는 패턴을 생성했다.


 

단어 거르기

 

한 글자 단어는 정보를 얻기가 어려워 제거하는 것이 좋다.

 

 

 

 

이렇게 한 글자 단어도 제거하는 작업을 진행했다.

 


 

학습을 마치고

점심을 먹고 나니 정말 졸렸지만 그래도 공부를 끝까지 마쳐보았다. 정규 표현식이라는 새로운 문법을 하나 배웠고 단어를 어떻게 전처리를 하여 추출하는지도 배울 수 있었다.

앞에 선생님이 소개해주신 사이트에 들어가보니 정규 표현식 외에도 유용한 정보들이 많아 나중에 시간이 날 때 한번 둘러보면 좋을 것 같았다. 깃 허브도 잘 이용하면 좋겠지만 난 아직 이곳에 자료를 올리는 것이 익숙하지 않고 사용법도 잘 모르는 편이다.

 

다음이 이 부분도 언제 공부를 할 예정이다. 두 달 전에 아주 조금 공부하다 말았지만 한달 쯤 후에 한번 공부해볼까 한다.