일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- CSS
- 정보처리기사실기
- 파이썬
- 디버깅
- JSP/Servlet
- 머신러닝
- JSP
- 혼공머신
- 중학수학
- html/css
- 자바스크립트
- 자바 실습
- rnn
- 개발일기
- 컴퓨터구조
- ChatGPT
- 데이터베이스
- 상속
- 연습문제
- SQL
- JDBC
- 컴퓨터비전
- 자바스크립트심화
- c언어
- 자바
- 중학1-1
- 순환신경망
- 정보처리기사필기
- 딥러닝
- 데이터분석
- Today
- Total
목록텍스트마이닝 (14)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
이번에는 새 프로젝트로 유사도 분석이라는 것을 해볼 것이다. 단어 유사도 분석 실습해보기모든 거리를 좌표 공간 안에서 판단한다. 희소한 데이터란 숫자로 채워지지 않고 0으로 채워진 빈 데이터가 많은 것들을 말한다. 이런 데이터에서 유클리디언 공식을 사용하면 올바르지 못한 결과가 나타난다. BOW처럼 잘 동작하지 않기에 비슷한 feature로 맞추어주는 것이 좋다. A와 B의 차이를 구한다. 같은 단어를 빈도만 다르게 사용하는 단어가 더 유사한 단어일 가능성이 크다. 데이터의 크기보다는 방향성을 더 중시한다. 텍스트 마이닝에서는 코사인 유사도를 더 선호한다. 학습을 기반으로 구글에서 만든 워드 인베딩이다. 임베디드는 이식한다는 의미를 갖고 있다. 사과라는 단어를 떠올릴 때도 사람마다 생각하는..
오후에 2시 반이 다 되어 이제 다시 공부를 시작해본다. 가능하면 5시까지 마지막날 수업을 모두 듣고 정리해보려고 한다. 그리고 조금 쉬었다가 마지막 30분 조금 넘는 시간 동안은 엘리스로 머신러닝 4주차 학습을 진행할 것이다.지난 시간에 공부했던 베스트 모델 로딩부터 시작해볼 것이다. 텍스트 마이닝 응용 실습해보기텍스트 마이닝에서는 입력 특성에 단어가 들어간다. 해당 단어가 얼마나 가중치가 있는지 알아보는 것이다. 2034개의 단어가 얼마나 가중치가 있는지 분석하게 된다. 단어마다 인덱스가 딕셔너리 형태로 출력되고 있다. 리스트는 순서가 있지만 딕셔너리는 순번이 없다. 하지만 가중치는 0번부터 순서대로 나열이 되어 있으므로 이를 정렬해야 한다. 시각화로 나타내기단어가 너무 많아..
텍스트 마이닝 넷째날 마지막 교시 수업을 듣고 강의 내용을 정리해볼 것이다. 오늘 아침까지 이 수업까지 정리를 마쳤으면 했는데 목표를 대부분 달성할 수 있을 것 같다.요즘은 내가 세운 목표를 이루지 못하는 날이 별로 없었다. 내가 마음만 먹으면 무엇이든지 할 수 있는 사람임을 스스로 체험한 시간들이었다. 텍스트 마이닝 응용 실습해보기파이프라인을 구축해서 한번에 튜닝을 할 수 있도록 작업을 진행한다. 규제를 판단할 때 테스트 데이터 하나보다는 여러 개를 하는 것이 안정적이다. grid_prams는 모든 경우의 수를 다 돌려보는 것 이다. 252 조합을 확인한 후 이 중에 어떤 조합이 가장 괜찮은지 알려준다. 파이프라인으로 묶어주었기 때문에 오리지널 text 데이터를 넣어야 한다. 그리고 파이프라인을 ..
이제 넷째날 수업의 1교시 내용을 정리해보려고 한다. 0으로 많이 채워져있어서 별로 효율적이지 않다. 딥러닝에서는 이런 점 때문에 활용하지 않는다. 1만 5천 개의 리뷰를 모두 쓰는 것은 좋지 않다. 어쩌다 사용하는 오타는 횟수가 적어 불필요한 단어 토큰이 된다.빈도가 낮은 단어는 부피만 차지하고 분석에 별로 도움은 되지 않는다. 따라서 분석에 유용한 단어만 추출해서 사용하는 것이 좋다.이 코드에 옵션을 넣어보자. 모두 다 사용하는 단어는 분석에 별 도움이 안되니 제거한다. 주로 max보다는 min을 사용할 때 범위가 확 줄게 된다. 바이그램으로 묶자 2개씩 적용이 되고 있다. 유니에서 바이까지 모두 적용하고 불용어도 등록했다. 약 58%의 점수가 나오는데 성능은 썩 좋지는 않지..
이제 지난 시간에 조금 진행하다 말았던 응용 실습을 주피터 노트북으로 진행해볼 것이다. 텍스트마이닝 응용 실습해보기코랩으로 만들었던 파일을 로딩하며 지금까지 작업했던 내용을 출력해본다. 반복되는 표현들을 모두 제거해주었다. 중복되는 단어를 제거하여 확인한 후 단어사전을 구축한다. 가나다 순으로 번호를 부여한 것이다. 이제 25개의 구축된 단어사전을 가지고 컬럼으로 구축하게 된다. 첫번째 문장에서 이 단어가 등장했는지 횟수를 표시한다. 등장했으면 1, 등장하지 않았다면 0으로. 원핫 인코딩과 비슷하지만 단어의 등장 횟수가 증가하면 2가 된다. 위치 정보를 담지 않기 때문에 문맥을 파악에는 적합하지 않다. 패턴을 추출하기에 나름 가치가 있는 방법이 BOW이다. 학습을 마치고이렇..
오늘 새벽 공부 시간에 1시간 정도 텍스트 마이닝 공부를 했었다. 이제 아침 공부 시간에 이어서 진행해볼 것이다. 오늘 아침 11시까지 텍스트 마이닝 셋째날 수업을 모두 학습하고 정리한 후에 나머지 2시간은 넷째날 수업 2/3이상을 학습 정리해볼 것이다.그런 다음에 오후에 넷째날 수업과 마지막날 수업 절반 이상을 완료하고, 저녁 공부 시간에는 정처기 실기공부를 해볼 것이다. 5섹션 이상까지는 학습을 마쳐야지. 그리고 내일 새벽까지 머신러닝 공부를 모두 마치는 것이 목표이다. 그럼 오늘의 공부를 시작해보자! 코랩으로 텍스트 마이닝 응용 실습해보기 테스트 데이터도 이모지 제거 후 매캅으로 형태소 분석기를 돌렸다. 전체 1만 5천개의 리스트가 있고, 리스트 안에는 한 문장을 형태소 단위로 쪼갠 것들이 들..
이제 오후 공부 마지막 시간이다. 텍스트 마이닝 기초 수업이 끝났고 이제 응용에 들어가려고 한다. 텍스트 마이닝 응용 실습해보기 군산대학교에서 한국어 세종 딕셔너리라는 이름으로 좋음에 해당되는 것과 싫음에 해당되는 감성 분석을 분류했다. 감성 사전을 이용한 분석은 전통적으로 사용하던 방식이다. 먼저 감성 사전에 해당 단어가 있는지 없는지 판별하고, 단어의 긍정 부정에 따라 점수를 부여한다.최근에는 사람들이 사용하는 단어가 다양하다보니 인공지능 기술을 사용해 분석한다. 어떤 문장이나 단어에서 긍정, 부정적 느낌에 대한 라벨링을 진행한다. 그런 다음 인공지능 모델을 통해 학습을 한후 분석하는 방식을 말한다. 우리는 case2를 진행해볼 것이다. 데이터는 한국어 혐오 표현 그대로 할 것이다. 데이터 준비..
이제 불용어 처리는 마쳤고 이모지를 제거하고 형태소 분석을 실습을 진행하려고 한다. 이모지 제거하기 조금 전에 불용어 처리한 단어를 형태소로 분석해본다. 형태소 분석기 품사 태그 GitHub - bab2min/Kiwi: Kiwi(지능형 한국어 형태소 분석기)Kiwi(지능형 한국어 형태소 분석기). Contribute to bab2min/Kiwi development by creating an account on GitHub.github.com 너무 많아서 이 정도만 소개해본다. 이중에서 우리는 일반 명사, 동사, 형용사를 필터링해볼 것이다. 이 실습은 혼자서 진행해보라고 과제로 내주셨다. 지금은 말고 나중에 하고 싶을 때 해봐야겠다. 지금은 수업만 듣는 것도 버겁다. ..
한 달 전에 수업했던 내용인데 이제 공부해보고 있다. 그때는 아직 필요성을 느끼지 못했기 때문이다. 웹 크롤링도 공부해야 하는데 언제 다 할까 싶다. 이것도 딥러닝처럼 한 이틀 시간을 내서 가능하면 9월 안에 공부를 마치는 것이 좋을 것 같다. 컴퓨터 비전 일주일 동안 공부한 후에 크롤링 학습을 진행하면 될 것 같다.텍스트 마이닝 수업을 하는 중에 쁘띠 프로젝트라고 팀별로 작은 프로젝트를 하나 작업하고 발표하는 시간을 가졌었다. 하지만 난 선생님에 팀에 딱 한번 넣어준 후로(그것도 3주에 불과했지만) 이전에도 이후에도 팀이 언제나 없는데다 수업도 듣지 않아서 참여하지 않았다. 가끔은 선생님이 나를 너무 소외시키는 건 아닌가 하는 생각을 한다. 하지만 뭐든 좋은 점이 있으면 그렇지 않는 점도 존재한다. 오..
점심을 먹고 2시 반이 조금 넘어서 다시 오후 공부를 시작해본다. 점심 시간에 공부를 좀더 하느라 늦게 출발을 한데다 점심 때 영어 공부를 식사하며 했더니 평소보다 인사교에 늦게 도착했다. 난 어딜가든 선생님들이 자유롭게 풀어주는 편이라 규율에 얽매이지 않아서 정말 감사하다.이제 다시 오후 공부를 시작해볼 것이다. 혐오 표현 클라우드 실습을 진행해볼 차례이다. 한국어 혐오 표현 실습해보기 세번째 다른 분류를 보고 싶다면 이름만 바꾸어주면 된다. 먹다, 먹는다, 먹었다 등 모든 것이 먹는 행위이니 먹만 추출할 수 있다. 문장 부호와 같은 단어의 중복을 제거할 것이다. 손쉽게 할 수 있는 방법으로 정규 표현식을 사용해본다. 이것은 파이썬뿐 아니라 자바, 자바스크립트 등 많은 언어에서 지원..