일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 딥러닝
- 파이썬라이브러리
- pandas
- numpy/pandas
- 자바 실습
- 정보처리기사필기
- 자바
- JSP/Servlet
- 영어공부
- 중학1-1
- 머신러닝
- 컴퓨터비전
- SQL
- 데이터분석
- 혼공머신
- 컴퓨터구조
- CNN
- 정수와유리수
- 코딩테스트
- 데이터베이스
- html/css
- C++
- CSS
- 정보처리기사실기
- 운영체제
- 파이썬
- 연습문제
- 중학수학
- 텍스트마이닝
- 데이터입출력구현
- Today
- Total
목록2024/09/20 (15)
클라이언트/ 서버/ 엔지니어 "게임 개발자"를 향한 매일의 공부일지
이제 넷째날 수업의 1교시 내용을 정리해보려고 한다. 0으로 많이 채워져있어서 별로 효율적이지 않다. 딥러닝에서는 이런 점 때문에 활용하지 않는다. 1만 5천 개의 리뷰를 모두 쓰는 것은 좋지 않다. 어쩌다 사용하는 오타는 횟수가 적어 불필요한 단어 토큰이 된다.빈도가 낮은 단어는 부피만 차지하고 분석에 별로 도움은 되지 않는다. 따라서 분석에 유용한 단어만 추출해서 사용하는 것이 좋다.이 코드에 옵션을 넣어보자. 모두 다 사용하는 단어는 분석에 별 도움이 안되니 제거한다. 주로 max보다는 min을 사용할 때 범위가 확 줄게 된다. 바이그램으로 묶자 2개씩 적용이 되고 있다. 유니에서 바이까지 모두 적용하고 불용어도 등록했다. 약 58%의 점수가 나오는데 성능은 썩 좋지는 않지..
이제 지난 시간에 조금 진행하다 말았던 응용 실습을 주피터 노트북으로 진행해볼 것이다. 텍스트마이닝 응용 실습해보기코랩으로 만들었던 파일을 로딩하며 지금까지 작업했던 내용을 출력해본다. 반복되는 표현들을 모두 제거해주었다. 중복되는 단어를 제거하여 확인한 후 단어사전을 구축한다. 가나다 순으로 번호를 부여한 것이다. 이제 25개의 구축된 단어사전을 가지고 컬럼으로 구축하게 된다. 첫번째 문장에서 이 단어가 등장했는지 횟수를 표시한다. 등장했으면 1, 등장하지 않았다면 0으로. 원핫 인코딩과 비슷하지만 단어의 등장 횟수가 증가하면 2가 된다. 위치 정보를 담지 않기 때문에 문맥을 파악에는 적합하지 않다. 패턴을 추출하기에 나름 가치가 있는 방법이 BOW이다. 학습을 마치고이렇..
오늘 새벽 공부 시간에 1시간 정도 텍스트 마이닝 공부를 했었다. 이제 아침 공부 시간에 이어서 진행해볼 것이다. 오늘 아침 11시까지 텍스트 마이닝 셋째날 수업을 모두 학습하고 정리한 후에 나머지 2시간은 넷째날 수업 2/3이상을 학습 정리해볼 것이다.그런 다음에 오후에 넷째날 수업과 마지막날 수업 절반 이상을 완료하고, 저녁 공부 시간에는 정처기 실기공부를 해볼 것이다. 5섹션 이상까지는 학습을 마쳐야지. 그리고 내일 새벽까지 머신러닝 공부를 모두 마치는 것이 목표이다. 그럼 오늘의 공부를 시작해보자! 코랩으로 텍스트 마이닝 응용 실습해보기 테스트 데이터도 이모지 제거 후 매캅으로 형태소 분석기를 돌렸다. 전체 1만 5천개의 리스트가 있고, 리스트 안에는 한 문장을 형태소 단위로 쪼갠 것들이 들..
이제 오후 공부 마지막 시간이다. 텍스트 마이닝 기초 수업이 끝났고 이제 응용에 들어가려고 한다. 텍스트 마이닝 응용 실습해보기 군산대학교에서 한국어 세종 딕셔너리라는 이름으로 좋음에 해당되는 것과 싫음에 해당되는 감성 분석을 분류했다. 감성 사전을 이용한 분석은 전통적으로 사용하던 방식이다. 먼저 감성 사전에 해당 단어가 있는지 없는지 판별하고, 단어의 긍정 부정에 따라 점수를 부여한다.최근에는 사람들이 사용하는 단어가 다양하다보니 인공지능 기술을 사용해 분석한다. 어떤 문장이나 단어에서 긍정, 부정적 느낌에 대한 라벨링을 진행한다. 그런 다음 인공지능 모델을 통해 학습을 한후 분석하는 방식을 말한다. 우리는 case2를 진행해볼 것이다. 데이터는 한국어 혐오 표현 그대로 할 것이다. 데이터 준비..
한 단계의 문제를 모두 풀면 오답노트를 올리고 있다. 어제는 문제를 다 풀지 못해서 학습일지를 올리지 못하고 오늘 새벽에 올려본다. 이번주부터 매일 새벽 공부 시간에 수학 1시간, 영어 30분을 공부하고 있다. 사실 오늘 새벽부터 정보처리기사 실기시험 공부를 하려고 했는데 그래도 이 시간만큼은 꼭 투자하기로 다짐했기에 아까워하지 않기로 했다.매일 수학 공부하는 이 1시간이 얼마나 기쁘고 행복한지 모른다. 모두 작년에 풀었던 문제이지만 틀렸던 문제는 이상하게도 또 틀린다. 오답노트를 정리하며 확실히 내 것으로 만들어볼 것이다. 에이급 수학 STEP B 내신만점 문제 풀기 지난 3일에 걸쳐 푼 문제이다. 문제가 정말 어려워서 하루에 다 풀지 못했고..