2025학년도 자연어처리
중간고사 이후부터 14주차에 제출할 학술대회 과제 수행 과제 대비 논문 크롤링
11개 중 6개 .head() .tail() .isnull.sum() .discribe() .shape() .info()
- 그림 9-6 결정 트리 제외 모든 칸 채우기
- KoNLPy
- 음절, 어절, 형태소
- CountVectorizer
- tfidf
- 결측치 확인 코드
- 결측치 처리 데이터 많을 때 적을 때
- 행 삭제 dropna
- 코드 과제
- 어간 추출로는 포터와 랭커스터
- 표제어 추출로는 word~
- 정규화: 모든 데이터가 동일한 정도의 범위를 갖도록 하는 것
- standardscale minmaxscale
- 임베딩: 자연어를 벡터로 변환하는 것
- 희소 표현 기반 임베딩 - 원핫 인코딩, word2vec
- 횟수기반 임베딩: tf-idf, 카운트벡터라이즈
- tf 뜻, df 뜻, idf, 공식(스무딩)
- CBOW
- 패스트텍스트 트랜스포머 한국어임베딩 제외
- 서포트 벡터 머신, 선형 회귀, 로지스틱, 시그모이드, mse, rse, 경사하강법, 활성화함수 4가지
- svm 코드 출제 / 코드 3중 1