Skip to content

sungalex/nlp

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

378 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

IPA 인공지능센터 "고급(언어지능) 과정 1기" 스터디 자료

한국IT비즈니스진흥협회 인공지능센터의 AI Expert 교육 과정 중 언어지능 분야 교육 내용을 정리한 자료 입니다.

목차

  1. 자연어처리 소개 및 분석과정 (자료)
  2. 비정형 데이터 - HTTP, Urllib, Requests (자료1) (자료2) (Code)
  3. 특강 - git Advanced (자료1) (자료2)
  4. Cookie / Session (자료) (Code는 2강 Code의 끝부분 참조)
  5. 웹 크롤링 - DOM (자료1) (자료2) (Code)
  6. 웹 크롤링 - Selector (자료1) (자료2) (Code)
  7. 웹 스크래핑 - 정적 콘텐츠 (자료1) (자료2) (Code)
  8. 웹 스크래핑 - 동적 콘텐츠 (자료1) (자료2) (Code)
  9. 프로젝트1 - 네이버 뉴스 기사 scraping (자료) (Code)
  10. 토큰화 - 문단, 문장, 어절, 정규식 (자료1) (자료2) (Code)
  11. 토큰화 - Ngram, WPM (자료1) (자료2) (Code)
  12. 불용어 - 구두점, Stopwords (자료1) (자료2) (Code)
  13. 형태소분석-POS_Taggers, 구문분석-구/연어/시각화 (자료1) (자료2) (Code)
  14. 형태소분석-구문분석-구/연어/시각화, 정보검색-색인 기법 (자료1) (자료2) (Code1) (Code2)
  15. 정보검색 - 색인 기법 (자료1) (자료2) (자료3) (Code)
  16. 특강 - 자연어 처리 및 의료인공지능 개발 (자료) (Code)
  17. 정보검색 - 색인 기법(계속) (자료1) ((자료2) (Code)
  18. 정보검색 - 가중치 기법, 벡터 공간 모델 (자료1) ((자료2) Code)
  19. 정보검색 - 유사도 판별, 순위화 (자료) (Code)
  20. 프로젝트 비정형 데이터를 이용한 검색엔진 (Code)
  21. 특강 - 딥러닝 활용사례 및 실습 (Tensorflow) (자료) (Code)
  22. 문서분류 - kNN (Code)
  23. 프로젝트 뉴스 자동 분류(카테고리 분류) (Code)
  24. 문서분류 - 나이브 베이즈 (Code)
  25. 프로젝트 스팸 자동 분류 (Code)
  26. 특강 - 딥러닝을 이용한 금융서비스 사례 / 음성인식 개요 및 사례 (Code)
  27. 성능평가 - 정확율, 재현율, F-Measure (Code)
  28. 프로젝트 - 스팸자동분류 성능평가 (Code)
  29. 군집화 - KMeans (Code)
  30. 군집화 - 어휘 클러스터, 시각화 (Code1) (Code2)
  31. 특강 - 영상인식 사례, 딥러닝 실습 (Code1) (Code2)
  32. 토픽분석 - LSA_SVD (자료2) (자료2) (Code)
  33. 토픽분석 - LDA (자료) (Code, 코드 없이 markdown/LaTex으로 만들어진 설명자료 만 포함하고 있음)
  34. 휴강
  35. 토픽분석 - SVD, LDA 실습 (자료) (Code1) (Code2)
  36. 특강 - 항공산업 미래기술 예측, 자연어처리 특허 가치 및 평가, 바이오 정보 검색 (Code)
  37. 감성분석 - 감성사전 (Code1) (Code2)
  38. 감성분석 - PMI(Pointwise Mutual Information), SO(Semantic Orientation) (자료1) (자료2) (Code)
  39. 단어 임베딩 (자료) (Code)
  40. 영화리뷰 분석 코드 리뷰, 최종평가 (Code1) (Code2)

functions

강의에서 사용한 명령을 함수로 구현해서 재사용할 수 있도록 정리했습니다. functions 폴더에 모듈 형태로 구현하고, jupyter notebook에서 기능을 테스트 했습니다.

  1. download.py : requests 패키지를 이용한 웹 페이지 다운로드 함수들
    • getDownload(url, params, headers, retries): requests.get() 호출 후 Response 객체를 return
    • postDownload(url, data, headers, retries): requests.post() 호출 후 Response 객체를 return
  2. search.py : 4대 포탈에서 키워드 검색 후 title과 url을 추출 하는데 도움되는 함수들
  3. crawling.py : crawling에 필요한 함수들(TBD)
    • getUrls(link, depth): link 페이지에 포함된 url과 depth를 dictionary 형태로 반환
  4. ppomppu.py : 뽐뿌게시판 scraping에 필요한 함수들
  5. naver.py : naver 뉴스 기사 scraping에 필요한 함수들
  6. nlp/ngram.py : N-gram 함수 구현 => ngramEojeol(), ngramUmjeol() 함수
  7. nlp/wpm.py : WPM 구현 => split_terms(), find_ngram(), merge_ngram() 함수
  8. info_retrieval.py : 정보검색 관련 함수
  9. test/download_module_test.ipynb : download.py에 정의한 함수 테스트
  10. test/portal_title_and_url_retrieve_test.ipynb : search.py에 정의한 함수 테스트
  11. test/ppomppu_Poomppu_class_test.ipynb : ppomppu.py에 정의한 Ppomppu class 테스트
  12. test/ppomppu_Freeboard_class_test.ipynb : ppomppu.py에 정의한 PpomppuFreeboard class 테스트
  13. test/naver_news_scraping_test.ipynb : naver.py에 정의한 NewsScraping class 테스트
  14. test/information_retrieval_test.ipynb : info_retrieval.py에 정의한 함수 테스트
  15. test/mail_sraping_test-naver_mail-gmail.ipynb : mail scraping 기능 테스트

About

IPA 인공지능센터 "고급(언어지능) 과정 1기" 스터디 자료

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors