Repository files navigation
0주차(2021-06-16)
1주차(2021-06-23)
발표 주제
김기찬 : 도커 사용이유와 사용방법
김예지 : 다양한 데이터에 따른 효과적인 표현방법
최진영 : 빅데이터 이용된 마케팅 사례
전체적인 데이터 엔지니어/사이언티스트 흐름을 파악하기로 함
다음 주제는 데이터 엔지니어 로드맵 전체 흐름 발표
2주차(2021-06-30)
발표 주제
김기찬 : 데이터 엔지니어 로드맵 전체 흐름
김예지 : 데이터 엔지니어 로드맵 중 커맨드라인, api
최진영 : 현직 데이터 엔지니어 하는 일 스크랩, 데이터 엔지니어 로드맵 중 encryption
전체적인 흐름을 보기에는 배경지식이 너무 많이 필요하여 세부적인 내용 하나씩 조사하기로 함
3주차(2021-07-07)
발표 주제
김기찬 : Docker-compose를 사용해서 MySQL, python 연동 시켜서 실제로 사용하는 법
김예지 : Neo4j 사용법
4주차(2021-07-14)
발표 주제
김기찬 : Hadoop 설치 및 HDFS실행
김예지 : neo4j 예제 돌려서 장점 확인해보기
새로운 멤버 합류
5주차(2021-07-21)
발표 주제
김기찬 : Hadoop Map Reduce
김예지 : neo4j를 docker로 돌려보기
김현용 : Mongo 쓰는 방법
6주차(2021-07-28)
발표 주제
김기찬 : Hadoop 3.3.1의 새로운 특징과 Hadoop세팅변수설정, HDFS의 목표점과 NameNode, DataNode의 역할
김예지 : 추천시스템(협업필터링과 콘텐츠 기반 필터링정리).Neo4j와 Cyper를 사용해 콘텐츠 기반 필터링 영화 추천 모델 예제수행
Content-based filtering 모델을 간단하게 만들어보았고 Neo4j의 장점인 노드와 노드 사이의 연결을 그래프로 직관적이게 시각화 수행함.
다른 Nosql과 비교했을 때는 아직까지는 시각화의 장점만 보임.
김현용 : RDBMS와 비교한 MongoDB의 기본개념 정리. MongoDB 환경설정 및 CRUD 데이터핸들링
7주차(2021-08-04)
발표 주제
김예지 : style.grass이용해 그래프 스타일 설정 변경/ Similarity Metrics(Cosine,Pearson similarity)을 이용한 쿼리문으로 추천영화 예제
김기찬 : kafka와 spark의 차이, kafka 실행 예제
김현용 : docker container를 이용한 MongoDB 샤딩 환경 세팅
새로운 멤버 합류
발표시간은 20분으로 줄이기
8주차(2021-08-08)
발표 주제
김예지 : Neo4j 내부 graph application인 Neo4j Bloom과 Neo4j Dash 소개
김기찬 : kafka cluster 구축 및 기능 테스트
김현용 : ip주소, port번호, protocol 기본 정리
장현석 : ELK 설명& ELK 구성 및 원격서버 파일비트 설치후 테스트
9주차(2021-08-18)
발표 주제
김예지 : Neo4j에서 ShortestPath 알고리즘 사용 예제와 Neo4j Graph Data Science Library 사용 방법 소개
김기찬 : SparkStreaming의 사용방법(StreamingContext, SparkSession) 및 적용
김현용 : Kafka, MongoDB 파이썬 기반 메시지 스트리밍
장현석 : 메트릭비트란? 간단한 설치와 모니터링 구축
10주차(2021-08-25)
발표 주제
김예지 : neo4j를 이용하여 초파리의 뇌지도(Connectome) 구현한 neuPrint 소개
김기찬 : Java 객체지향이론 및 Spring 튜토리얼
김현용 : DE 직무 자격요건 및 우대사항 정리
장현석 : Hadoop, Spark cluster 구성 및 yarn submit 실행 및 spark cluster 구동방식 비교
11주차(2021-09-01)
발표 주제
김기찬 : 스마트카 빅데이터 파이프라인 시뮬레이션 방법론 및 버츄얼박스 세팅
김현용 : Apache Airflow 기본개념정리
장현석 : 쿠버네티스 설명 & kubeadm 으로 클러스터 구성하기
12주차(2021-09-13)
발표 주제
김기찬 : cloudera manager cluster 구축을 위한 사전준비 및 cloudera manager standalone탐방
장현석 : Helm 이란 & Helm 을 이용한 elk stack k8s 배포
추석 있는 주는 스터디 없음
13주차(2021-09-27)
발표 주제
김기찬 : cloudera manager 분석 및 데이터파이프라인 하둡 설치
장현석 : 주차수요 예측 경진대회 notebook 발표
스터디 주기를 1주에서 2주로 늘림
1주 지나면 슬랙에 중간보고
14주차(2021-10-13)
발표 주제
김기찬 : 데이터파이프라인 세팅(수집 단계)
장현석 : Spark&Hadoop Web UI 확인법& Pycharm으로 원격서버 pyspark 연동
15주차(2021-10-27)
발표 주제
김기찬 : 면접 대비 하둡, DB 중요내용
장현석 : Python으로 hadoop 데이터 다루기(Pyarrow) & parquet 데이터
16주차(2021-11-14)
발표 주제
김기찬 : 면접 대비 web, spark 내용
장현석 : 스파크 구조적 API & 미분배로그 간단 EDA
17주차(2021-11-24)
발표 주제
김기찬 : 면접 대비 backend 기본용어들
장현석 : openstack api 를 이용한 migration 실행 및 평균소요시간 계산
내년 1월부터는 지치지 않고 꾸준히 진행하기 위해 1달간격으로 스터디를 하자
조사할 데이터 및 개발 관련된 주제를 각자 정하고 글을 남겨서 적절한 주제인지 서로 검토한다
데이터 엔지니어 로드맵, 데이터 사이언티스트 로드맵에 있는 것과 무조건 연관시켜서
2주정도 기간동안 조사하고 정리한다(+절반되는 기간에 slack에 지금까지 한 것 공유)
발표자료(마크다운)와 코드등을 올린다
한 사람당 10분~20분을 가진다
반복
모이는 날 참여 불가능하면 미리 말하기(단, 경조사 등이 아니라 단순히 준비하기 싫어서는 안됨)
무단으로 불참하면 스터디 제외
자료(발표자료, 정리자료, 코드 등)는 발표전에 깃에 올리기
발표자료는 markdown
질의응답 때 시간이 너무 오래걸리거나 중요도가 낮은 질문에 대해선 발표자 재량으로 넘어갈 수 있다.
발표주제는 단순히 수업내용을 복습하는 것은 안된다(새로운 것이어야 함)
발표가 끝나고 나서 각자 발표한 주제를 각자 정리해서 보내주기
각자 발표가 끝난 후 Q&A 질문이나 피드백 하나 이상 하기
git convention 통일
날짜 | 한글로 명확한 제목
210728 | 6번째 회의록
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
You can’t perform that action at this time.