본문 바로가기 메뉴 바로가기

Connecting dots via Data

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

Connecting dots via Data

검색하기 폼
  • 분류 전체보기 (44)
    • 책 논문 읽기 (1)
    • 데이터 분석 (39)
      • 전처리 (8)
      • 생물 및 의료 데이터 (13)
      • 확률 통계 (10)
      • 딥러닝 (7)
      • 인과추론 (DAG) (1)
    • 데이터 베이스 (0)
      • 지식 그래프 (Knowled.. (0)
      • Neo4j (0)
      • SQL \ NoSQL (0)
    • 프로그래밍 (4)
      • 리눅스 (2)
      • Trouble shootin.. (2)
    • 의사 결정을 위한 데이터 통.. (0)
      • 인간 지능 (Human Co.. (0)
      • 인공 지능 (Artifici.. (0)
  • 방명록

전체 글 (44)
결손값 처리

1. NAN 값 처리(제거, 변경, 평균값 대체) SQL> SELECT * table WHERE weight is not NULL COALESCE(weight, 1) AS weight, x FROM table COALSCE(weight, SELECT AVG(weight) FRM table)) AS weight R> table %>% drop_na(weight) 또는 na.omit(table) table %>% replace_na(list(weight=1)) 2. PMM(predictive mean matching) 방법 - 값이 있는 데이터에서 회귀 모델 구성 -> 계수, 오차의 분포 계산 -> 계수와 오차의 분포에서 새로운 계수와 오차 분산 생성 -> 생성한 계수와 오차 분산에 따른 회귀모델로 예측값 ..

데이터 분석/전처리 2023. 12. 22. 16:52
정규화

정규화의 두 가지 방법 1. z-score: 입력값-평균값/표준편차 2. min-max: 입력값-최소값/(최대값-최소값) table %>% mutate(a_normalized = scale(a, center=TRUE, scale=TRUE) # TURE: center 및 scale에 지정한 값이 평균과 분산값으로 지정됨(0, 1) from sklearn.preprocessing import StandardScaler table['x'] = table['x'].astype(float) s = StandardScaler() result = s.fit_transform(table[['x']]) table['normed'] = [x[0] for x in result]

데이터 분석/전처리 2023. 12. 22. 16:30
오버샘플링 기법

k값을 설정하여 1~k 정수값(균일분포)에서 랜덤하게 n을 설정한 후, n에서 가까운 데이터를 새롭게 선택하여 생성하는 방식으로 지정한 데이터에 도달할 때 까지 반복 library(unbalanced) library(tidyverse) x % filter(x==T) %>% summarise(x=n()) f % filter(x==F) %>% summarise(y=n()) pv % select(length, weight, x)

데이터 분석/전처리 2023. 12. 22. 16:09
SQL, R 전처리 함수 모음

1. 데이터 열추출 SQL> SELECT id AS new_id (id를 추출하여 new_id로) FROM table R> library(dplyr) select(x_id, y_id, z_id) %>% as.data.frame() 2. 조건에 따른 행추출 SQL> SELECT * FROM table WHERE date BETWEEN '2023-12-1' AND '2023-12-31' R> table[intersect(which(table$date >= '2023-12-1'), which(table$date % filter(between(as.Date(date), as.Date('2023-12-1'), as.Date('2023-12-31'))) 3. 샘플링 SQL> SELECT * FROM table WH..

데이터 분석/전처리 2023. 12. 22. 15:56
psychopy PTB-ERROR 해결

실험을 위한 자극 제시에 매우 유용한 프로그램인 psychopy. 최근에 실험을 하나 하게 되어서 매우 오래간만에 psychopy를 사용했다. 그런데 내 컴퓨터와 노트북으로는 잘 돌아가던 프로그램이 실험실에 설치한 PC에서는 에러가 나는 것. 사운드 드라이버의 sampling rate와 psychopy의 sampling rate가 안맞아서 나는 현상. 이게 좀 옛날 PC라 그런건지 모니터 사운드라 그런건지, 일단 사운드 드라이버를 Relatek High Definition Audio로 다시 받고, psychopy 설정 > audio > pygame으로 바꿔주었다. preferences에서 hardware > Audio Device를 바꿔보려 하였으나, reset되는 현상때문에 Builder에서는 실패하고..

프로그래밍/Trouble shootings 2023. 7. 18. 18:42
이전 1 2 3 4 ··· 9 다음
이전 다음
공지사항
최근에 올라온 글
  • 결손값 처리
  • 정규화
  • 오버샘플링 기법
  • SQL, R 전처리 함수 모음
  • psychopy PTB-ERROR 해결
최근에 달린 댓글
  • 좋은 글 잘 읽었습니다!!
  • 좋은 정보 잘 보고 갑니다 감사합니다!!
  • 포스팅 잘 읽고 갑니다 :)
  • 글 정말 잘 쓰시네요!! 잘 보고 갑니다 ㅎㅎ
Total
3,088
Today
0
Yesterday
3
링크
TAG
  • ECG
  • 실험통계
  • SNP
  • PTB
  • sequenced data
  • missing_value
  • 생존함수
  • NGS
  • fasta
  • pre-train
  • 인공지능
  • Bioinfo
  • GPU설치
  • featuremap
  • rgb2gray
  • plink
  • r
  • psychopy
  • 생존분석
  • 그룹비교
  • HRV
  • 딥러닝
  • 생존곡선
  • cnn
  • GradCam
  • gray2rgb
  • vcf
  • 평균분석
  • sounddevice
  • pmm
more
«   2026/04   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바