ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터분석 및 실습 기말고사 대비 정리
    후기/기타 2023. 12. 12. 12:09

    [표본이 크고 정규성 충족 시]

    • 단일 모집단의 모평균에 대한 신뢰구간 추정과 검정: t.test()
    • 단일 모집단의 모분산에 대한 신뢰구간 추정과 검정: chi-square test
    • 단일 모집단의 모비율에 대한 신뢰구간 추정과 검정: prop.test()

    [정규성 미충족 시]

    • 단일 모집단 중심에 대한 비모수 검정: wilcox.test()

    [정규성 여부 검정]

    • 단일 모집단 분포의 정규성 검정  : shapiro.test(), qqnorm(), qqline()
    ## T 검정
    t.test(data, alternative="grater", mu=95)
    
    ## 정규성 검증 (특정 변수가 정규성 분포를 띄는지)
    shapiro.test(data$p) # p-value가 0.05보다 작다면 정규성을 띈다고 보기 어렵다.
    qqnorm(data$p)
    qqline(data$p)
    # 정규분포 적합에 대한 그래프 분석도구로, 점들과 직선이 유사할 수록 정규분포를 띈다고 볼 수 있다.
    
    ## 카이제곱 검정
    # 카잉제곱 독립성 검정
    chisq.test(data) 
    # p-value가 0.05보다 작다면 귀무가설을 기각하고 그룹 간에 범주형 변수의 분포가 통계적으로 다르다고 판단할 수 있습니다.
    # Sample data
    observed <- c(10, 20, 30)
    expected <- c(15, 15, 20)
    # 카이제곱 적합도 검정
    result <- chisq.test(observed, p = expected / sum(expected))
    # p-value가 0.05보다 작다면 귀무가설을 기각하고 두 변수 사이에 통계적으로 유의한 관계가 있다고 판단할 수 있다.
    # 그렇지 않다면, 두 변수는 독립적이라고 볼 수 있다.
    
    ## 집단이 3개 이상일 때 => one-way ANOVA
    #aov(valu~group, data=data) # group을 연속형 변수로 인식
    aov(valu~factor(group), data=data) # group이 범주형 변수 일 때 사용
    oneway.test(value~group, data=dataT)
    # p-value가 0.05보다 작다면 최소한 한 집단의 졸음횟수의차이는 유의한 것으로 볼 수 있다
    
    ## ANOVA 의 결과가 유의할 때 사후분석 진행
    #scheffe.test(result, "gorup", console=T, main="Test")
    scheffe.test(result, "factor(group)", console=T, main="Test")
    
    ## 회귀분석
    lm(y~x, data=data) # 단일 회귀분석
    lm(y~x1+x2+x3, data=data) # 다중 회귀분석
    # 종속 변수가 이항 변수(0 또는 1)일 때 사용 => 로지스틱 회귀
    glm(y~x1+x2, data=data, family = "binomial")
    
    ## 중위수 검정
    male = subset(final_data, sex==1)$steps
    female = subset(final_data, sex==2)$steps
    wilcox.test(male, female)
    # p-value = 0.003107 < 0.05보다 작으므로 귀무가설(두 그룹의 중위수가 같다)을 기각한다.
    # 즉, 성별에 따른 걸음수의 중위수의 차이가 유의하다고 할 수 있다.
    # 독립된 세 집단 이상의 중위수 비교
    kruskal.test(list(group1, group2, group3))
    # p-value가 0.05보다 작다면 세 그룹 간에 중위수에 통계적으로 유의한 차이가 있다고 판단할 수 있다.
    
    ## 등분산 검정
    var.test(final_data$steps~final_data$sex)
    # p-value = 0.8619 이므로 귀무가설을 기각하지 않음
    # 분산은 동일하다고 볼 수 있다.
    

    댓글

Designed by Tistory.