후기/기타
데이터분석 및 실습 기말고사 대비 정리
amy_
2023. 12. 12. 12:09
[표본이 크고 정규성 충족 시]
- 단일 모집단의 모평균에 대한 신뢰구간 추정과 검정: t.test()
- 단일 모집단의 모분산에 대한 신뢰구간 추정과 검정: chi-square test
- 단일 모집단의 모비율에 대한 신뢰구간 추정과 검정: prop.test()
[정규성 미충족 시]
- 단일 모집단 중심에 대한 비모수 검정: wilcox.test()
[정규성 여부 검정]
- 단일 모집단 분포의 정규성 검정 : shapiro.test(), qqnorm(), qqline()
## T 검정
t.test(data, alternative="grater", mu=95)
## 정규성 검증 (특정 변수가 정규성 분포를 띄는지)
shapiro.test(data$p) # p-value가 0.05보다 작다면 정규성을 띈다고 보기 어렵다.
qqnorm(data$p)
qqline(data$p)
# 정규분포 적합에 대한 그래프 분석도구로, 점들과 직선이 유사할 수록 정규분포를 띈다고 볼 수 있다.
## 카이제곱 검정
# 카잉제곱 독립성 검정
chisq.test(data)
# p-value가 0.05보다 작다면 귀무가설을 기각하고 그룹 간에 범주형 변수의 분포가 통계적으로 다르다고 판단할 수 있습니다.
# Sample data
observed <- c(10, 20, 30)
expected <- c(15, 15, 20)
# 카이제곱 적합도 검정
result <- chisq.test(observed, p = expected / sum(expected))
# p-value가 0.05보다 작다면 귀무가설을 기각하고 두 변수 사이에 통계적으로 유의한 관계가 있다고 판단할 수 있다.
# 그렇지 않다면, 두 변수는 독립적이라고 볼 수 있다.
## 집단이 3개 이상일 때 => one-way ANOVA
#aov(valu~group, data=data) # group을 연속형 변수로 인식
aov(valu~factor(group), data=data) # group이 범주형 변수 일 때 사용
oneway.test(value~group, data=dataT)
# p-value가 0.05보다 작다면 최소한 한 집단의 졸음횟수의차이는 유의한 것으로 볼 수 있다
## ANOVA 의 결과가 유의할 때 사후분석 진행
#scheffe.test(result, "gorup", console=T, main="Test")
scheffe.test(result, "factor(group)", console=T, main="Test")
## 회귀분석
lm(y~x, data=data) # 단일 회귀분석
lm(y~x1+x2+x3, data=data) # 다중 회귀분석
# 종속 변수가 이항 변수(0 또는 1)일 때 사용 => 로지스틱 회귀
glm(y~x1+x2, data=data, family = "binomial")
## 중위수 검정
male = subset(final_data, sex==1)$steps
female = subset(final_data, sex==2)$steps
wilcox.test(male, female)
# p-value = 0.003107 < 0.05보다 작으므로 귀무가설(두 그룹의 중위수가 같다)을 기각한다.
# 즉, 성별에 따른 걸음수의 중위수의 차이가 유의하다고 할 수 있다.
# 독립된 세 집단 이상의 중위수 비교
kruskal.test(list(group1, group2, group3))
# p-value가 0.05보다 작다면 세 그룹 간에 중위수에 통계적으로 유의한 차이가 있다고 판단할 수 있다.
## 등분산 검정
var.test(final_data$steps~final_data$sex)
# p-value = 0.8619 이므로 귀무가설을 기각하지 않음
# 분산은 동일하다고 볼 수 있다.