![]() |
---|
추론 통계학, Source: lumenlearning |
추론 통계학은 다시 추정과 검정으로 분류할 수 있다.
모수 | 점추정량 |
---|---|
모평균 \(\mu\) | 표본평균 \(\bar{X}\) |
모비율 \(p\) | 표본비율 \(\hat{p} = X/n\) |
모분산 \(\sigma^2\) | 표본분산 \(S^2\) |
좋은 추정량이란 무엇일까?
169 | 166.5 | 171.6 | 177.5 | 169.8 | 175.4 | 176 | 172.1 | 172.7 | 173 | 183.1 | 180.5 | 173.6 | 174.5 | 174.6 | 165.8 | 170 | 176.4 | 171.7 | 174 |
studenth <- c(169, 166.5, 171.6, 177.5, 169.8, 175.4, 176,
172.1, 172.7, 173, 183.1, 180.5, 173.6, 174.5,
174.6, 165.8, 170, 176.4, 171.7, 174)
mean(studenth)
## [1] 173.39
## [1] 17.99147
sd
함수를 통해 모표준편차를 추정해볼 수도 있다.## [1] 4.241636
## [1] 4.241636
참고: 표본표준편차 \(S\)는 모표준편차 \(\sigma\)의 불편추정량이 아니다.
sd
함수는 모표준편차가 아닌 표본표준편차를 계산함에 주의하자.## [1] 3.02765
## [1] 3.02765
## [1] 2.872281
참고: 빈도론적 통계학에서 신뢰수준은 “모수가 신뢰구간에 포함될 확률”이 아니다.
표준정규분포에서 50개의 난수를 발생시켜 95% 신뢰구간을 구하는 과정을 1000번 반복 하자. 1000개의 신뢰구간 중에서 실제로 모수를 포함하는 신뢰구간의 비율을 구하여라.
## parameters
alpha <- 0.05
n <- 50
mu <- 0
sigma <- 1
count <- 0
set.seed(100)
for (i in 1:1000) {
x <- rnorm(n, mu, sigma) # sampling
upper <- mean(x)-qnorm(alpha/2)*(sigma/sqrt(n)) # ci
lower <- mean(x)+qnorm(alpha/2)*(sigma/sqrt(n)) # ci
if ( (lower< mu) & (mu< upper) ) {
count = count + 1 # whether ci contains mu
}
}
count/1000
## [1] 0.944
먼저 가설검정의 기본 용어는 다음과 같다.
\(H_0\) 참 | \(H_1\) 참 | ||
---|---|---|---|
검정 결과 | \(H_0\) 채택 | 옳은 결정 | 제2종 오류 |
\(H_1\) 채택 | 제1종 오류 | 옳은 결정 |
유의수준, 유의확률, 검정력은 다음과 같이 정의된다.
유의확률은 대립가설이 참일 확률이 아니다.
모표준편차 \(\sigma\)가 알려져 있을 때, 귀무가설 \(H_0:~\mu = \mu_0\)에 대한 표본평균을 이용한 모평균의 검정은 다음의 Z-검정을 사용한다.
가설 | 기각역 | 유의확률 |
---|---|---|
\(H_1\): \(\mu\) > \(\mu_0\) | \(Z \geq z_{\alpha}\) | \(\mathbb{P}(Z \geq z_0)\) |
\(H_1\): \(\mu\) < \(\mu_0\) | \(Z \leq z_{\alpha}\) | \(\mathbb{P}(Z \leq z_0)\) |
\(H_1\): \(\mu \neq \mu_0\) | \(|Z| \geq z_{\alpha/2}\) | \(\mathbb{P}(|Z| \geq |z_0|)=2 \mathbb{P}(Z \geq |z_0|)\) |
어느 전구의 평균수명이 정규분포 \(N(1500,100^2)\)을 따른다고 하자. 이 때, 새 공법에 의하면 전구의 평균수명이 증가한다고 할 때, \(n=25\)개의 전구를 시험 생산한 결과 \(\bar{X}= 1550\) (시간)으로 나타났다. 이 결과를 통해 새 공법에 의해 전구의 평균수명이 증가했다고 확신할 수 있는가? 유의수준 5%에서 이를 확인하시오.
주어진 문제에서 다음과 같이 가설을 설정하자. \[H_0 : \mu=1500 \quad \text{vs} \quad H_1: \mu>1500\] 모표준편차가 알려져 있으므로, 검정통계량은 \[Z=\frac{\bar{X}-1500}{100/\sqrt{n}} = \frac{1550-1500}{20}=2.5\] 로 계산되고 유의수준 5%에서 기각역은 \(Z>1.645\), 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다. 즉, 유의수준 5%에서 새 공법에 의해 전구의 평균수명이 증가했다고 확신할 수 있다. R을 이용해서는 다음과 같이 유의확률을 계산할 수 있다.
## [1] 2.5
## [1] 0.006209665
## [1] 0.006209665
All residential home sales in Ames, Iowa between 2006 and 2010. The data set contains many explanatory variables on the quality and quantity of physical attributes of residential homes in Iowa sold between 2006 and 2010. Most of the variables describe information a typical home buyer would like to know about a property (square footage, number of bedrooms and bathrooms, size of lot, etc.). A detailed discussion of variables can be found in the original paper referenced below.
Gr.Liv.Area
를 모집단으로 사용하기로 하자.Gr.Lib.Area
변수를 GLA
에 저장하자.muGLA
, 모분산 \(\sigma^2\)값을 varGLA
변수에 저장하여라.meanGLA
변수에 저장하여라.ciGLA
변수에 저장하여라. (모분산은 a에서 구한 값을 이용한다.)z_alpha <- qnorm(0.025,0,1,lower.tail = F)
sampsize <- length(sampGLA)
ciGLA <- c(
meanGLA - z_alpha * sqrt(varGLA) / sqrt(sampsize),
meanGLA + z_alpha * sqrt(varGLA) / sqrt(sampsize)
)
ciGLA
## [1] 1328.529 1584.304
lower
벡터에 각각 저장하고 각 신뢰구간의 상한값은 upper
벡터에 각각 저장하도록 한다.set.seed(100)
n <- 60
N <- 50
lower <- numeric(N)
upper <- numeric(N)
z_alpha <- qnorm(0.025,0,1,lower.tail = F)
sdGLA <- sqrt(varGLA)
for(i in 1:N) {
samp <- sample(GLA, n, replace=T)
sampmean <- mean(samp)
lower[i] <- sampmean - z_alpha * sdGLA / sqrt(n)
upper[i] <- sampmean + z_alpha * sdGLA / sqrt(n)
}
제출하지 않아도 됩니다. (채점되지 않는 문항입니다.)
## draw base plot
k <- length(lower)
max_ci_length <- max(upper - lower)
xrange <- muGLA + max_ci_length * c(-1, 1)
yrange <- c(0, k+1)
plot(xrange, yrange, type = 'n', xlab = '', ylab = '', axes = F)
abline(v = muGLA, lty = 2, col = 'red')
axis(1, at = muGLA, paste0("mu = ", round(muGLA, 4)), tick = F)
# draw cis
for (i in 1:k) {
ci <- c(lower[i], upper[i])
ci_mean <- mean(ci)
col <- 1 + (ci[1] > muGLA | ci[2] < muGLA)
lines(ci, rep(i, 2), col = col)
points(ci_mean, i, col = col, pch = 16)
}
GLA
변수가 정규분포를 따른다는 가정이 필요하다.GLA
변수는 정규모집단이 아니라는 것을 확인할 수 있다.GLA
가 정규모집단이라는 가정 하에 풀이를 작성하면 된다.