重构目录层次

0-课程笔记
1-平时作业
2-实验报告
3-期末大作业
This commit is contained in:
2024-09-02 18:29:19 +08:00
parent b2fb901612
commit 5906ac1efc
108 changed files with 0 additions and 0 deletions

View File

@@ -0,0 +1,53 @@
\usepackage{fancyhdr}
\usepackage{enumitem}
\usepackage{titlesec}
\usepackage{amssymb, amsfonts, amstext, amsmath, amsopn, amsthm}
\usepackage{booktabs}
\usepackage{bm}
\usepackage{pgfplots}
\usepackage{hyperref}
\usepackage{totpages}
\usepackage{mylatex}
\usepackage{subfiles}
\fancyfoot[C]{\thepage\quad\ref{TotPages}}
\renewcommand\thesection{\thechapter.\arabic{section}}
\renewcommand \thesubsection {\arabic{subsection}}
\renewcommand{\labelenumii}{(\arabic{enumii})}
\title{《数理统计》作业}
\author{岳锦鹏}
\newcommand{\mysignature}{10213903403 岳锦鹏}
\date{2024年2月27日——2024年6月18日}
\setlist[1]{listparindent=\parindent}
\setlist[2]{listparindent=\parindent}
\definecolor{shadecolor}{RGB}{204,232,207}
\def\myitem#1#2{
\item \text{#1}
\begin{enumerate}
#2
\end{enumerate}
}
\makeatletter
\newcommand*\xwidehat[2][0.75]{%
\sbox{\myboxA}{$\m@th#2$}%
\setbox\myboxB\null% Phantom box
\ht\myboxB=\ht\myboxA%
\dp\myboxB=\dp\myboxA%
\wd\myboxB=#1\wd\myboxA% Scale phantom
\sbox\myboxB{$\m@th\,\widehat{\copy\myboxB}\,$}% Overlined phantom
\setlength\mylenA{\the\wd\myboxA}% calc width diff
\addtolength\mylenA{-\the\wd\myboxB}%
\ifdim\wd\myboxB<\wd\myboxA%
\rlap{\hskip 0.5\mylenA\usebox\myboxB}{\usebox\myboxA}%
\else
\hskip -0.5\mylenA\rlap{\usebox\myboxA}{\hskip 0.5\mylenA\usebox\myboxB}%
\fi}
\makeatother
\let\kaishu\relax % 清除旧定义
\newCJKfontfamily\kaishu{KaiTi}[AutoFakeBold] % 重定义 \kaishu
\newcommand{\boldkai}[1]{{\bfseries\kaishu #1}}

View File

@@ -0,0 +1,6 @@
\pagestyle{fancyplain}
\fancyhead{}
\fancyhead[C]{\mysignature}
\fancyfoot[C]{\thepage\quad\ref{TotPages}}
\definecolor{shadecolor}{named}{white}

View File

@@ -0,0 +1,22 @@
\documentclass[a4paper]{ctexbook}
\input{mypreamble}
\begin{document}
\maketitle
\tableofcontents
\setcounter{chapter}{4}
\chapter{统计量及其分布}
\subfile{第一周作业}
\subfile{第二周作业}
\subfile{第三周作业}
\subfile{第四周作业}
\chapter{参数估计}
\subfile{第五周作业}
\subfile{第六周作业}
\subfile{第七周作业}
\subfile{第九周作业}
\subfile{第十二周作业}
\chapter{假设检验}
\subfile{第十三周作业}
\subfile{第十四周作业}
\subfile{第十五周作业}
\end{document}

View File

@@ -0,0 +1,264 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\renewcommand{\labelenumii}{(\alph{enumii})}
\setcounter{chapter}{6}
\setcounter{section}{5}
\section*{期中考试}
\begin{enumerate}
\questionandanswer[]{
(10') 设$X_1, \cdots ,X_n (n>6)$是来自指数分布$p(x,\lambda)=\lambda e^{-\lambda x} I(x\geqslant 0)$的样本,其中$\lambda>0$。用$X_{(i)}$表示样本的第$i$个次序统计量。求解:
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$\lambda$的充分统计量$T$
}{
样本联合密度为
$$
p(x_1,x_2, \cdots ;\lambda)=\lambda^{n} e^{-n \bar{x} \lambda} I(x_{(1)}\geqslant 0)
$$
由由因子分解定理知,$T=\bar{x}$$\lambda$的充分统计量。
}
\questionandanswerSolution[]{
$\operatorname{Cov}(X_{(3)}, X_{(6)})$
}{
$Y=\lambda X$,则$Y_1,Y_2, \cdots ,Y_n$为来自$\operatorname{Exp}(1)$的样本,所以$\operatorname{Cov}(X_{(3)},X_{(6)})=\frac{1}{\lambda^{2}}\operatorname{Cov}(Y_{(3)},Y_{(6)})$,下面只需求三个量:$E(Y_{(3)}Y_{(6)}),\ E(Y_{(3)}),\ E(Y_{(6)})$
$$
\begin{aligned}
\because p_{3}(u)&=\frac{n!}{2!(n-3)!} F^{2}(u) [1-F(u)]^{n-3} p(u) \\
&=\frac{n!}{2!(n-3)!} (1-e^{-u})^{2} e^{-(n-2)u} I(u\geqslant 0) \\
\therefore E(Y_{(3)}) &= \int_{0}^{+\infty} u p_3(u) \mathrm{d}u=\int_{0}^{+\infty} \frac{n!}{2!(n-3)!} u(1-e^{-u})^{2} e^{-(n-2)u} \mathrm{d}u \\
&= \frac{n^{4} -3n^{2}+6n -2}{n(n-1)(n-2)} \\
\end{aligned}
$$
同理算出$E(Y_{(6)})$$E(Y_{(3)}Y_{(6)})$后可计算出
$$
\operatorname{Cov}(X_{(3)},X_{(6)})=\frac{1}{\lambda^{2}} \operatorname{Cov}(Y_{(3)},Y_{6})=\frac{1}{\lambda^{2}}\left[ E(Y_{(3)}Y_{(6)}) - E(Y_{(3)})E(Y_{(6)}) \right]
$$
}
\end{enumerate}
\questionandanswer[]{
(15') 设$X_i, \ i=1,2,3$独立且都分别服从$N(i, i^{2})$,利用$X_i$构造下面分布的统计量:
}{}
\begin{enumerate}
\questionandanswer[]{
自由度为3的$\chi^{2}$分布;
}{
$$
\left( \frac{X_1-1}{1} \right) ^{2}+\left( \frac{X_2-2}{2} \right) ^{2}+\left( \frac{X_3-3}{3} \right) ^{2} = \chi^{2}(3)
$$
}
\questionandanswer[]{
自由度为2的$t$分布;
}{
$$
\frac{(X_1-1)\sqrt{2}}{\sqrt{\left( \frac{X_2-2}{2} \right) ^{2}+\left( \frac{X_3-3}{3} \right) ^{2}}} \sim t(2)
$$
}
\questionandanswer[]{
自由度为1, 2的$F$分布。
}{
$$
\frac{\left( \frac{X_1-1}{1} \right) ^{2}}{\left( \frac{X_2-2}{2} \right) ^{2}+\left( \frac{X_3-3}{3} \right) ^{2}} \sim F(1,2)
$$
}
\end{enumerate}
\questionandanswer[3]{
(10') 设$X_1, \cdots ,X_n$是来自均值为$\mu$,方差为$\sigma^{2}$的总体的简单样本。
}{}
\begin{enumerate}
\questionandanswerProof[]{
证明:如果$\sum_{i=1}^{n} a_i=1$,则估计量$\sum_{i=1}^{n} a_i X_i$$\mu$的一个无偏估计量;
}{
$$
E\left( \sum_{i=1}^{n} a_i X_i \right) =\sum_{i=1}^{n} a_i (EX_{i})=\left( \sum_{i=1}^{n} a_i \right) \mu = 1 \cdot \mu = \mu
$$
所以估计量$\sum_{i=1}^{n} a_i X_i$$\mu$的一个无偏估计量。
}
\questionandanswerSolution[]{
在所有这类形式的估计量中求一个最小方差者,并计算其方差。
}{
$$
\operatorname{Var}\left( \sum_{i=1}^{n} a_i X_i \right) =\left( \sum_{i=1}^{n} a_i^{2} \right) \sigma^{2} = \left( \sum_{i=1}^{n} a_i^{2} \cdot \sum_{i=1}^{n} 1^{2} \right) \sigma^{2} \frac{1}{n} \geqslant \left( \sum_{i=1}^{n} a_i \right) ^{2} \sigma^{2}
$$
所以当$\sum_{i=1}^{n} a_i=1$时方差最小,为$\sigma^{2}$
}
\end{enumerate}
\questionandanswer[4]{
(15') 设简单样本$X_1, \cdots ,X_n \sim F$。对给定常数$x_0$,令$F_n(x_0)=\frac{1}{n} \sum_{i=1}^{n} I(X_i \leqslant x_0)$。回答以下问题:
}{}
\begin{enumerate}
\questionandanswerProof[]{
证明$F_n(x_0)$$F(x_0)$的无偏估计;
}{
$$
\begin{aligned}
&\because \sum_{i=1}^{n} I(x_i \leqslant x_0)\text{} n \text{重伯努利的独立和形式} \\
&\therefore E\left( \sum_{i=1}^{n} I(x_i \leqslant x_0) \right) =n E(I (x_1\leqslant x_0)) = nF(x_0) \\
\end{aligned}
$$
}
\questionandanswerProof[]{
证明$F_n(x_0)$$F(x_0)$的相合估计;
}{
由于$E(F_n(x_0))=F(x_0)$, $\operatorname{Var}(F_n(x_0))=\frac{1}{n} F_n(x_0) (1\cdot F(x_0)) \to 0$ $(n \to \infty)$,因此$F_n(x_0)$$F(x_0)$的相合估计。
}
\questionandanswerProof[]{
证明$F_n(x_0)$的渐近正态性。
}{
$$
\begin{aligned}
&\because F_n(x_0) \text{为独立和} \\
&\therefore \text{由中心极限定理知} \sqrt{n} (F_n(x_0)-F(x_0)) \xrightarrow{L} N(0, F(x_0) (1-F(x_0))) \\
\end{aligned}
$$
}
\end{enumerate}
\questionandanswer[5]{
(15') 设随机变量$Y_1, \cdots ,Y_n$满足
$$
Y_i = x_i \beta + \varepsilon_i, \ i=1, \cdots ,n,
$$
其中$x_1, \cdots ,x_n$是固定常数,$\varepsilon_1, \cdots , \varepsilon_n$独立同分布于$N(0, \sigma^{2})$,其中$\sigma^{2}$未知。回答以下问题:
}{}
\begin{enumerate}
\questionandanswerSolution[]{
求关于$(\beta,\sigma^{2})$的一个2维充分统计量。
}{
由于$Y_1,Y_2, \cdots ,Y_n$的联合密度函数为$Y_1 \sim N(x_i\beta, \alpha^{2})$
$$
\begin{aligned}
&L= \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{1}{2\sigma^{2}}(Y_i-x_i \beta)^{2}} \\
&=\left( \frac{1}{\sqrt{2\pi} \sigma} \right) ^{n} \exp \left\{ -\frac{1}{2\sigma^{2}} \sum_{i=1}^{n} (Y_i-x_i\beta)^{2} \right\} \\
&=\left( \frac{1}{\sqrt{2\pi} \sigma} \right) ^{n} \cdot e^{-\frac{1}{2\sigma^{2}} \sum_{i=1}^{n} Y_i^{2}} \cdot e^{\frac{1}{2\sigma^{2}} \sum_{i=1}^{n} 2 x_i Y_i \beta} e^{-\frac{1}{2\sigma^{2}} \sum_{i=1}^{n} x_i^{2} \beta^{2}} \\
\end{aligned}
$$
$T_1=\sum_{i=1}^{n} Y_i^{2}$, $T_2=\sum_{i=1}^{n} x_i Y_i$,有因子分解定理知$(T_1, T_2)$$(\beta, \alpha^{2})$的二维充分统计量。
}
\questionandanswer[]{
$\beta$的MLE并证明它是$\beta$的一个无偏估计;
}{
$\frac{\mathrm{d}L}{\mathrm{d}\beta}=0$,得$-\frac{1}{\sigma^{2}} \sum_{i=1}^{n} (Y_i - x_i \beta) x_i = 0 \implies \hat{\beta}_{ML}=\frac{\sum_{i=1}^{n} Y_i x_i}{\sum_{i=1}^{x} x_i^{2}}=\frac{\overline{Y x}}{ \overline{x ^{2}}}$
$$
\begin{aligned}
E\left( \hat{\beta}_{ML} \right) &=E\left( \frac{1}{\sum_{i=1}^{n} x_i^{2}} \sum_{i=1}^{n} x_i Y_i \right) =\frac{1}{\sum_{i=1}^{n} x_i^{2}} \sum_{i=1}^{n} E(x_i Y_i) = \frac{1}{\sum_{i=1}^{n} x_i^{2}} \sum_{i=1}^{n} x_i (EY_{i}) \\
&=\frac{1}{\sum_{i=1}^{n} x_i^{2}} \sum_{i=1}^{n} x_i(x_i \beta) = \beta \\
\end{aligned}
$$
}
\questionandanswerSolution[]{
$\beta$的MLE的分布。
}{
$$
\hat{\beta}_{ML} = \frac{\sum_{i=1}^{n} x_i Y_i}{\sum_{i=1}^{n} x_i^{2}}
$$
}
\end{enumerate}
\questionandanswer[6]{
(15') 设$X_1, X_2, \cdots , X_n$是来自$N(\mu,1)$的简单随机样本,其中$\mu$未知。用$\bar{X}$表示样本均值。令$p=P(X_1\geqslant 0)$,回答以下问题:
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$p$的极大似然估计$\hat{p}$
}{
因为$\mu$的MLE为$\bar{x}$,而$p = P(X_1\geqslant 0)=P\left( \frac{x_1-\mu}{1} \geqslant -\mu \right) =1-\Phi(-\mu)=\Phi(\mu)$
所以由MLE的不变性知 $\hat{P}_{MLE} = \Phi(\bar{x})$
}
\questionandanswerSolution[]{
$\sqrt{n}(\hat{p}-p)$的极限分布;
}{
因为$\hat{\mu} = \bar{x} \sim N(\mu, \frac{1}{n})$,设$g(x)= \Phi(x)$由Delta方法知
$$
\sqrt{n} \left( \hat{p} - p \right) =\sqrt{n} \left( \Phi(\bar{x}) -\Phi(\mu) \right) = \xrightarrow{L} N(0, \phi^{2}(\mu) \frac{1}{n})
$$
其中$\phi$为标准正态分布的概率密度函数。
}
\questionandanswerSolution[]{
$p$的UMVUE。
}{
$\Phi\left( \sqrt{\frac{n}{n-1}} \cdot \bar{x} \right) $$p$的UMVME。
}
\end{enumerate}
\questionandanswerSolution[]{
(10') 已知总体密度为$p(x;\theta) = \theta^{2} x^{\theta^{2}-1} (\theta>0, 0<x<1)$。若有容量为$n$的样本,求参数$\theta$无偏估计的C-R下界。
}{
$$
\begin{aligned}
&\because &\ln p&=2 \ln \theta + (\theta^{2}-1) \ln x \\
&&\frac{\partial \ln p}{\partial \theta}& = \frac{2}{\theta} + 2\theta \ln x \\
&&\frac{\partial ^{2} \ln p}{\partial \theta^{2}}& = -\frac{2}{\theta^{2}} + 2\ln x \\
&\therefore& I(\theta) &= - E\left( \frac{\partial ^{2}\ln p}{\partial \theta^{2}} \right) =\frac{2}{\theta^{2}} - 2E(\ln x) \\
&&&=\frac{2}{\theta^{2}} - 2\int_{0}^{1} \ln x \cdot \theta^{2} x^{\theta^{2}-1} \mathrm{d}x = \frac{2}{\theta^{2}} + \frac{2}{\theta^{2}} = \frac{4}{\theta^{2}} \\
&\therefore&& \text{C-R下界为} \frac{1}{nI(\theta)} = \frac{\theta^{2}}{4n} \\
\end{aligned}
$$
}
\questionandanswerSolution[8]{
$X_1, \cdots ,X_n$是来自泊松分布Poisson($\lambda$)(其中$\lambda >0$)的一个样本。参数$\lambda$的先验分布是$\phi(\lambda)=e^{-\lambda}$(其中$\lambda>0$),求$\lambda$的后验密度和贝叶斯估计。
}{
后验分布为
$$
\begin{aligned}
h(\theta |X_1, \cdots ,X_n) &= c \prod_{i=1}^{n} f(x_i |\lambda) \cdot \pi(\lambda) \\
&=\frac{\lambda^{X_1+X_2+ \cdots +X_n}}{x_1! x_2!\cdots X_n!} e^{-n\lambda} e^{-\lambda} \\
&=c \lambda^{\sum_{i=1}^{n} x_i} e^{-(n+1) \lambda} \sim \operatorname{Ga}\left( \sum_{i=1}^{n} x_i +1, n+1 \right) \\
\end{aligned}
$$
后验均值为贝叶斯估计 $\displaystyle \hat{\lambda} = \frac{\sum_{i=1}^{n} x_i + 1}{n+1}$
}
\end{enumerate}
\subsection*{附加题}
\begin{enumerate}
\questionandanswer[]{
(10') 设$X_1, \cdots X_n, X_{n+1}$是来自$N(\mu,\sigma^{2})$的样本,记$\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i, \ S_n^{2} = \frac{1}{n-1} \sum_{i=1}^{n} (X_i-\bar{X}_n)^{2}$。求解:
}{}
\begin{enumerate}
\questionandanswerSolution[]{
常数$a$$b$使得$T=(a X_{n+1} + b \bar{X}_n)/S_n$服从$t$分布,并指出$t$分布的自由度;
}{
$T=(a X_{n+1} + b \bar{X}_n)/S_n$服从$t$分布,则因为$X_{n+1}, \bar{X}_n$都与$S_n$独立,所以
$$
\begin{aligned}
ET=0 &\implies a E(X_{n+1}) + b(\bar{X}_{n}) = 0 \\
&\implies a \mu + b \mu =0 \implies a = -b \\
\end{aligned}
$$
又因为$\displaystyle \frac{(\bar{X}_n - X_{n+1})}{\sqrt{\frac{n+1}{n} }\sigma}=\frac{\bar{X}_n - \mu-(X_{n+1}-\mu)}{\sqrt{\frac{n+1}{n}} \sigma}\sim N(0,1)$$\displaystyle \frac{(n-1) S_n^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)$,所以
$$
T=\left.\frac{(\bar{X}_n-X_{n+1})}{\sqrt{\frac{n+1}{n}}\sigma} \middle/ \sqrt{\frac{(n-1)S_n^{2}}{\sigma^{2}(n-1)}}\right. \sim t(n-1)
$$
整理得
$
\displaystyle \sqrt{\frac{n}{n+1}} (\bar{X}_n-X_{n+1}) /S_n \sim t(n-1)
$\\
$a=\pm \sqrt{\frac{n}{n+1}}$, $b=\mp \sqrt{\frac{n}{n+1}}$,自由度为$n-1$
}
\questionandanswerSolution[]{
计算$\mathbb{E}(S_n^{3})$
}{
$$
\begin{aligned}
&\because X = \frac{(n-1)S_n^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) \\
&\therefore X\text{的密度函数为} p(x)= \frac{\left( \frac{1}{2} \right) ^{\frac{n-1}{2}}}{\Gamma\left( \frac{n-1}{2} \right) }x^{\frac{n}{2}-1} e^{-\frac{x}{2}}\ (x>0) \\
\end{aligned}
$$
$y=\sqrt{x}$,则$Y=\sqrt{X}$的密度函数为
$$
g(y)= p(x) \frac{\mathrm{d}x}{\mathrm{d}y} =p(x) \cdot 2y = p(y^{2})\cdot 2y = \frac{\left( \frac{1}{2} \right) ^{\frac{n-1}{2}}}{\Gamma\left( \frac{n-1}{2} \right) } \cdot 2y^{n-2} \cdot y \cdot e^{-\frac{y^{2}}{2}}
$$
$$
\begin{aligned}
E(Y^{3}) &= \int_{0}^{+\infty} y^{3}g(y) \mathrm{d}y = \int_{0}^{+\infty} \frac{2\left( \frac{1}{2} \right) ^{\frac{n-1}{2}}}{\Gamma\left( \frac{n-1}{2} \right) } y^{n+1} \cdot e^{-\frac{y^{2}}{2}} \mathrm{d}y \\
&=\frac{2^{\frac{n+1}{2}}}{\Gamma\left( \frac{n-1}{2} \right) } \int_{0}^{+\infty} y^{n+1} e^{-\frac{y^{2}}{2}} \mathrm{d}y = \begin{cases}
\frac{2^{\frac{n+1}{2}}}{\Gamma\left( \frac{n-1}{2} \right) } (2k-1)!!,\quad & n=2k-1 \\
\frac{2^{\frac{n+1}{2}}}{\Gamma\left( \frac{n-1}{2} \right) } (2k)!!,\quad & n=2k \\
\end{cases}
\end{aligned}
$$
$\displaystyle \sqrt{\frac{(n-1)S_n^{2}}{\sigma^{2}}}=Y \implies E S_n^{3}=\left( \frac{\sigma}{\sqrt{n-1}} \right) ^{3} \cdot E(Y^{3})$代入即得。
}
\end{enumerate}
\end{enumerate}
\textbf{注:}正常题总分为100分附加题总分为10分。总评分为两者之和但总评分不超过100分。
\end{document}

View File

@@ -0,0 +1,175 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\setcounter{chapter}{5}
\section{总体与样本}
\begin{enumerate}
\questionandanswer[2]{
某市要调查成年男子的吸烟率特聘请50名统计专业本科生作街头随机调查要求每位学生调查100名成年男子问该项调查的总体和样本分别是什么总体用什么分布描述为宜
}{
总体是成年男子,样本是$50\times 100=5000$名成年男子。总体应该用正态分布描述为宜。
}
\questionandanswer[4]{
为估计鱼塘里有多少条鱼,一位统计学家设计了一个方案如下:从鱼塘中打捞出一网鱼,计有$n$条,涂上不会被水冲刷掉的红漆后放回,一天后再从鱼塘里打捞一网,发现共有$m$条鱼,而涂有红漆的鱼则有$k$条,你能估计出鱼塘里大概有多少鱼吗?该问题的总体和样本又分别是什么呢?
}{
鱼塘里大概有$\displaystyle \frac{m}{k}\cdot n$条鱼。将打捞鱼看做随机抽样的过程,则该问题的总体是鱼塘里的鱼,样本是打捞出的鱼。
}
\questionandanswer[5]{
某厂生产的电容器的使用寿命服从指数分布,为了解其平均寿命,从中抽出$n$件产品测其实际使用寿命,试说明什么是总体,什么是样本,并指出样本的分布.
}{
总体是某厂生产的电容器,样本是抽出的$n$件产品,样本近似服从指数分布。
}
\end{enumerate}
\section{样本数据的整理与显示}
\begin{enumerate}
\questionandanswer[1]{
以下是某工厂通过抽样调查得到的10名工人一周内生产的产品数试由这批数据构造经验分布函数并作图。
$$
149 \quad 156 \quad 160 \quad 138 \quad 149 \quad 153 \quad 153 \quad 169 \quad 156 \quad 156
$$
}{
先将数据排序138 149*2 153*2 156*3 160 169
\includexopp[1.5]{5.2.1}
}
\questionandanswer[5]{
40种刊物的月发行量单位 百册)如下:\\
5954 \quad
5022 \quad
14667 \quad
6582 \quad
6870 \quad
1840 \quad
2662 \quad
4508 \quad
1208 \quad
3852 \quad
618 \quad
3008 \quad
1268 \quad
1978 \quad
7963 \quad
2048 \quad
3077 \quad
993 \quad
353 \quad
14263 \quad
1714 \quad
11127 \quad
6926 \quad
2047 \quad
714 \quad
5923 \quad
6006 \quad
14267 \quad
1697 \quad
13876 \quad
4001 \quad
2280 \quad
1223 \quad
12579 \quad
13588 \quad
7315 \quad
4538 \quad
13304 \quad
1615 \quad
8612 \quad
\begin{enumerate}
\item 建立该批数据的频数分布表取组距为1700百册
\item 画出直方图。
\end{enumerate}
}{
\begin{minipage}{0.3\linewidth}
\begin{table}[H]
\begin{tabular}{ccc}
\toprule
下限 & 上限 & 频率\\
\midrule
300 & 1999 & 12 \\
2000 & 3699 & 6 \\
3700 & 5399 & 5 \\
5400 & 7099 & 6 \\
7100 & 8799 & 3 \\
8800 & 10499 & 0 \\
10500 & 12199 & 1 \\
12200 & 13899 & 4 \\
13900 & 15599 & 3 \\
\bottomrule
\end{tabular}
\end{table}
\end{minipage}
\hfill
\begin{minipage}{0.7\linewidth}
\includesvgpdf{5.2.5}
\end{minipage}
频数分布表和直方图均通过Excel完成坐标轴的标签无法与刻度对齐
}
\questionandanswer[6]{
对下列数据构造茎叶图:\\
472 \quad
425 \quad
447 \quad
377 \quad
341 \quad
369 \quad
412 \quad
399 \quad
400 \quad
382 \quad
366 \quad
425 \quad
399 \quad
398 \quad
423 \quad
384 \quad
418 \quad
392 \quad
372 \quad
418 \quad
374 \quad
385 \quad
439 \quad
408 \quad
429 \quad
428 \quad
430 \quad
413 \quad
405 \quad
381 \quad
403 \quad
479 \quad
381 \quad
443 \quad
441 \quad
433 \quad
399 \quad
379 \quad
386 \quad
387 \quad
}{
\begin{center}
\renewcommand{\arraystretch}{0.8}
% \lineskip=0.1em
\begin{tabular}{r|l}
34 & 1 \\
35 & \\
36 & 6 9 \\
37 & 2 4 7 9 \\
38 & 1 1 2 4 5 6 7 \\
39 & 2 8 9 9 9 \\
40 & 0 3 5 8 \\
41 & 2 3 8 8 \\
42 & 3 5 5 8 9 \\
43 & 0 3 9 \\
44 & 1 3 7 \\
45 & \\
46 & \\
47 & 2 9 \\
\end{tabular}
\end{center}
}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,136 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\setcounter{chapter}{6}
\setcounter{section}{3}
\section{最小方差无偏估计}
\begin{enumerate}
\questionandanswerProof[1]{
设总体概率函数是$p(x;\theta), x_1,x_2, \cdots ,x_n$ 是其样本,$T=T(x_1,x_2, \cdots ,x_n)$$\theta$的充分统计量,则对$g(\theta)$的任一估计$\hat{g}$,令$\tilde{g}=E(\hat{g}|T)$,证明:$MSE(\tilde{g})\leqslant MSE(\hat{g})$。这说明,在均方误差准则下,人们只需要考虑基于充分统计量的估计。
}{
$$
\begin{aligned}
\operatorname{MSE}(\hat{g})&=E((\hat{g} - g(\theta))^{2})= E\left( (\hat{g} - \tilde{g} + \tilde{g} -g(\theta))^{2} \right) \\
&=E(\hat{g}-\tilde{g})^{2} + 2E(\hat{g}-\tilde{g})(\tilde{g} - g(\theta) ) + E(\tilde{g}-g(\theta))^{2} \\
&=E(\hat{g} - \tilde{g})^{2}+2E(\hat{g}-\tilde{g})(\tilde{g}-g(\theta))+\operatorname{MSE}(\tilde{g}) \\
\end{aligned}
$$
其中
$$
E(\hat{g}-\tilde{g})(\tilde{g}-g(\theta))=E(E((\hat{g}-\tilde{g})(\tilde{g}-g(\theta))|T))
$$
由于$T$是充分统计量,所以$E(\tilde{g}-g(\theta))$$T$无关,所以
$$
\begin{aligned}
E (\hat{g}-\tilde{g})(\tilde{g}-g(\theta))&=E(\tilde{g}-g(\theta)) E(E(\hat{g}-\tilde{g}|T)) \\
&=[E(\tilde{g}) -E(g(\theta))]E(E(\hat{g}-\tilde{g}|T)) = 0 \\
\end{aligned}
$$
所以
$$
\operatorname{MSE}(\hat{g}) = E(\hat{g}-\tilde{g})^{2}+\operatorname{MSE}(\tilde{g})\geqslant \operatorname{MSE}(\tilde{g})
$$
}
\questionandanswerProof[3]{
$T$$g(\theta)$的UMVUE$\hat{g}$$g(\theta)$的无偏估计,证明:若$\operatorname{Var}(\hat{g})<\infty$,则$\operatorname{Cov}(T,\hat{g})\geqslant 0$
}{
由于$T$$g(\theta)$的UMVUE所以$E(T)=g(\theta), \operatorname{Var}(T)<\infty$;由于$\hat{g}$$g(\theta)$的无偏估计,所以$E(\hat{g})=0$。从而$E(T-\hat{g})=E(T)-E(\hat{g})=0$,且$\operatorname{Var}(T-\hat{g})=\operatorname{Var}(T)+\operatorname{Var}(\hat{g})+\operatorname{Cov}(T,\hat{g})<\infty$(应该不存在方差有限但协方差无限的情况吧),所以根据判断准则,
$$
0=\operatorname{Cov}(T,T-\hat{g})=\operatorname{Var}(T)-\operatorname{Cov}(T,\hat{g})
$$
所以$\operatorname{Cov}(T,\hat{g})=\operatorname{Var}(T)>0$
}
\questionandanswerProof[5]{
设总体$p(x;\theta)$的费希尔信息量存在,若二阶导数$\displaystyle \frac{\partial ^{2}}{\partial \theta^{2}}p(x;\theta)$对一切的$\theta \in \Theta$存在,证明费希尔信息量
$$
I(\theta)=-E\left( \frac{\partial ^{2}}{\partial \theta^{2}}\ln p(x;\theta) \right)
$$
}{
$$
\begin{aligned}
-E\left( \frac{\partial ^{2}}{\partial \theta^{2}} \ln p(x;\theta) \right) =&-\int_{-\infty}^{+\infty} \frac{\partial ^{2} \ln p(x;\theta)}{\partial \theta^{2}} p(x;\theta)\mathrm{d}x \\
=&\int_{-\infty}^{+\infty} \left( \frac{\partial \ln p(x;\theta)}{\partial \theta} \right) ^{2} p(x;\theta) \mathrm{d}x \\
=&\int_{-\infty}^{+\infty} \frac{\partial \ln p(x;\theta)}{\partial \theta} \frac{\partial \ln p(x;\theta)}{\partial p(x;\theta)} \frac{\partial p(x;\theta)}{\partial \theta} p(x;\theta) \mathrm{d}x \\
=&\int_{-\infty}^{+\infty} \frac{\partial \ln p(x;\theta)}{\partial \theta} \frac{1}{p(x;\theta)} \frac{\partial p(x;\theta)}{\partial \theta} p(x;\theta) \mathrm{d}x \\
=&\int_{-\infty}^{+\infty} \frac{\partial \ln p(x;\theta)}{\partial \theta} \frac{\partial p(x;\theta)}{\partial \theta} \mathrm{d}x \\
=& E_{x} \left( \frac{\partial \ln p(x;\theta)}{\partial \theta} \right) ^{2} = I(\theta) \\
\end{aligned}
$$
}
\questionandanswer[6]{
设总体密度函数为$p(x;\theta)=\theta x^{\theta-1}, 0<x<1, \theta>0$, $x_1,x_2, \cdots ,x_n$是样本。
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$g(\theta)=\dfrac{1}{\theta}$的最大似然估计;
}{
对数似然函数为
$$
\ln L(\theta)=\sum_{i=1}^{n} \ln \theta x^{\theta-1}=\sum_{i=1}^{n} \left( \ln \theta+(\theta-1) \ln x_i \right) =n \ln \theta+(\theta-1) \sum_{i=1}^{n} \ln x_i
$$
$\theta$求导并令其为0
$$
\frac{\partial L(\theta)}{\partial \theta} = \frac{n}{\theta}+\sum_{i=1}^{n} x_i = 0
$$
$\theta$的最大似然估计为$\hat{\theta} = \dfrac{n}{\sum_{i=1}^{n} x_i}$,根据最大似然估计的不变性,$g(\theta)=\dfrac{1}{\theta}$的最大似然估计为
$$
\widehat{g(\theta)}=\frac{1}{\hat{\theta}}=\frac{1}{n} \sum_{i=1}^{n} x_i
$$
}
\questionandanswerSolution[]{
$g(\theta)$的有效估计。
}{
可以猜测上一小题中的
$
\widehat{g(\theta)}=\frac{1}{n} \sum_{i=1}^{n} x_i
$
为有效估计,接下来验证一下。
% $$
% \frac{\theta}{\theta+2}-\left( \frac{\theta}{\theta+1} \right) ^{2} = \frac{\theta}{\theta^{3} + 4 \theta^{2} + 5 \theta + 2}
% $$
可以计算得到总体的方差为$\dfrac{1}{\theta^{2}}$,因此 $g(\hat{\theta})=\bar{x}$的方差为$\dfrac{1}{n \theta^{2}} $
由于$\ln p(x;\theta) = \ln \theta +(\theta-1)\ln x$,
$$
\frac{\partial \ln p(x;\theta)}{\partial \theta}=\frac{1}{\theta}+\ln x, \quad \frac{\partial^{2} \ln p(x;\theta)}{\partial \theta^{2}}=-\frac{1}{\theta^{2}}, \quad I(\theta)=-E\left( \frac{\partial ^{2}\ln p(x;\theta)}{\partial \theta^{2}} \right) =\frac{1}{\theta^{2}}
$$
所以$I(\frac{1}{\theta})=\theta^{2}$,所以
$$
\operatorname{Var}(\widehat{g(\theta)})= \frac{1}{n \theta^{2}}=\frac{1}{I(\frac{1}{\theta})}=\frac{1}{I(g(\theta))}
$$
因此$\widehat{g(\theta)}=\frac{1}{n} \sum_{i=1}^{n} x_i$$g(\theta)$的有效估计。
}
\end{enumerate}
\questionandanswerSolution[7]{
设总体密度函数为$\displaystyle p(x;\theta)=\frac{2\theta}{x^{3}} e^{-\frac{\theta}{x^{2}}},x>0,\theta>0$,求$\theta$的费希尔信息量$I(\theta)$
}{
$$
\ln p(x;\theta)=\ln 2+\ln \theta-3\ln x -\frac{\theta}{x^{2}}
$$
$$
\frac{\partial \ln p(x;\theta)}{\partial \theta}=\frac{1}{\theta} - \frac{1}{x^{2}}, \quad \frac{\partial ^{2}\ln p(x;\theta)}{\partial \theta^{2}} = -\frac{1}{\theta^{2}}
$$
所以
$$
I(\theta)=-E\left( \frac{\partial ^{2}\ln p(x;\theta)}{\partial \theta^{2}} \right) =\frac{1}{\theta^{2}}
$$
}
\questionandanswerProof[10]{
$x_1,x_2, \cdots ,x_n$是来自$\operatorname{Ga}(\alpha,\lambda)$的样本,$\alpha>0$已知,试证明$\dfrac{\bar{x}}{\alpha}$$g(\lambda)=\dfrac{1}{\lambda}$的有效估计从而也是UMVUE。
}{
$$
p(x;\lambda) = \frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}, x>0; \quad \ln p(x;\lambda)=\alpha\ln \lambda-\ln \Gamma(\alpha)+(\alpha-1)\ln x-\lambda x
$$
$$
\frac{\partial \ln p(x;\lambda)}{\partial \lambda}=\frac{\alpha}{\lambda}-x; \quad \frac{\partial ^{2} \ln p(x;\lambda)}{\partial \lambda^{2}}=-\frac{\alpha}{\lambda^{2}}
$$
所以
$$
I(\lambda)=-E\left( \frac{\partial ^{2}\ln p(x;\lambda)}{\partial \lambda^{2}} \right) =\frac{\alpha}{\lambda^{2}}; \quad \text{C-R下界}=\frac{(g'(\lambda))^{2}}{n I(\lambda)}=\frac{(-\frac{1}{\lambda^{2}})^{2}}{n \frac{\alpha}{\lambda^{2}}} = \frac{1}{\alpha \lambda^{2} n}
$$
由于总体的方差为$\dfrac{\alpha}{\lambda^{2}}$,所以$\bar{x}$的方差为$\dfrac{\alpha}{n \lambda^{2}}$,所以$\dfrac{\bar{x}}{\alpha}$的方差为$\dfrac{1}{n \alpha \lambda^{2}}$等于C-R下界。
}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,92 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\setcounter{chapter}{5}
\setcounter{section}{3}
\section{三大抽样分布}
\begin{enumerate}
\questionandanswerSolution[2]{
$x_1,x_2, \cdots ,x_n$是来自$N(\mu,16)$的样本,问$n$多大时才能使得$P(\left\vert \bar{x}-\mu \right\vert<1 )\geqslant 0.95$成立?
}{
由于$\bar{x}\sim N(\mu,\frac{16}{n})$,根据切比雪夫不等式,
$$
P(\left\vert \bar{x}-E \bar{x} \right\vert <\varepsilon)\geqslant 1-\frac{\operatorname{Var}\bar{x}}{\varepsilon}
$$
$$
P(\left\vert \bar{x}-\mu \right\vert <1)\geqslant 1-\frac{16}{n}
$$
$$
\frac{16}{n}=0.95 \Rightarrow n=\frac{16}{0.95} = \frac{320}{19} \approx 16.8421052631579
$$
因为$n$为整数,所以$n$至少为17时才能使得$P(\left\vert \bar{x}-\mu \right\vert<1 )\geqslant 0.95$成立。
}
\questionandanswerSolution[4]{
由正态总体$N(\mu,\sigma^{2})$抽取容量为20的样本试求$P\left( 10\sigma^{2}\leqslant \displaystyle \sum_{i=1}^{20} (x_i-\mu)^{2}\leqslant 30\sigma^{2} \right) $
}{
由于$\displaystyle s^{2}=\frac{1}{19}\sum_{i=1}^{20} (x_i-\mu)^{2}$, $\displaystyle \frac{19s^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)$
所以$\displaystyle \frac{1}{\sigma^{2}}\sum_{i=1}^{20} (x_i-\mu)^{2}\sim \chi^{2}(n-1)$
所以
$$
\begin{aligned}
&P\left( 10\sigma^{2}\leqslant \sum_{i=1}^{20} (x_i-\mu)^{2}\leqslant 30\sigma^{2} \right) = P\left( 10\leqslant \frac{1}{\sigma^{2}}\sum_{i=1}^{20} (x_i-\mu)^{2}\leqslant 30 \right) \\
&=\int_{10}^{30} \frac{\left( \frac{1}{2} \right) ^{\frac{20}{2}}}{\Gamma\left( \frac{20}{2}-1 \right) } y^{\frac{20}{2}}e^{-\frac{y}{2}} \mathrm{d}y = \int_{10}^{30} \frac{\left( \frac{1}{2} \right) ^{10}}{9!} y^{9}e^{-\frac{y}{2}} \mathrm{d}y \approx 0.898318281994385 \\
\end{aligned}
$$
\begin{center}
\includegraphics[width=0.2\linewidth]{imgs/2024-03-20-14-05-40.png}
\end{center}
}
\questionandanswerSolution[6]{
$x_1,x_2, \cdots ,x_n$是来自$N(\mu,1)$的样本,试确定最小的常数$c$,使得对任意的$\mu\geqslant 0$,有$P(\left\vert \bar{x} \right\vert <c)\leqslant \alpha$
}{
这题什么意思?当$\mu=0$时,当$n \to \infty$$\bar{x} \to 0$, $P(\left\vert \bar{x} \right\vert <c) \to 1$,怎么可能$P(\left\vert \bar{x} \right\vert <c)\leqslant \alpha$呢?
}
\questionandanswerProof[8]{
设随机变量$X\sim F(n,m)$,证明$\displaystyle Z=\frac{n}{m}X \left\slash \left( 1+\frac{n}{m}X \right) \right.$服从贝塔分布,并指出其参数。
}{
$Y=\dfrac{n}{m}X$,则
$$
p_{Y}(y)=\frac{\Gamma\left( \frac{m+n}{2} \right) }{\Gamma\left( \frac{m}{2} \right) \Gamma\left( \frac{n}{2} \right) } y^{\frac{m}{2}-1}(1+y)^{-\frac{m+n}{2}}
$$
$$
Z=\frac{Y}{1+Y} = 1 - \frac{1}{1+Y} \Longrightarrow Y=\frac{1}{1-Z}-1=\frac{Z}{1-Z}
$$
所以
$$
\begin{aligned}
&p_{Z}(z)=\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}\left( \frac{z}{1-z} \right) ^{\frac{m}{2}-1} \left( \frac{1}{1-z} \right) ^{- \frac{m+n}{2}} \\
&=\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} \left( \frac{z}{1-z} \right) ^{\frac{m}{2}} \left( \frac{1-z}{z} \right) \left( 1-z \right) ^{\frac{m}{2}} \left( 1-z \right) ^{\frac{n}{2}} \\
&=\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}z^{\frac{m}{2}}(1-z)^{\frac{n}{2}}\left( \frac{1-z}{z} \right) \\
&=\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} z^{\frac{m}{2}-1} (1-z)^{\frac{n}{2}+1} \\
\end{aligned}
$$
所以$Z$服从贝塔分布,其参数为$\dfrac{m}{2}$$\dfrac{n}{2}$
}
\questionandanswerSolution[9]{
$x_1,x_2$是来自$N(0,\sigma^{2})$的样本,试求$\displaystyle Y=\left( \frac{x_1+x_2}{x_1-x_2} \right) ^{2}$的分布。
}{
$$
Y=\left( \frac{x_1+x_2}{x_1-x_2} \right) ^{2}=\left( \frac{\frac{x_1}{x_2}+1}{\frac{x_1}{x_2}-1} \right) ^{2}=\left( 1+\frac{2}{\frac{x_1}{x_2}-1} \right) ^{2}
$$
其中$\dfrac{x_1}{x_2}$的概率密度函数为
$$
\begin{aligned}
p_{\frac{x_1}{x_2}}(t)&=\int_{-\infty}^{+\infty} \left\vert x \right\vert p(x,tx) \mathrm{d}x=\int_{-\infty}^{+\infty} \left\vert x \right\vert \phi(x)\phi(tx) \mathrm{d}x =\int_{-\infty}^{+\infty} \left\vert x \right\vert \frac{1}{\sqrt{2\pi}}e^{\frac{-\sigma^{2}x^{2}}{2}}\cdot \frac{1}{\sqrt{2\pi}}e^{\frac{-\sigma^{2}t^{2}x^{2}}{2}} \mathrm{d}x \\
&=\frac{1}{\sigma^{2}\pi}\int_{0}^{+\infty} x e^{\frac{-\sigma^{2}x^{2}}{2}(1+t^{2})} \mathrm{d}x = \frac{1}{\pi \sigma^{4} (t^{2} + 1)} \\
\end{aligned}
$$
设随机变量$Z=1+\frac{2}{\frac{x_1}{x_2}-1}$,则$\frac{x_1}{x_2}=1+\frac{2}{Z-1}$, $Y=Z^{2}$,所以
$$
p_{Z}(z)=\frac{1}{\pi\sigma^{4}\left[ \left( 1+\frac{2}{z-1} \right) ^{2}+1 \right] } = \frac{(z - 1)^{2}}{\pi \sigma^{4} ((z - 1)^{2} + (z + 1)^{2})}
$$
$$
\begin{aligned}
p_{Y}(y)&=p_{Z}(\sqrt{y})+p_{Z}(-\sqrt{y})=\frac{(\sqrt{y} - 1)^{2}}{\pi \sigma^{4} ((\sqrt{y} - 1)^{2} + (\sqrt{y} + 1)^{2})}+\frac{(\sqrt{y} - 1)^{2}}{\pi \sigma^{4} ((\sqrt{y} - 1)^{2} + (\sqrt{y} + 1)^{2})} \\
&= \frac{- 2 \sqrt{y} + y + 1}{\pi \sigma^{4} (y + 1)} \\
\end{aligned}
$$
此即为$Y$的概率密度函数。
}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,297 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\renewcommand{\bar}{\xoverline}
\renewcommand{\hat}{\xwidehat}
\setcounter{chapter}{6}
\setcounter{section}{4}
\begin{enumerate}
\questionandanswerSolution[11]{
$x_1,x_2, \cdots ,x_m \overset{\text{i.i.d.}}{\sim} N(a, \sigma^{2}), y_1,y_2, \cdots y_n\overset{\text{i.i.d.}}{\sim}N(a,2\sigma^{2})$,求$a$$\sigma^{2}$的UMVUE。
}{
根据贝叶斯估计的方法,$\hat{a}$$\widehat{\sigma^{2}}$应为两个信息源的加权平均,权重为方差的倒数,即
$$
\hat{a}= \frac{\frac{1}{m\sigma^{2}}}{\frac{1}{m\sigma^{2}}+\frac{1}{2n\sigma^{2}}} \bar{x} + \frac{\frac{1}{2n\sigma^{2}}}{\frac{1}{m\sigma^{2}}+\frac{1}{2n\sigma^{2}}} \bar{y} = \frac{2 \bar{x} n + \bar{y} m}{m + 2 n}
$$
$$
\widehat{\sigma^{2}}=\frac{\frac{1}{m\sigma^{2}}}{\frac{1}{m\sigma^{2}}+\frac{1}{2n\sigma^{2}}} s_{x}^{2} + \frac{\frac{1}{2n\sigma^{2}}}{\frac{1}{m\sigma^{2}}+\frac{1}{2n\sigma^{2}}} s_{y}^{2} = \frac{m s_{y}^{2} + 2 n s_{x}^{2}}{m + 2 n}
$$
$0$的任一无偏估计$\varphi(x_1,x_2, \cdots ,x_m,y_1,y_2, \cdots ,y_n)$$\operatorname{Cov}(\hat{a},\varphi)=0, \operatorname{Cov}(\widehat{\sigma^{2}},\varphi)=0$,所以$\hat{a}$$\widehat{\sigma^{2}}$是UMVUE。
}
\questionandanswerProof[12]{
$x_1,x_2, \cdots ,x_n\overset{\text{i.i.d.}}{\sim}N(\mu,1)$,求$\mu^{2}$的UMVUE。证明此UMVUE达不到C-R不等式的下界即它不是有效估计。
}{
直观上来看,$\mu^{2}$的UMVUE应该是$\bar{x}^{2}$。接下来计算C-R不等式的下界由于$I(\mu)=1$所以C-R不等式的下界为
$$
\frac{[g'(\mu)]^{2}}{n I(\mu)}=\frac{(2\mu)^{2}}{n} = \frac{4\mu^{2}}{n}
$$
由于$\bar{x}\sim N(\mu, \frac{1}{n})$,所以$(n(\bar{x}-\mu)) \sim \chi^{2}(1)$
$$
\operatorname{Var} \bar{x}^{2} = E \bar{x}^{4} - (E \bar{x}^{2})^{2} =\text{实在是不会算了} > \frac{4\mu^{2}}{n}
$$
所以此UMVUE达不到C-R不等式的下界即它不是有效估计。
}
\questionandanswer[14]{
$x_1,x_2, \cdots x_n$为独立同分布变量,$0<\theta<1$
$$
P(x_1=-1)=\frac{1-\theta}{2}, \quad P(x_1=0)=\frac{1}{2}, \quad P(x_1=1)=\frac{\theta}{2}
$$
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$\theta$的MLE $\hat{\theta}_1$并问$\hat{\theta}_1$是否是无偏的;
}{
设在$x_1,x_2, \cdots ,x_n$中有$n_{-1}$$-1$$n_{0}$$0$$n_1$$1$,则对数极大似然函数为
$$
\begin{aligned}
\ln L(n_{-1},n_{0},n_1;\theta)&=\ln \left[ \left( \frac{1-\theta}{2} \right) ^{n_{-1}} \left( \frac{1}{2} \right) ^{n_0} \left( \frac{\theta}{2} \right) ^{n_1} \right] \\
&=n_{-1}\ln \left( \frac{1-\theta}{2} \right) +n_0 \ln \frac{1}{2}+n_1 \ln \frac{\theta}{2} \\
\end{aligned}
$$
$\theta$求偏导并令其为0
$$
\frac{\partial L}{\partial \theta}=-\frac{1}{2}\frac{2 n_{-1}}{1-\theta}+ \frac{1}{2}\frac{2n_1}{\theta} = \frac{n_1}{\theta}-\frac{n_{-1}}{1-\theta} = 0
$$
则最大似然估计为
$$
\hat{\theta}_1 = \frac{n_{1}}{n_{1} + n_{-1}}
$$
根据重期望公式,
$$
E \hat{\theta}_1 = E\left( E\left( \frac{n_1}{n_1+n_{-1}} \middle| n_1+n_{-1} \right) \right)
$$
其中
$$
E\left( \frac{n_1}{n_1+n_{-1}}\middle| n_1+n_{-1} \right) =E\left( \frac{n_1}{m}\middle| n_1+n_{-1}=m \right) = \frac{1}{m} \times m \frac{\frac{\theta}{2}}{\frac{1-\theta}{2}+\frac{\theta}{2}} = \theta
$$
所以$E \hat{\theta}_1 = E(\theta)= \theta$,即$\hat{\theta}_1$是无偏估计。
}
\questionandanswerSolution[]{
$\theta$的矩估计$\hat{\theta}_2$
}{
设总体为$X$,则
$$
EX = -1 \times \frac{1-\theta}{2}+0\times \frac{1}{2}+1\times \frac{\theta}{2} = \theta - \frac{1}{2}
$$
所以矩估计$\hat{\theta}_2 = \bar{x}+\frac{1}{2}$
}
\questionandanswerSolution[]{
计算$\theta$的无偏估计的方差的C-R下界。
}{
$$
p(x;\theta)=\begin{cases}
\frac{1-\theta}{2},\quad & x=-1 \\
\frac{1}{2},\quad & x=0 \\
\frac{\theta}{2},\quad & x=1 \\
0, \quad &\text{其他} \\
\end{cases}, \quad \ln p(x;\theta)=\begin{cases}
\ln (1-\theta)-\ln 2,\quad & x=-1 \\
-\ln 2,\quad & x=0 \\
\ln \theta-\ln 2,\quad & x=1 \\
0,\quad & \text{其他} \\
\end{cases},
$$
$$
\frac{\partial \ln p(x;\theta)}{\partial \theta}=\begin{cases}
-\frac{1}{1-\theta},\quad & x=-1 \\
0,\quad & x=0 \\
\frac{1}{\theta},\quad & x=1 \\
0,\quad & \text{其他} \\
\end{cases},\quad \left( \frac{\partial \ln p(x;\theta)}{\partial \theta} \right) ^{2} = \begin{cases}
\frac{1}{(1-\theta)^{2}},\quad & x=-1 \\
\frac{1}{\theta^{2}},\quad & x=1 \\
0,\quad & \text{其他} \\
\end{cases}
$$
所以
$$
I(\theta)=E\left( \frac{\partial \ln p(x;\theta)}{\partial \theta} \right) ^{2}=\frac{1}{(1-\theta)^{2}}\times \frac{1-\theta}{2}+\frac{1}{\theta^{2}}\times \frac{\theta}{2} = \frac{1}{2 \theta (1-\theta )}
$$
所以$\theta$的无偏估计的方差的C-R下界为
$$
\frac{1}{n I(\theta)}=\frac{2\theta(1-\theta)}{n}
$$
}
\end{enumerate}
\end{enumerate}
\section{贝叶斯估计}
\begin{enumerate}
\questionandanswerSolution[2]{
设总体为均匀分布$U(\theta,\theta+1)$$\theta$的先验分布是$U(10,16)$。现有三个观测值:$11.7, 12.1, 12.0$。求$\theta$的后验分布。
}{
$$
p(X|\theta)=\begin{cases}
1^{3},\quad & \theta\in [11.1,11.7] \\
0,\quad & \theta \not \in [11.1,11.7] \\
\end{cases}=1_{[11.1,11.7]}(\theta), \quad \pi(\theta)=\frac{1}{6}1_{[10,16]}(\theta)
$$
所以$h(X,\theta)=p(X|\theta)\pi(\theta)=\frac{1}{6} 1_{[11.1,11.7]}(\theta)$,\quad $m(X)=\int_{-\infty}^{+\infty} \frac{1}{6}1_{[11.1,11.7]}(\theta) \mathrm{d}\theta = \frac{1}{6}\times 0.7$
所以$\theta$的后验分布为
$$
\pi(\theta|X)=\frac{h(X,\theta)}{m(X)}=\frac{1}{0.7} 1_{[11.1,11.7]}(\theta) = \frac{10}{7} 1_{[11.1,11.7]}(\theta)
$$
}
\questionandanswer[3]{
$x_1,x_2, \cdots ,x_n$是来自几何分布的样本,总体分布列为
$$
P(X=k|\theta)=\theta(1-\theta)^{k}, \quad k=0,1,2, \cdots ,
$$
$\theta$的先验分布是均匀分布$U(0,1)$
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$\theta$的后验分布;
}{
$$
p(\theta|x_1,x_2, \cdots ,x_n)=\frac{p(x_1,x_2, \cdots ,x_n|\theta)\pi(\theta)}{\int_{0}^{1} p(x_1,x_2, \cdots ,x_n|\theta)\pi(\theta) \mathrm{d}\theta} = \frac{\prod_{i=1}^{n} \left[ \theta(1-\theta)^{x_i} \right] 1_{[0,1]}(\theta)}{\int_{0}^{1} \prod_{i=1}^{n} \left[ \theta(1-\theta)^{x_i} \right] \mathrm{d}\theta}
$$
}
\questionandanswerSolution[]{
$4$次观测值为$4,3,1,6$,求$\theta$的贝叶斯估计。
}{
$$
E(\theta|4,3,1,6) = \int_{0}^{1} \theta p(\theta|4,3,1,6) \mathrm{d}\theta = \text{实在算不出来了}
$$
}
\end{enumerate}
\questionandanswerProof[5]{
验证:正态总体方差(均值已知)的共轭先验分布是倒伽马分布(称$X$服从倒伽马分布,如果$\frac{1}{X}$服从倒伽马分布。
}{
设总体$X\sim N(\mu,\sigma^{2})$,且$\sigma^{2}\sim \operatorname{IG}(\alpha,\gamma)$,则$\frac{1}{\sigma^{2}}\sim \operatorname{Ga}(\alpha,\lambda)$,所以
$$
h(X|\sigma^{2})=p(X|\sigma^{2})p(\sigma^{2})= \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2}\sum_{i=1}^{n} \left( \frac{x-\mu}{\sigma} \right) ^{2}} \cdot \frac{\lambda^{\alpha}}{\Gamma(\alpha)}\left( \frac{1}{\sigma^{2}} \right) ^{\alpha-1} e^{-\frac{1}{\sigma^{2}}}
$$
$$
p(\sigma^{2}|X)=\frac{p(X|\sigma^{2})p(\sigma^{2})}{\int_{0}^{+\infty} p(X|\sigma^{2})p(\sigma^{2}) \mathrm{d}\sigma^{2}} = \frac{\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2}\sum_{i=1}^{n} \left( \frac{x-\mu}{\sigma} \right) ^{2}} \cdot \frac{\lambda^{\alpha}}{\Gamma(\alpha)}\left( \frac{1}{\sigma^{2}} \right) ^{\alpha-1} e^{-\frac{1}{\sigma^{2}}}}{\int_{0}^{+\infty} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2}\sum_{i=1}^{n} \left( \frac{x-\mu}{\sigma} \right) ^{2}} \cdot \frac{\lambda^{\alpha}}{\Gamma(\alpha)}\left( \frac{1}{\sigma^{2}} \right) ^{\alpha-1} e^{-\frac{1}{\sigma^{2}}} \mathrm{d}\sigma^{2}}
$$
计算可得$p(\sigma^{2}|X)$也是倒伽马分布的概率密度函数,因此$\sigma^{2}$的后验分布也是倒伽马分布,从而正态总体方差(均值已知)的共轭先验分布是倒伽马分布。
}
\questionandanswer[6]{
$x_1,x_2, \cdots ,x_n$是来自如下总体的一个样本
$$
p(x|\theta) = \frac{2x}{\theta^{2}}, \quad 0<x<\theta
$$
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$\theta$的先验分布为均匀分布$U(0,1)$,求$\theta$的后验分布;
}{
$$
\begin{aligned}
&h(x_1,x_2, \cdots ,x_n,\theta)=P(x_1,x_2, \cdots ,x_n|\theta)\pi(\theta) \\
=&\prod_{i=1}^{n} \frac{2 x_i}{\theta^{2}} 1_{[0,\theta]}(x_i) 1_{[0,1]}(\theta) =1_{0<x_{(1)}}1_{x_{(n)}<\theta} \frac{1}{\theta^{2n}} \prod_{i=1}^{n} 2
x_i 1_{[0,1]}(\theta) \\
\end{aligned}
$$
$$
\begin{aligned}
&m(x_1,x_2, \cdots x_n)=\int_{0}^{1} h(x_1,x_2, \cdots ,x_n,\theta) \mathrm{d}\theta = 1_{0<x_{(1)}} \prod_{i=1}^{n} 2 x_i \int_{0}^{1} 1_{x_{(n)}<\theta} \frac{1}{\theta^{2n}} \mathrm{d}\theta \\
=&1_{0<x_{(1)}} \prod_{i=1}^{n} 2 x_i \int_{x_{(n)}}^{1} \frac{1}{\theta^{2n}} \mathrm{d}x = 1_{0<x_{(1)}} \left(-2n+1-(-2n+1)x_{(n)}^{-2n+1}\right) \prod_{i=1}^{n} 2 x_i \\
\end{aligned}
$$
所以$\theta$的后验分布为
$$
\pi(\theta|x_1, \cdots ,x_n)=\frac{h(x_1, \cdots ,x_n,\theta)}{m(x_1, \cdots ,x_n)} = \frac{1_{x_{(n)}<\theta} 1_{[0,1]}(\theta)}{\theta^{2n} \left(-2n+1-(-2n+1)x_{(n)}^{-2n+1}\right)}
$$
}
\questionandanswerSolution[]{
$\theta$的先验分布为$\pi(\theta)=3 \theta^{2}, 0<\theta<1$,求$\theta$的后验分布。
}{
$$
\begin{aligned}
&h(x_1,x_2, \cdots ,x_n,\theta)=P(x_1,x_2, \cdots ,x_n|\theta)\pi(\theta) \\
=&\prod_{i=1}^{n} \frac{2 x_i}{\theta^{2}} 1_{[0,\theta]}(x_i) 3\theta^{2}1_{[0,1]}(\theta) =1_{0<x_{(1)}}1_{x_{(n)}<\theta} \frac{3\theta^{2}}{\theta^{2n}} \left(\prod_{i=1}^{n} 2 x_i\right) 1_{[0,1]}(\theta) \\
\end{aligned}
$$
$$
\begin{aligned}
&m(x_1,x_2, \cdots x_n)=\int_{0}^{1} h(x_1,x_2, \cdots ,x_n,\theta) \mathrm{d}\theta = 1_{0<x_{(1)}} \prod_{i=1}^{n} 2 x_i \int_{0}^{1} 1_{x_{(n)}<\theta} \frac{3\theta^{2}}{\theta^{2n}} \mathrm{d}\theta \\
=&1_{0<x_{(1)}} \prod_{i=1}^{n} 2 x_i \int_{x_{(n)}}^{1} \frac{3\theta^{2}}{\theta^{2n}} \mathrm{d}x = 1_{0<x_{(1)}} \left(9-6n-(9-6n)x_{(n)}^{3-2n}\right) \prod_{i=1}^{n} 2 x_i \\
\end{aligned}
$$
所以$\theta$的后验分布为
$$
\pi(\theta|x_1, \cdots ,x_n)=\frac{h(x_1, \cdots ,x_n,\theta)}{m(x_1, \cdots ,x_n)} = \frac{1_{x_{(n)}<\theta} 1_{[0,1]}(\theta)}{\theta^{2n} \left(9-6n-(9-6n)x_{(n)}^{3-2n}\right)}
$$
}
\end{enumerate}
\questionandanswer[8]{
$x_1,x_2, \cdots ,x_n$是来自均匀分布$U(0,\theta)$的样本,$\theta$的先验分布是帕雷托分布,其密度函数为$\displaystyle \pi(\theta)=\frac{\beta\theta_0^{\beta}}{\theta^{\beta+1}}, \theta>\theta_0$,其中$\beta,\theta_0$是两个已知的常数。
}{}
\begin{enumerate}
\questionandanswerProof[]{
验证:帕雷托分布是$\theta$的共轭先验分布;
}{
$X=\{ x_1,x_2, \cdots ,x_n \}$,则 $P(X|\theta)=\prod_{i=1}^{n} \frac{1}{\theta} 1_{[0,\theta]}(x_i)=\frac{1}{\theta^{n}}1_{x_{(1)}\geqslant 0} 1_{x_{(n)}\leqslant \theta}$
$$
h(X,\theta)=P(X|\theta)\pi(\theta)=\frac{\beta \theta_0^{\beta}}{\theta^{\beta+1+n}} 1_{x_{(1)}\geqslant 0} 1_{x_{(n)}\leqslant \theta}
$$
$$
m(X)=\int_{x_{(n)}}^{+\infty} h(X,\theta) \mathrm{d}\theta= \beta \theta_0^{\beta} 1_{x_{(1)}\geqslant 0} \int_{x_{(n)}}^{+\infty} \theta^{-\beta-1-n} \mathrm{d}\theta = \frac{\beta \theta_0^{\beta} 1_{x_{(1)}\geqslant 0}}{\beta+n} x_{(n)}^{-\beta-n}
$$
% 所以
$$
P(\theta|X)=\frac{h(X,\theta)}{m(X)}=\frac{\frac{1_{x_{(n)}\leqslant \theta}}{\theta^{\beta+n+1}}}{\frac{x_{(n)}^{-\beta-n}}{\beta+n}} = \frac{(\beta+n)x_{(n)}^{\beta+n}}{\theta^{\beta+n-1}} 1_{x_{(n)}\leqslant \theta}
$$
所以$\theta$的后验分布为参数为$\beta+n$$x_{(n)}$的帕雷托分布,从而帕雷托分布是$\theta$的共轭先验分布。
}
\questionandanswerSolution[]{
$\theta$的贝叶斯估计。
}{
$\theta$的贝叶斯估计为
$$
\begin{aligned}
\hat{\theta} = \int_{x_{(n)}}^{+\infty} \theta p(\theta|X) \mathrm{d}\theta = \int_{x_{(n)}}^{+\infty} \frac{\theta (\beta+n) x_{(n)}^{\beta+n}}{\theta^{\beta+n+1}} \mathrm{d}\theta = \frac{\beta+n}{\beta+n-1} x_{(n)}
\end{aligned}
$$
}
\end{enumerate}
\questionandanswerProof[12]{
从正态总体$N(\theta,2^{2})$中随机抽取容量为$100$的样本,又设$\theta$的先验分布为正态分布,证明:不管先验分布的标准差为多少,后验分布的标准差一定小于$\frac{1}{5}$
}{
设样本为$X$$\theta$的先验分布为$N(\mu,\sigma^{2})$,则$\theta$的后验概率密度函数为
$$
\begin{aligned}
&\pi(\theta|X) = c f(X|\theta) f(\theta) \\
&=c \left( \prod_{i=1}^{n} \frac{1}{2\sqrt{2\pi}} e^{-\frac{1}{2} \left( \frac{x_i-\theta}{2} \right) ^{2}} \right) \cdot \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{1}{2} \left( \frac{\theta-\mu}{\sigma} \right) ^{2}} \\
&=c e^{-\frac{1}{2} \left( \frac{\theta-\mu}{\sigma} \right) ^{2} - \frac{1}{2} \sum_{i=1}^{n} \left( \frac{x_i-\theta}{2} \right) ^{2}} \\
&\geqslant ce^{-\frac{1}{2} \cdot 25 (\theta-\mu-\bar{x})^{2}} \\
\end{aligned}
$$
所以后验分布的标准差一定小于$\frac{1}{5}$
}
\questionandanswerProof[13]{
设随机变量$X$服从负二项分布,其概率分布为
$$
f(x|p)=\binom{x-1}{k-1} p^{k} (1-p)^{x-k}, \quad x=k,k+1, \cdots
$$
证明其成功概率$p$的共轭先验分布族为贝塔分布族。
}{
$X=\{ x_1,x_2, \cdots ,x_n \}$。设$p$的先验分布为贝塔分布$Be(a,b)$,则$\pi(p)=\frac{1}{B(a,b)} p^{a-1}(1-p)^{b-1}$,所以
$$
\begin{aligned}
P(p|X)&= c \cdot h(X,p)=c \cdot P(X|p)\pi(p) =c \left(\prod_{i=1}^{n} \mathrm{C}_{x_i-1}^{k-1} p^{k} (1-p)^{x_i-k}\right) \frac{1}{B(a,b)}p^{a-1} (1-p)^{b-1} \\
&=c p^{nk} (1-p)^{-nk} (1-p)^{\sum_{i=1}^{n} x_i} p^{a-1} (1-p)^{b-1} \\
&=c p^{nk+a-1} (1-p)^{\sum_{i=1}^{n} x_i-nk+b-1} \\
\end{aligned}
$$
其中$c$为与$p$无关的数。
所以$p$的后验分布为$\displaystyle Be(nk+a, \sum_{i=1}^{n} x_i -nk +b)$,从而$p$的共轭先验分布族为贝塔分布族。
}
\questionandanswerSolution[14]{
从一批产品中抽检$100$个,发现$3$个不合格,假定该产品不合格率$\theta$的先验分布为贝塔分布$Be(2,200)$,求$\theta$的后验分布。
}{
设总体为$X$,则$X\sim b(100, \theta)$,所以
$$
\begin{aligned}
P(\theta|X) &=c\cdot P(X|\theta) \pi(\theta) = c\cdot \mathrm{C}_{100}^{3} \theta^{3} (1-\theta)^{97} \frac{1}{B(2,200)} \theta^{1} (1-\theta)^{199} \\
&=c \cdot \theta^{4} (1-\theta)^{296} \\
\end{aligned}
$$
其中$c$为与$\theta$无关的数。
所以$\theta$的后验分布为$Be(5,297)$
}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,299 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\setcounter{chapter}{5}
\setcounter{section}{2}
\section{统计量及其分布}
\begin{enumerate}
\questionandanswerSolution[1]{
在一本书上我们随机地检查了10页发现每页上的错误数为
$$
4 \quad 5 \quad 6 \quad 0 \quad 3 \quad 1 \quad 4 \quad 2 \quad 1 \quad 4
$$
试计算其样本均值、样本方差和样本标准差。
}{
$$
\bar{x}=\frac{4+5+6+0+3+1+4+2+1+4}{10} = 3
$$
$$
s^{2}=\frac{1}{10-1}\sum_{i=1}^{10}(x_i-\bar{x})^{2}=\frac{34}{9} \approx 3.778
$$
$$
s=\sqrt{\frac{34}{9}}\approx 1.944
$$
}
\questionandanswerProof[2]{
证明:对任意常数$c,d$,有
$$
\sum_{i=1}^{n}(x_i-c)(y_i-d)=\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})+n(\bar{x}-c)(\bar{y}-d)
$$
}{
根据性质$\displaystyle \sum_{i=1}^{n}x_i=\sum_{i=1}^{n}\bar{x},\ \sum_{i=1}^{n}y_i=\sum_{i=1}^{n}\bar{y}$可得
$$
\begin{aligned}
\text{右边}&=\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})+\sum_{i=1}^{n}(\bar{x}-c)(\bar{y}-d) \\
&=\sum_{i=1}^{n}\left[ (x_i-\bar{x})(y_i-\bar{y})+(\bar{x}-c)(\bar{y}-d) \right] \\
&=\sum_{i=1}^{n}(x_i y_i -\bar{x}y_i-\bar{y}x_i+\bar{x}\bar{y}+\bar{x}\bar{y}-\bar{x}d-\bar{y}c+cd) \\
% &=\sum_{i=1}^{n}[(x_i-\bar{x})y_i - (x_i-\bar{x})\bar{y}+(\bar{x}-c)\bar{y}-(\bar{x}-c)d] \\
% =\sum_{i=1}^{n}[(x_i-\bar{x}+\bar{x}-c)\bar{y}]
&=\sum_{i=1}^{n}x_i y_i-\bar{x}\sum_{i=1}^{n}y_i -\bar{y}\sum_{i=1}^{n}x_i+n \bar{x}\bar{y} +n \bar{x}\bar{y}-n \bar{x}d- n\bar{y}c+ ncd \\
&=\sum_{i=1}^{n}x_i y_i- n \bar{x}\bar{y} -n \bar{y}\bar{x}+n \bar{x}\bar{y}+n \bar{x}\bar{y}- \sum_{i=1}^{n}x_i d - \sum_{i=1}^{n}y_i c+\sum_{i=1}^{n}cd \\
&=\sum_{i=1}^{n}(x_i y_i-x_id-y_ic+cd) \\
&=\sum_{i=1}^{n}(x_i-c)(y_i-d) = \text{左边} \\
\end{aligned}
$$
}
\questionandanswerSolution[3]{
$x_1,x_2, \cdots ,x_n$$y_1,y_2, \cdots ,y_n$是两组样本观测值,且有如下关系:
$$
y_i=3 x_i-4, i=1,2, \cdots ,n
$$
试求样本均值$\bar{x}$$\bar{y}$间的关系以及样本方差$s_{x}^{2}$$s_{y}^{2}$间的关系。
}{
$$
\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_i=\frac{1}{n}\sum_{i=1}^{n}(3 x_i-4)=3\cdot \frac{1}{n}\sum_{i=1}^{n} x_i -4=3\bar{x}-4
$$
$$
\begin{aligned}
s_{y}^{2}&=\frac{1}{n-1}\sum_{i=1}^{n} (y_i-\bar{y})^{2}=\frac{1}{n-1}\sum_{i=1}^{n} (3 x_i-4-(3 \bar{x}-4))^{2}=\frac{1}{n-1}\sum_{i=1}^{n} [3(x_i-\bar{x})]^{2} \\
&=9 \cdot \frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^{2}=9 s_{x}^{2} \\
\end{aligned}
$$
}
\questionandanswerProof[5]{
从同一总体中抽取两个容量分别为$n,m$的样本,样本均值分别为$\bar{x}_1, \bar{x}_2$,样本方差分别为$s_1^{2}, s_2^{2}$,将两组样本合并,其均值、方差分别为$\bar{x}, s^{2}$,证明:
$$
\bar{x}=\frac{n \bar{x}_1+m \bar{x}_2}{n+m}
$$
$$
s^{2}=\frac{(n-1)s_1^{2}+(m-1)s_2^{2}}{n+m-1}+\frac{nm(\bar{x}_1-\bar{x}_2)^{2}}{(n+m)(n+m+1)}
$$
}{
$$
\bar{x}=\frac{1}{n+m}\left( \sum_{i=1}^{n} x_{1_{i}} +\sum_{i=1}^{m} x_{2_{i}} \right) =\frac{n \bar{x}_1+m \bar{x}_2}{n+m}
$$
$$
\begin{aligned}
s^{2}&=\frac{1}{n+m-1} \left( \sum_{i=1}^{n} (x_{1i}-\bar{x})^{2}+\sum_{j=1}^{m} \left( x_{2j}-\bar{x} \right) ^{2} \right) \\
&=\frac{1}{n+m-1}\left( \sum_{i=1}^{n} \left( x_{1i}-\frac{n \bar{x}_1+m \bar{x}_2}{n+m} \right) ^{2}+\sum_{i=1}^{n} \left( x_{2j}-\frac{n \bar{x}_1+m \bar{x}_2}{n+m} \right) ^{2} \right) \\
&=\frac{(n-1)s_1^{2}+(m-1)s_2^{2}}{n+m-1}+\frac{nm(\bar{x}_1-\bar{x}_2)^{2}}{(n+m)(n+m+1)} \\
\end{aligned}
$$
}
\questionandanswerSolution[8]{
$x_1,x_2, \cdots ,x_n$是来自$U(-1,1)$的样本,试求$E(\bar{x})$$\operatorname{Var}(\bar{x})$
}{
设随机变量$X \sim U(-1,1)$,则
$$
E(\bar{x})=EX=\frac{-1+1}{2}=0
$$
$$
\operatorname{Var}(\bar{x})=\frac{\operatorname{Var}(X)}{n}=\frac{\frac{(-1-1)^{2}}{12}}{n}=\frac{1}{3n}
$$
}
\questionandanswerProof[9]{
设总体二阶矩存在,$x_1,x_2, \cdots ,x_n$是样本,证明$x_i-\bar{x}$$x_j-\bar{x}\ (i\neq j)$的相关系数为$-(n-1)^{-1}$
}{
根据样本均值的性质,$E(x_i-\bar{x})=E (x_j- \bar{x})=0$
设随机变量$X$表示从总体中抽出的一个样本,则$EX^{2}$存在。
$$
E(x_i-\bar{x})(x_j-\bar{x})=E(x_i x_j - \bar{x} x_i - \bar{x} x_j + \bar{x}^{2})= E x_i x_j - \bar{x}E x_i - \bar{x} E x_j + \bar{x}^{2}
$$
$x_i$$x_j$看作独立的两次抽样,则$x_i,x_j\overset{\text{i.i.d.}}{\sim}X $,所以$E x_i x_j=E x_i E x_j=(EX)^{2},$\\
$E x_i=EX, E x_j=EX$
所以
$$
E(x_i-\bar{x})(x_j-\bar{x})=(EX)^{2}-2 \bar{x}EX + \bar{x}^{2}=\frac{1}{1-n}=-(n-1)^{-1}
$$
}
\questionandanswerProof[10]{
$x_1,x_2, \cdots ,x_n$为一个样本,$\displaystyle s^{2}=\frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^{2}$是样本方差,试证:
$$
\frac{1}{n(n-1)}\sum_{i<j}(x_i-x_j)^{2} =s^{2}
$$
}{
$$
\begin{aligned}
% s^{2}= \frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^{2}=
&\frac{1}{n(n-1)}\sum_{i<j}(x_i-x_j)^{2}=\frac{1}{n(n-1)} \sum_{i<j}(x_i-\bar{x}+\bar{x}-x_j)^{2} \\
&=\frac{1}{n(n-1)}\sum_{i<j} [(x_i-\bar{x})^{2}+2(x_i-\bar{x})(\bar{x}-x_j)+(\bar{x}-x_j)^{2}] \\
&=\frac{1}{n(n-1)}\cdot \frac{1}{2}\sum_{i=1,2, \cdots ,n;j=1,2, \cdots ,n} [(x_i-\bar{x})^{2}+2(x_i-\bar{x})(\bar{x}-x_j)+(\bar{x}-x_j)^{2}] \\
&=\frac{1}{2n(n-1)}\left[ n \sum_{i=1}^{n} (x_i-\bar{x})^{2}+0+n\sum_{j=1}^{n} (x_j-\bar{x})^{2} \right] \\
&=\frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^{2} = s^{2} \\
\end{aligned}
$$
}
\questionandanswerProof[11]{
设总体4阶中心距$\nu_4=E[x-E(x)]^{4}$存在,试证:对样本方差$\displaystyle s^{2}=\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{x})^{2}$,有
$$
\operatorname{Var}(s^{2})=\frac{n(\nu-\sigma^{4})}{(n-1)^{2}}-\frac{2(\nu_4-2\sigma^{4})}{(n-1)^{2}}+\frac{\nu-3\sigma^{4}}{n(n-1)^{2}}
$$
其中$\sigma^{2}$为总体$X$的方差。
}{
$$
\begin{aligned}
&\text{右边}=\frac{n^{2}\nu_4-n^{2}\sigma^{4}-2n\nu_4+4n\sigma^{4}+\nu_4-3\sigma^{4}}{n(n-1)^{2}} \\
&=\frac{\nu_4(n^{2}-2n+1)-\sigma^{4}(n^{2}-4n+3)}{n(n-1)^{2}} \\
&=\frac{\nu_4(n-1)^{2}-\sigma^{4}(n-1)(n-3)}{n(n-1)^{2}} \\
&=\frac{\nu_4}{n}-\frac{\sigma^{4}(n-3)}{n(n-1)} \\
\end{aligned}
$$
$$
\begin{aligned}
\text{左边}=E(s^{2})^{2}-(Es ^{2})^{2}=Es ^{4}-(Es ^{2})^{2}=E s^{4}-\sigma^{4}
\end{aligned}
$$
实在证明不出来了。
}
\questionandanswerProof[12]{
设总体$X$的3阶矩存在$x_1,x_2, \cdots ,x_n$是取自该总体的简单随机样本,$\bar{x}$为样本均值,$s^{2}$为样本方差,试证:$\operatorname{Cov}(\bar{x}, s^{2})=\dfrac{\nu_3}{n}$,其中$\nu_3=E[x-E(x)]^{3}$
}{
$$
E \bar{x}=EX, Es ^{2}=\operatorname{Var}X
$$
$$
E(\bar{x} s^{2})=E\left( \frac{1}{n}\sum_{i=1}^{n} x_i+\frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^{2} \right)
$$
$$
\operatorname{Var}\bar{x}=\frac{\operatorname{Var}X}{n}, \operatorname{Var}s ^{2}=\operatorname{Var}\left( \frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{x})^{2} \right)
$$
也证明不出来了。
}
\questionandanswerSolution[15]{
从指数总体$\operatorname{Exp}(\frac{1}{\theta})$抽取了40个样品试求$\bar{x}$的渐近分布。
}{
设随机变量$X$表示从总体中抽出的一个样本,则
$$
EX=\frac{1}{\frac{1}{\theta}}=\theta,\ \operatorname{Var}X=\frac{1}{\left( \frac{1}{\theta} \right) ^{2}}=\theta^{2}
$$
所以$\bar{x}$的渐近分布为$N(\theta, \theta^{2})$
}
\questionandanswerSolution[17]{
$x_1,x_2, \cdots x_{20}$是从二点分布$b(1,p)$抽取的样本,试求样本均值$\bar{x}$的渐近分布。
}{
设随机变量$X$表示从总体中抽出的一个样本,则
$$
EX=p,\ \operatorname{Var}X=p(1-p)
$$
所以$\bar{x}$的渐近分布为$N(p, p(1-p))$
}
\questionandanswerSolution[23]{
设总体$X$服从几何分布,即$P(X=k)=pq^{k-1}, k=1,2, \cdots $,其中$0<p<1,q=1-p,\\ x_1,x_2, \cdots ,x_n$为该总体的样本,求$x_{(n)}, x_{(1)}$的概率分布。
}{
设总体$X$的概率密度函数为$p(x)$,分布函数为$F(x)$,则
$$
F(x)=\sum_{k=1}^{\left\lfloor x \right\rfloor} pq^{k-1}=\frac{p-pq^{\left\lfloor x \right\rfloor}}{1-q}
$$
$$
p_{x_{(n)}}(x)=\frac{n!}{(n-1)!}[F(x)]^{n-1}p(x)=n pq^{\left\lfloor x \right\rfloor-1}\left[ \frac{p-pq^{\left\lfloor x \right\rfloor}}{1-q} \right] ^{n-1}
$$
$$
p_{x_{(1)}}=\frac{n!}{(n-1)!}[1-F(x)]^{n-1}p(x)=npq^{\left\lfloor x \right\rfloor-1}\left[ 1-\frac{p-pq^{\left\lfloor x \right\rfloor}}{1-q} \right] ^{n-1}
$$
}
\questionandanswer[28]{
设总体$X$的分布函数$F(x)$是连续的,$x_{(1)},x_{(2)}, \cdots ,x_{(n)}$为取自此总体的次序统计量,设$\eta_i=F(x_{(i)})$,试证:
}{}
\begin{enumerate}
\questionandanswerProof[-]{
\item $\eta_1\leqslant \eta_2\leqslant \cdots\leqslant \eta_n$,且$\eta_i$是来自均匀分布$U(0,1)$总体的次序统计量。
}{
因为$x_{(1)}\leqslant x_{(2)}\leqslant \cdots\leqslant x_{(n)}$$F(x)$单调,$\eta_i=F(x_{(i)})$,所以$\eta_1\leqslant \eta_2\leqslant \cdots\leqslant \eta_n$
}
\questionandanswerProof[-]{
\item $\displaystyle E(\eta_i)=\frac{i}{n+1}, \ \operatorname{Var}(\eta_i)=\frac{i(n+1-i)}{(n+1)^{2}(n+2)},1\leqslant i\leqslant n$
}{
设总体的概率密度函数为$p(x)$,则$\eta_i$的分布函数为
$$
p_{(i)}(x)=\frac{n!}{(i-1)!(n-i)!}[F(x)]^{i-1}[1-F(x)]^{n-i}p(x)
$$
$$
\begin{aligned}
E(\eta_i)&=\sum_{i=1}^{n} F(x_{(i)})p_{(i)}(x_{(i)}) \\
&=\sum_{i=1}^{n} F(x_{(i)}) \frac{n!}{(i-1)!(n-i)!}[F(x_{(i)})]^{i-1}[1-F(x_{(i)})]^{n-i}p(x) \\
&=\sum_{i=1}^{n} \frac{n!}{(i-1)!(n-i)!}[F(x_{(i)})]^{i}[1-F(x_{(i)})]^{n-i}p(x) \\
\end{aligned}
$$
$$
\operatorname{Var}(\eta_i)=
$$
实在是不会了。
}
\questionandanswerProof[-]{
\item $\eta_i$$\eta_j$的协方差矩阵为
$
\begin{bmatrix}
\frac{a_1(1-a_1)}{n+2} & \frac{a_1(1-a_2)}{n+2} \\
\frac{a_1(1-a_2)}{n+2} & \frac{a_2(1-a_2)}{n+2} \\
\end{bmatrix}
$
,其中$\displaystyle a_1=\frac{i}{n+1}, a_2=\frac{j}{n+1}$
}{
$$
E(\eta_i)=\frac{i}{n+1},\ E(\eta_j)=\frac{j}{n+1},\ E(\eta_i \eta_j)=
$$
实在是不会了。
}
\end{enumerate}
\questionandanswerProof[32]{
设总体$X$的密度函数为
$
p(x)=\begin{cases}
3x^{2},\quad & 0<x<1, \\
0,\quad & \text{其他}, \\
\end{cases}
$
$x_{(1)}\leqslant x_{(2)}\leqslant \cdots\leqslant x_{(5)}$为容量为5的取自此总体的次序统计量试证$\dfrac{x_{(2)}}{x_{(4)}}$$x_{(4)}$相互独立。
}{
根据相互独立的定理,需要证明$\displaystyle \forall x,y,\ p_{\frac{x_{(2)}}{x_{(4)}}}(x)\cdot p_{x_{(4)}}(y)=p_{\frac{x_{(2)}}{x_{(4)}},x_{(4)}}(x,y)$,之后就不会了。
}
\questionandanswer[35]{
对下列数据构造箱线图:\\
472 \quad
425 \quad
447 \quad
377 \quad
341 \quad
369 \quad
412 \quad
419 \quad
400 \quad
382 \quad
366 \quad
425 \quad
399 \quad
398 \quad
423 \quad
384 \quad
418 \quad
392 \quad
372 \quad
418 \quad
374 \quad
385 \quad
439 \quad
428 \quad
429 \quad
428 \quad
430 \quad
413 \quad
405 \quad
381 \quad
403 \quad
479 \quad
381 \quad
443 \quad
441 \quad
433 \quad
419 \quad
379 \quad
386 \quad
387 \quad
}{
\begin{center}
\includegraphics[width=0.5\linewidth]{imgs/5.3.35.png}
\end{center}
}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,6 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\subfile{第五周作业}
\subfile{第六周作业}
\end{document}

View File

@@ -0,0 +1,216 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\renewcommand{\bar}{\xoverline}
\renewcommand{\hat}{\xwidehat}
\setcounter{chapter}{6}
\section{点估计的概念与无偏性}
\begin{enumerate}
\questionandanswerProof[3]{
$\hat{\theta}$是参数$\theta$的无偏估计,且有$\operatorname{Var}(\hat{\theta})>0$,试证$(\hat{\theta})^{2}$不是$\theta^{2}$的无偏估计。
}{
由题意可知$E\hat{\theta}=\theta$$\operatorname{Var}\hat{\theta}=E\hat{\theta}^{2}-(E\hat{\theta})^{2}>0$,所以$E\hat{\theta}^{2}>(E\hat{\theta})^{2}=\theta^{2}$,所以$\hat{\theta}^{2}$不是$\theta^{2}$的无偏估计。
}
\questionandanswerSolution[4]{
设总体$X\sim N(\mu,\sigma^{2}), x_1,x_2, \cdots ,x_{n}$是来自该总体的一个样本。试确定常数$c$使$\displaystyle c\sum_{i=1}^{n-1} (x_{i+1}-x_{i})^{2}$$\sigma^{2}$的无偏估计。
}{
$$
\begin{aligned}
Ec\sum_{i=1}^{n-1} (x_{i+1}-x_{i})^{2}&=Ec\sum_{i=1}^{n-1} (x_{i+1}^{2}-2x_{i}x_{i+1} + x_i^{2}) \\
&=c\sum_{i=1}^{n-1} Ex_{i+1}^{2}-2c\sum_{i=1}^{n-1} Ex_{i}x_{i+1}+c\sum_{i=n}^{n-1} Ex_{i}^{2} \\
\end{aligned}
$$
因为总体$X\sim N(\mu,\sigma)$,所以$\forall i=1,2, \cdots ,n$ $Ex_{i}=\mu, \operatorname{Var}x_i=Ex_{i}^{2}-(Ex_{i})^{2}=\sigma^{2}$,从而$Ex_{i}^{2}=\sigma^{2}+\mu^{2}$。由于$x_i$$x_{i+1}$独立,所以$Ex_{i}x_{i+1}=Ex_{i}\cdot Ex_{i+1}=\mu^{2}$。所以
$$
\begin{aligned}
\text{上式}&=c \sum_{i=1}^{n-1} (\sigma^{2}+\mu^{2})-2c\sum_{i=1}^{n-1} \mu^{2}+c\sum_{i=1}^{n-1} (\sigma^{2}+\mu^{2}) \\
&=2c(n-1)(\sigma^{2}+\mu^{2})-2c(n-1)\mu^{2} \\
&=2c(n-1)\sigma^{2} \\
\end{aligned}
$$
所以当$\displaystyle c=\frac{1}{2(n-1)}$时,$\displaystyle c\sum_{i=1}^{n-1} (x_{i+1}-x_{i})^{2}$$\sigma^{2}$的无偏估计。
}
\questionandanswerProof[5]{
$x_1,x_2, \cdots ,x_n$是来自下列总体的简单样本,
$$
p(x,\theta)=\begin{cases}
1,\quad & \theta-\frac{1}{2}\leqslant x\leqslant \theta+\frac{1}{2} \\
0,\quad & \text{其他} \\
\end{cases}\quad -\infty<\theta<\infty
$$
证明样本均值$\bar{x}$$\frac{1}{2}(x_{(1)}+x_{(n)})$都是$\theta$的无偏估计,问何者更有效?
}{
$E \bar{x}=\theta$$\operatorname{Var}\bar{x}=\frac{1}{n}\times \frac{1}{12}=\frac{1}{12n}$
$E \frac{1}{2}(x_{(1)}+x_{(n)}) $为样本中最小值和最大值的平均,虽然计算不出,但理论上也应该是$\theta$。但是似乎不像样本均值一样覆盖了样本全部的信息,所以应该是$\operatorname{Var}\bar{x}\leqslant \operatorname{Var} \frac{1}{2}(x_{(1)}+x_{(n)})$,即$\bar{x}$更有效。
}
\questionandanswerSolution[9]{
设有$k$台一起,已知用第$i$台仪器测量的标准差为$\sigma_i(i=1,2, \cdots ,k)$。用这些仪器独立地对某一物理量$\theta$各观察一次,分别得到$x_1,x_2, \cdots ,x_k$,设仪器都没有系统偏差。问$a_1,a_2, \cdots ,a_k$应取何值,方能使$\displaystyle \hat{\theta}=\sum_{i=1}^{k} a_i x_i$ 成为$\theta$的无偏估计,且方差达到最小?
}{
$$
E \hat{\theta}=E\sum_{i=1}^{k} a_i x_i= \sum_{i=1}^{k} a_i E x_i=\theta \sum_{i=1}^{k} a_i=\theta \Longrightarrow \sum_{i=1}^{k} a_i=1
$$
$$
\operatorname{Var} \hat{\theta}=\operatorname{Var} \sum_{i=1}^{k} a_i x_i=\sum_{i=1}^{k} a_i^{2} \operatorname{Var}x_i=\sum_{i=1}^{k} a_i^{2} \sigma_i^{2}
$$
所以原问题可以转化为
$$
\mathop{\arg\min}_{a_i}
\quad \sum_{i=1}^{k} a_i^{2}\sigma_i^{2}
\ \ ,\quad \text{s.t.}
\ \ \sum_{i=1}^{k} a_i=1
$$
对此可以使用拉格朗日乘数法。
$$
f(a_1, \cdots ,a_n, \lambda)=\sum_{i=1}^{k} a_i^{2}\sigma_i^{2}+\lambda \left( \sum_{i=1}^{k} a_i - 1 \right)
$$
$$
\begin{cases}
\forall i=1,2, \cdots ,k,\quad f'_{a_i}=2 a_i \sigma_i^{2}+\lambda=0 \\
f'_{\lambda}=\sum_{i=1}^{k} a_i - 1=0 \\
\end{cases}
$$
解得
$$
\begin{cases}
\forall i=1,2, \cdots ,k, \quad a_i=\displaystyle \frac{\frac{1}{2\sigma_i^{2}}}{\sum_{i=1}^{k} \frac{1}{2\sigma_i^{2}}} \\
\lambda=\displaystyle -\frac{1}{\sum_{i=1}^{k} \frac{1}{2\sigma_i^{2}}} \\
\end{cases}
$$
所以$\forall i=1,2, \cdots ,k, \quad a_i=\displaystyle \frac{\frac{1}{2\sigma_i^{2}}}{\sum_{i=1}^{k} \frac{1}{2\sigma_i^{2}}}$,方能使$\displaystyle \hat{\theta}=\sum_{i=1}^{k} a_i x_i$ 成为$\theta$的无偏估计,且方差达到最小。
}
\questionandanswerSolution[11]{
设总体$X$服从正态分布$N(\mu,\sigma^{2})$$x_1,x_2, \cdots ,x_n$为来自总体$X$的样本,为了得到标准差$\sigma$的估计量,考虑统计量:
$$
y_1=\frac{1}{n}\sum_{i=1}^{n} \left\vert x_i-\bar{x} \right\vert ,\quad \bar{x}=\frac{1}{n}\sum_{i=1}^{n} x_i, \quad n\geqslant 2
$$
$$
y_2=\frac{1}{n(n-1)} \sum_{i=1}^{n} \sum_{j=1}^{n} \left\vert x_i-x_j \right\vert ,\quad n\geqslant 2
$$
求常数$C_1$$C_2$,使得$C_1y_1$$C_2y_2$都是$\sigma$的无偏估计。
}{
由于$\forall i,j=1,2, \cdots ,n(i\neq j), \quad x_i\sim N(\mu,\sigma^{2}),x_j\sim N(\mu,\sigma^{2}), \bar{x}\sim N(\mu,\frac{\sigma^{2}}{n})$且它们应该相互独立。
所以
$$
x_i-\bar{x}\sim N(0, \sigma^{2}+\frac{\sigma^{2}}{n}), \quad x_i-x_j\sim N(0, 2\sigma^{2})
$$
因为$Y\sim N(0,\sigma^{2})$$E\left\vert Y \right\vert =\sigma \sqrt{\frac{2}{\pi}}$,所以
$$
E\left\vert x_i-\bar{x} \right\vert =\sqrt{\sigma^{2}+\frac{\sigma^{2}}{n}}\sqrt{\frac{2}{\pi}}=\sigma\sqrt{1+\frac{1}{n}}\sqrt{\frac{2}{\pi}}, \quad E\left\vert x_i-x_j \right\vert = \sqrt{2}\sigma\sqrt{\frac{2}{\pi}}=\frac{2\sigma}{\sqrt{\pi}}
$$
所以
$$
EC_1y_1=C_1\frac{1}{n}\times n \cdot \sigma\sqrt{1+\frac{1}{n}}\sqrt{\frac{2}{\pi}}=\sigma \Longrightarrow C_1=\frac{1}{\sqrt{1+\frac{1}{n}}\sqrt{\frac{2}{\pi}}} = \sqrt{\frac{n\pi}{2n+2}}
$$
$$
EC_2y_2=C_2 \frac{1}{n(n-1)} (n^{2}-n) \cdot \frac{2\sigma}{\sqrt{\pi}}=\sigma \Longrightarrow C_2=\frac{\sqrt{\pi}}{2}
$$
所以
$$
C_1=\sqrt{\frac{n\pi}{2n+2}}, \quad C_2=\frac{\sqrt{\pi}}{2}
$$
}
\end{enumerate}
\section{矩估计及相合性}
\begin{enumerate}
\questionandanswer[3]{
设总体分布列如下,$x_1,x_2, \cdots ,x_n$是样本,试求未知参数的矩估计:
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$P(X=k)=\frac{1}{N}, k=0,1,2, \cdots ,N-1$$N$(正整数)是未知参数;
}{
$$
EX = \sum_{k=0}^{N-1} k \cdot \frac{1}{N}=\frac{1}{N}\cdot \frac{N(N-1)}{2}=\frac{N-1}{2}
$$
所以$N=2EX+1$,所以$N$的矩估计为
$$
\hat{N}=2 \bar{x}+1
$$
}
\questionandanswerSolution[]{
$P(X=k)=(k-1)\theta^{2}(1-\theta)^{k-2},\quad k=2,3, \cdots ,\quad 0<\theta<1$
}{
$\displaystyle
EX=\sum_{k=2}^{\infty} k(k-1)\theta^{2}(1-\theta)^{k-2} = \frac{2}{\theta}
$
,所以$\theta=\dfrac{2}{EX}$,所以$\theta$的矩估计为
$\displaystyle
\hat{\theta}=\frac{2}{\bar{x}}
$
}
\end{enumerate}
\questionandanswer[4]{
设总体密度函数如下,$x_1,x_2, \cdots ,x_n$是样本,试求未知参数的矩估计:
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$p(x;\theta)=\frac{2}{\theta^{2}}(\theta-x),\quad 0<x<\theta, \quad \theta>0$
}{
$\displaystyle
EX=\int_{0}^{\theta} x\frac{2}{\theta^{2}}(\theta-x) \mathrm{d}x = \frac{\theta}{3}
$
,所以$\theta=3EX$,所以$\theta$的矩估计是$\hat{\theta}=3 \bar{x}$
}
\questionandanswerSolution[]{
$p(x;\theta)=(\theta+1)x^{\theta},\quad 0<x<1,\quad \theta>0$
}{
$\displaystyle EX=\int_{0}^{1} x(\theta+1)x^{\theta} \mathrm{d}x = \frac{\theta + 1}{\theta + 2} $,所以$\theta$的矩估计是$\displaystyle \hat{\theta}=\frac{1}{1-\bar{x}}-2$
}
\questionandanswerSolution[]{
$p(x;\theta)=\sqrt{\theta}x^{\sqrt{\theta}-1},\quad 0<x<1, \quad ,\theta>0$
}{
$\displaystyle
EX=\int_{0}^{1} x\sqrt{\theta}x^{\sqrt{\theta}-1} \mathrm{d}x = \frac{\sqrt{\theta}}{\sqrt{\theta} + 1}
$
,所以$\theta$的矩估计是$\displaystyle \hat{\theta}=\left( \frac{\bar{x}}{1-\bar{x}} \right) ^{2}$
}
\questionandanswerSolution[]{
$\displaystyle p(x;\theta,\mu)=\frac{1}{\theta}e^{-\frac{x-\mu}{\theta}}, \quad x>\mu,\quad \theta>0$
}{
$$
EX=\int_{\mu}^{+\infty} x \cdot \frac{1}{\theta}e^{-\frac{x-\mu}{\theta}} \mathrm{d}x=\theta+\mu
$$
$$
EX^{2}=\int_{\mu}^{+\infty} x^{2}\cdot \frac{1}{\theta}e^{-\frac{x-\mu}{\theta}} \mathrm{d}x = 2\theta^{2}+2\mu \theta+\mu^{2}
$$
$$
\operatorname{Var}X=EX^{2}-(EX)^{2}=2\theta^{2}+2\mu \theta+\mu^{2}-(\theta+\mu)^{2} = \theta^{2}
$$
所以$\theta$$\mu$的矩估计是
$$
\hat{\theta}=s, \quad \hat{\mu}=\bar{x}-s
$$
}
\end{enumerate}
\questionandanswerSolution[5]{
设总体为$N(\mu,1)$,现对该总体观测$n$次,发现有$k$次观测值为正,使用频率替换方法求$\mu$的估计。
}{
设总体为$X$,则根据频率替换方法,$P(X>0)=\dfrac{k}{n}$。设标准正态分布的累积分布函数为$\Phi(x)$,则
$$
\frac{k}{n}=P(X>0)=P\left( \frac{x-\mu}{1}>\frac{0-\mu}{1} \right) =1-P\left( \frac{x-\mu}{1}\leqslant -\mu \right) =1-\Phi(-\mu)
$$
所以$\mu$的估计为
$$
\hat{\mu}=-\Phi^{-1}(1-\frac{k}{n})
$$
}
\questionandanswerSolution[7]{
设总体$X$服从二项分布$b(m,p)$,其中$m,p$为未知参数,$x_1,x_2, \cdots ,x_n$$X$的一个样本,求$m$$p$的矩估计。
}{
因为
$\displaystyle
EX=mp,\ \operatorname{Var}X=mp(1-p)
$
,所以$\displaystyle p=1-\frac{\operatorname{Var}X}{EX}$$\displaystyle m=\frac{EX}{p}=\frac{(EX)^{2}}{EX-\operatorname{Var}X}$,所以$m$$p$的矩估计为
$$
m=1-\frac{s}{\bar{x}},\qquad p=\frac{\bar{x}^{2}}{\bar{x}-s}
$$
}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,268 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\renewcommand{\bar}{\xoverline}
\renewcommand{\hat}{\xwidehat}
\setcounter{chapter}{6}
\section{最大似然估计与EM算法}
\begin{enumerate}
\questionandanswer[2]{
设总体概率函数如下,$x_1,x_2, \cdots ,x_n$是样本,试求未知参数的最大似然估计。
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$p(x;\theta)=c \theta^{c} x^{-(c+1)},x>\theta,\theta>0,c>0$已知;
}{
对数似然函数
$$
\begin{aligned}
\ln L(\theta)&=\ln \prod_{i=1}^{n} p(x_i|\theta)=\ln \prod_{i=1}^{n} c \theta^{c} x_i^{-(c+1)} \\
&= \sum_{i=1}^{n} \ln (c\theta^{c}x_i^{-(c+1)})=\sum_{i=1}^{n} (\ln c+c\ln \theta-(c+1)\ln x_i) \\
&=n\ln c+nc\ln \theta-(c+1)\sum_{i=1}^{n} \ln x_i \\
\end{aligned}
$$
只需要让$\theta$尽量大即可使似然函数取到最大值,又因为$\theta<x$,所以$\theta$的最大似然估计为$\hat{\theta}=x_{(1)}$
}
\questionandanswerSolution[]{
$p(x;\theta,\mu)=\displaystyle \frac{1}{\theta}e^{-\frac{x-\mu}{\theta}},x>\mu,\theta>0$
}{
对数似然函数
$$
\begin{aligned}
&\ln L(\theta,\mu)=\ln \prod_{i=1}^{n} p(x;\theta,\mu)=\ln \prod_{i=1}^{n} \frac{1}{\theta}e^{-\frac{x-\mu}{\theta}} \\
&=\sum_{i=1}^{n} \ln \left( \frac{1}{\theta}e^{-\frac{x-\mu}{\theta}} \right) =\sum_{i=1}^{n} (-\ln \theta-\frac{x-\mu}{\theta}) \\
&=-n\ln \theta - \frac{1}{\theta}\sum_{i=1}^{n} x_i+\frac{n\mu}{\theta} \\
\end{aligned}
$$
对于$\mu$,由于$\ln L(\theta,\mu)$关于$\mu$是线性关系,所以只需要$\mu$尽量大即可使似然函数取到最大值,而$\mu<x$,所以$\hat{\mu}=x_{(1)}$
对于$\theta$,则需要求偏导,令
$$
\frac{\partial \ln L(\theta,\mu)}{\partial \theta}=-\frac{n}{\theta}+\frac{1}{\theta^{2}}\sum_{i=1}^{n} x_i-\frac{n\mu}{\theta^{2}}=0
$$
则可解得$\theta=\displaystyle \frac{1}{n}\sum_{i=1}^{n} x_i-\mu = \bar{x}-\mu$。此时$\ln L(\theta,\mu)$关于$\theta$最大。
所以$\hat{\mu}=x_{(1)}$, $\hat{\theta}=\bar{x}-x_{(1)}$
}
\questionandanswerSolution[]{
$p(x;\theta)=(k\theta)^{-1}, \theta<x<(k+1)\theta, \theta>0,k>0$已知。
}{
对数似然函数
$$
\ln L(\theta)=\ln \prod_{i=1}^{n} (k\theta)^{-1}=\sum_{i=1}^{n} \ln (k\theta)^{-1}=\sum_{i=1}^{n} (-k\theta)=-nk\theta
$$
只要$\theta$尽量小即可使似然函数取得最大值。由于$\theta<x<(k+1)\theta$$k>0$,所以$\frac{\theta}{k+1}<\frac{x}{k+1}<\theta$,所以$\theta$的最大似然估计为$\hat{\theta}=\dfrac{x_{(n)}}{k+1}$
}
\end{enumerate}
\questionandanswerSolution[4]{
一地质学家为研究密歇根湖的湖滩地区的岩石成分随机地自该地区取100个样品每个样品有10块石子记录了每个样品中属石灰石的石子数。假设这100次观察柜互独立求这地区石子中石灰石的比例$p$的最大似然估计。该地质学家所得的数据如下:
\begin{tabular}{c|ccccccccccc}
样本中的石子数 & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 \\
\hline
样品个数 & 0 & 1 & 6 & 7 & 23 & 26 & 21 & 12 & 3 & 1 & 0 \\
\end{tabular}
}{
当已知石灰石的比例为$p$时,并且如果每次抽样都是随机抽样,那么每个石子是石灰石的概率就是$p$由于每个样品有10块石子所以一次抽样服从二项分布$b(10,p)$,则概率函数为
$$
p(k;p)=\mathrm{C}_{10}^{k}p^{k}(1-p)^{10-k}
$$
设表格中的第一行为$x_i(i=0,1, \cdots ,10)$,第二行为$a_i(i=0,1, \cdots, 10)$,则对数似然函数为
$$
\begin{aligned}
&\ln L(p)=\ln \prod_{i=1}^{n} \left( \mathrm{C}_{10}^{x_i} p^{x_i}(1-p)^{10-x_i} \right) ^{a_i} \\
&=\sum_{i=1}^{n} a_i\left( \ln \mathrm{C}_{10}^{x_i}+x_i\ln p+(10-x_i)\ln (1-p) \right) \\
&=\sum_{i=1}^{n} a_i \ln \mathrm{C}_{10}^{x_i} +\ln p \sum_{i=1}^{n} a_i x_i+\ln (1-p)\sum_{i=1}^{n} a_i(10-x_i) \\
\end{aligned}
$$
$$
\frac{\mathrm{d}\ln L(p)}{\mathrm{d}p} = \frac{\sum_{i=1}^{n} a_i x_i}{p}-\frac{\sum_{i=1}^{n} a_i(10-x_i)}{1-p}=0
$$
解得
$$
p=\frac{\sum_{i=1}^{n} a_i x_i}{10 \sum_{i=1}^{n} a_i}= \frac{\sum_{i=1}^{n} a_i \frac{x_i}{10}}{\sum_{i=1}^{n} a_i}
$$
即以样品个数为权重,样品中石灰石比例的加权平均值。
所以
$$
\hat{p}=\frac{\sum_{i=1}^{n} a_i x_i}{10 \sum_{i=1}^{n} a_i} = \frac{
\begin{split}
0\times 0+1\times 1+6\times 2+7\times 3+23\times 4+26\times 5 \\+21\times 6+12\times 7+3\times 8+1\times 9+0\times 10
\end{split}
}{10\times 100} = 0.499
$$
}
\questionandanswerSolution[5]{
在遗传学研究中经常要从截尾二项分布中抽样,其总体概率函数为
$$
p(X=k;p)=\frac{\displaystyle \binom{m}{k}p^{k}(1-p)^{m-k}}{1-(1-p)^{m}},\quad k=1,2, \cdots ,m
$$
若已知$m=2,x_1,x_2, \cdots ,x_n$是样本,试求$p$的最大似然估计。
}{
对数似然函数为
$$
\begin{aligned}
\ln L(p)&= \ln \prod_{i=1}^{n} \frac{\displaystyle \binom{m}{x_i}p^{x_i}(1-p)^{m-x_i}}{1-(1-p)^{m}} \\
&=\sum_{i=1}^{n} \left[ \ln \binom{m}{x_i}+x_i\ln p+(m-x_i)\ln (1-p)-\ln (1-(1-p)^{m}) \right] \\
&=\sum_{i=1}^{n} \ln \binom{m}{x_i}+\ln p \sum_{i=1}^{n} x_i+\ln (1-p)\sum_{i=1}^{n} (m-x_i)-n\ln (1-(1-p)^{m}) \\
\end{aligned}
$$
$$
\frac{\mathrm{d}\ln L(p)}{\mathrm{d}p}=\frac{\sum_{i=1}^{n} x_i}{p}-\frac{\sum_{i=1}^{n} (m-x_i)}{1-p}-n \frac{-m(1-p)^{m-1}}{1-(1-p)^{m}}=0
% m=2
% solve(latex2sympy(r"\frac{\sum_{i=1}^{n} x_i}{p}-\frac{\sum_{i=1}^{n} (m-x_i)}{1-p}-n \frac{-m(1-p)^{m-1}}{1-(1-p)^{m}}=0"), p)
$$
由于$m=2$,所以
$$
\frac{\sum_{i=1}^{n} x_i}{p}-\frac{\sum_{i=1}^{n} (2-x_i)}{1-p}+\frac{2n(1-p)}{1-(1-p)^{2}}=0
% [ p = - \frac{\sqrt{(- 8 n x_{i} + 16 n + x_{i}^{2} \sum_{i=1}^{n} 1 - 8 x_{i} \sum_{i=1}^{n} 1 + 16 \sum_{i=1}^{n} 1) \sum_{i=1}^{n} 1}}{2 \cdot (2 n + 2 \sum_{i=1}^{n} 1)} + \frac{4 n + 2 \sum_{i=1}^{n} 2 + 2 \sum_{i=1}^{n} - x_{i} + 3 \sum_{i=1}^{n} x_{i}}{2 \cdot (2 n + \sum_{i=1}^{n} 2 + \sum_{i=1}^{n} - x_{i} + \sum_{i=1}^{n} x_{i})}, \ p = \frac{\sqrt{(- 8 n x_{i} + 16 n + x_{i}^{2} \sum_{i=1}^{n} 1 - 8 x_{i} \sum_{i=1}^{n} 1 + 16 \sum_{i=1}^{n} 1) \sum_{i=1}^{n} 1}}{2 \cdot (2 n + 2 \sum_{i=1}^{n} 1)} + \frac{4 n + 2 \sum_{i=1}^{n} 2 + 2 \sum_{i=1}^{n} - x_{i} + 3 \sum_{i=1}^{n} x_{i}}{2 \cdot (2 n + \sum_{i=1}^{n} 2 + \sum_{i=1}^{n} - x_{i} + \sum_{i=1}^{n} x_{i})}, \ n = \frac{- p (p - 1)^{2} (\sum_{i=1}^{n} x_{i} + \sum_{i=1}^{n} (2 - x_{i})) + p (\sum_{i=1}^{n} x_{i} + \sum_{i=1}^{n} (2 - x_{i})) + (p - 1)^{2} \sum_{i=1}^{n} x_{i} - \sum_{i=1}^{n} x_{i}}{2 p (p - 1)^{2}}]
$$
$$
\frac{n \bar{x}}{p}- \frac{2-n \bar{x}}{1-p}+\frac{2n(1-p)}{1-(1-p)^{2}}=0
$$
解得$p$的最大似然估计为
$$
\hat{p} = \frac{\bar{x} n + 4 n + 4}{4 (n + 1)} \pm \frac{\sqrt{\bar{x}^{2} n^{2} - 8 \bar{x} n^{2} - 8 \bar{x} n + 16 n + 16}}{4 (n + 1)}
$$
}
\questionandanswerSolution[6]{
已知在文学家萧伯纳的 "The Intelligent Woman's Guide to Socialism and Capitalism" 一书中 ,一个句子的单词数$X$近似地服从对数正态分布,即$Z=\ln X\sim N(\mu,\sigma^{2})$。今从该书中随机地取20个句子这些句子中的单词数分别为
$$
52\quad24\quad15\quad67\quad15\quad22\quad63\quad26\quad16\quad32\quad7\quad33\quad28\quad14\quad7\quad29\quad10\quad6\quad59\quad30
$$
求该书中一个句子单词数均值$E(X)=e^{\mu+\frac{\sigma^{2}}{2}}$的最大似然估计。
}{}
{\kaishu
根据题意,由于$Z=\ln X \sim N(\mu,\sigma^{2})$,可以将一个句子的单词数先取自然对数,此时即可使用正态分布的最大似然估计来估计$\mu$$\sigma^{2}$
\begin{minted}[frame=single]{python}
import numpy as np
a = np.array([52,24,15,67,15,22,63,26,16,32,7,33,28,14,7,29,10,6,59,30])
print(np.log(a))
# [3.95124372 3.17805383 2.7080502 4.20469262 2.7080502 3.09104245
# 4.14313473 3.25809654 2.77258872 3.4657359 1.94591015 3.49650756
# 3.33220451 2.63905733 1.94591015 3.36729583 2.30258509 1.79175947
# 4.07753744 3.40119738]
print(np.mean(np.log(a)))
# 3.0890326915239807
print(np.var(np.log(a)))
# 0.5081312851436304
\end{minted}
所以$\hat{\mu}\approx 3.0890326915239807$, $\widehat{(\sigma^{2})}\approx 0.5081312851436304$
再根据最大似然估计的不变性,直接计算$\displaystyle e^{\hat{\mu}+\frac{\widehat{(\sigma^{2})}}{2}}$
\begin{minted}[frame=single]{python}
np.exp(np.mean(np.log(a)) + np.var(np.log(a)) / 2)
# 28.306694575039742
\end{minted}
则该书中一个句子单词数均值$E(X)=e^{\mu+\frac{\sigma^{2}}{2}}$的最大似然估计约为$28.306694575039742$
}
\questionandanswer[7]{
设总体$X\sim U(\theta,2\theta)$,其中$\theta>0$是未知参数,$x_1,x_2, \cdots ,x_n$为取自该总体的样本,$\bar{x}$为样本均值。
}{}
\begin{enumerate}
\questionandanswerProof[]{
证明$\hat{\theta}=\dfrac{2}{3} \bar{x}$是参数$\theta$的无偏估计和相合估计;
}{
$$
E \hat{\theta}=E \frac{2}{3} \bar{x}= E \frac{2}{3} \frac{1}{n}\sum_{i=1}^{n} x_i=\frac{2}{3} \frac{1}{n} \sum_{i=1}^{n} EX=\frac{2}{3} \frac{1}{n} n \frac{\theta+2\theta}{2}=\theta
$$
$$
\operatorname{Var} \hat{\theta}=\operatorname{Var} \frac{2}{3} \bar{x}=\frac{2}{3} \frac{n \operatorname{Var}X}{n^{2}}=\frac{2\operatorname{Var}X}{3n} \xrightarrow{n \to \infty} 0
$$
所以$\hat{\theta} = \dfrac{2}{3} \bar{x}$是参数$\theta$的无偏估计和相合估计。
}
\questionandanswerSolution[]{
$\theta$的最大似然估计,它是无偏估计吗?是相合估计吗?
}{
$$
\ln L(\theta)= \ln \prod_{i=1}^{n} 1_{[\theta,2\theta]}(x_i) \cdot \frac{1}{\theta}=\frac{1}{\theta} \sum_{i=1}^{n} \ln 1_{[\theta,2\theta]}(x_i)
$$
要使似然函数最大,则需要$\theta$尽量小,同时要满足$\theta\leqslant x_i\leqslant 2\theta$,即$\frac{\theta}{2}\leqslant \frac{x_i}{2}\leqslant \theta$,所以$\theta$的最大似然估计为$\hat{\theta}=\dfrac{x_{(n)}}{2}$
下面验证无偏性。
$$
E \hat{\theta}=\frac{1}{2} \int_{\theta}^{2\theta} x \frac{n}{\theta} \left( \frac{x-\theta}{\theta} \right) ^{n-1} \mathrm{d}x = \frac{\theta (2 n + 1)}{2 (n + 1)} \xrightarrow{n \to \infty} \theta
$$
所以$\hat{\theta}$不是无偏估计,但是是渐近无偏估计。
下面验证相合性。
$$
E \hat{\theta}^{2} = \frac{1}{4} \int_{\theta}^{2\theta} x^{2} \frac{n}{\theta} \left( \frac{x-\theta}{\theta} \right) ^{n-1} \mathrm{d}x=\frac{\theta^{2} (n^{2} + 2 n + \frac{1}{2})}{n^{2} + 3 n + 2}
$$
$$
\operatorname{Var}\hat{\theta} = E\hat{\theta}^{2} - (E \hat{\theta})^{2}=
\frac{n \theta^{2}}{4 (n^{3} + 4 n^{2} + 5 n + 2)} \xrightarrow{n \to \infty} 0
$$
所以$\hat{\theta}$是相合估计。
}
\end{enumerate}
\questionandanswer[8]{
$x_1,x_2, \cdots ,x_n$是来自密度函数为$p(x;\theta)=e^{-(x-\theta)},x>\theta$的总体的样本。
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$\theta$的最大似然估计$\hat{\theta}_1$,它是否是相合估计?是否是无偏估计?
}{
$$
\ln L(\theta)= \ln \prod_{i=1}^{n} e^{-(x-\theta)}=\sum_{i=1}^{n} (-(x_i-\theta))= -\sum_{i=1}^{n} x_i+ n \theta
$$
要让似然函数最大,$\theta$要尽量大,同时$\theta<x$,所以$\theta$的最大似然估计为$\hat{\theta}=x_{(1)}$
$\hat{\theta}=x_{(1)}$的概率函数为
$$
p(x)=n \left[1-\int_{\theta}^{x} e^{-(t-\theta)} \mathrm{d}t\right]^{n-1} e^{-(x-\theta)} = n (e^{\theta - x})^{n}
$$
则可以验证无偏性
$$
E \hat{\theta}_1= \int_{\theta}^{+\infty} x n(e^{\theta-x})^{n} \mathrm{d}x = \frac{1}{n} + \theta \xrightarrow{n \to \infty} \theta
$$
所以$\hat{\theta}_1$不是无偏估计,但是是渐近无偏估计。
下面验证相合性。
$$
E \hat{\theta}_1^{2}=\int_{\theta}^{+\infty} x^{2}n(e^{\theta-x})^{n} \mathrm{d}x=\frac{2}{n^{2}}+\frac{2}{n} \theta+\theta^{2}
$$
$$
\operatorname{Var} \hat{\theta}_1=E \hat{\theta}_1^{2}-(E \hat{\theta})^{2}=\frac{2}{n^{2}}+\frac{2}{n}\theta+\theta^{2}- \left( \frac{1}{n}+\theta \right) ^{2} = \frac{1}{n^{2}} \xrightarrow{n \to \infty} 0
$$
所以$\hat{\theta}_1$是相合估计。
}
\questionandanswerSolution[]{
$\theta$的矩估计$\hat{\theta}_2$,它是否是相合估计?是否是无偏估计?
}{
$$
EX=\int_{\theta}^{+\infty} x e^{-(x-\theta)} \mathrm{d}x = \theta + 1
$$
所以$\hat{\theta}_2=1- \bar{x}$
$$
E \hat{\theta}_2=E(1-\bar{x})=1-EX=\theta
$$
所以$\hat{\theta}_2$是无偏估计。
$$
\operatorname{Var} \hat{\theta}_2=\operatorname{Var}(1-\bar{x})=\frac{\operatorname{Var}X}{n} \xrightarrow{n \to \infty} 0
$$
所以$\hat{\theta}_2$是相合估计。
}
\end{enumerate}
\questionandanswerProof[10]{
证明:对正态分布$N(\mu,\sigma^{2})$,若只有一个观测值,则$\mu,\sigma^{2}$的最大似然估计不存在。
}{
设此观测值为$x$,则似然函数为
$$
L(\mu, \theta)=\frac{1}{\sqrt{2\pi}} e^{-\left( \frac{x-\mu}{\sigma} \right) ^{2}}
$$
要使似然函数最大,则$\left( \frac{x-\mu}{\sigma} \right) ^{2}$应尽量小,则$\frac{(x-\mu)^{2}}{\sigma^{2}} \to 0$,所以$\mu =x, \sigma^{2}=\infty$,由于$\infty \not \in \mathbb{R}$,所以$\mu,\sigma^{2}$的最大似然估计不存在。
}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,231 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\setcounter{chapter}{7}
\section{假设检验的基本思想与概念}
\begin{enumerate}
\questionandanswer[1]{
$x_1,x_2, \cdots ,x_n$是来自$N(\mu,1)$的样本,考虑如下假设检验问题
$$
H_0: \mu=2 \quad \mathrm{vs}\quad H_1:\mu=3,
$$
若检验由拒绝域为$W=\{ \bar{x}\geqslant 2.6 \}$确定。
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$n=20$时求检验犯两类错误的概率;
}{
第一类错误:$\alpha=P(\bar{x}\geqslant 2.6|H_0)$,当$H_0$成立即$\mu=2$$\bar{x}\sim N\left(2,\frac{1}{20}\right)$,所以
$$
\alpha=P\left( \frac{\bar{x}-2}{\sqrt{\frac{1}{20}}}\geqslant \frac{2.6-2}{\sqrt{\frac{1}{20}}} \right) = 1-\Phi\left( \frac{2.6-2}{\sqrt{\frac{1}{20}}} \right) = 0.0036452
$$
\begin{center}
\includegraphics[width=0.3\linewidth]{imgs/2024-05-27-16-38-24.png}
\end{center}
第二类错误:$\beta=P(\bar{x}<2.6|H_1)$,当$H_1$成立即$\mu=3$$\bar{x}\sim N\left( 3,\frac{1}{20} \right) $,所以
$$
\beta=P\left( \frac{\bar{x}-3}{\sqrt{\frac{1}{20}}}<\frac{2.6-3}{\sqrt{\frac{1}{20}}} \right) =\Phi\left( \frac{2.6-3}{\sqrt{\frac{1}{20}}} \right) =0.036819
$$
\begin{center}
\includegraphics[width=0.3\linewidth]{imgs/2024-05-27-16-41-54.png}
\end{center}
}
\questionandanswerSolution[]{
如果要使得检验犯第二类错误的概率$\beta\leqslant 0.01$$n$最小应取多少?
}{
$$
\beta=P(\bar{x}<2.6|H_1)=P\left( \frac{\bar{x}-3}{\sqrt{\frac{1}{n}}}<\frac{2.6-3}{\sqrt{\frac{1}{n}}} \right) \leqslant 0.01
$$
$\Phi\left( \frac{-0.4}{\sqrt{\frac{1}{n}}} \right) \leqslant 0.01$,即$\Phi\left( \frac{0.4}{\sqrt{\frac{1}{n}}} \right) \geqslant 0.99$,即$\frac{0.4}{\sqrt{\frac{1}{n}}}\geqslant 2.33 $,解得$ n \geqslant 33.930625$,所以$n$最小应取34.
}
\questionandanswerProof[]{
证明:当$n \to \infty$时,$\alpha \to 0, \beta \to 0$
}{
$$
\alpha=P\left( \frac{\bar{x}-2}{\sqrt{\frac{1}{n}}}\geqslant \frac{2.6-2}{\sqrt{\frac{1}{n}}} \right) =1-\Phi\left( \frac{0.6}{\sqrt{\frac{1}{n}}} \right) \xrightarrow{n \to \infty} 0
$$
$$
\beta=P\left( \frac{\bar{x}-3}{\sqrt{\frac{1}{n}}}<\frac{2.6-3}{\sqrt{\frac{1}{n}}} \right) =\Phi \left( \frac{-0.4}{\sqrt{\frac{1}{n}}} \right) \xrightarrow{n \to \infty}0
$$
}
\end{enumerate}
\questionandanswerSolution[3]{
$x_1,x_2, \cdots ,x_{16}$是来自正态总体$N(\mu,4)$的样本,考虑检验问题
$$
H_0:\mu=6\quad \mathrm{vs}\quad H_1:\mu\neq 6
$$
拒绝域取为$W=\{ \left\vert \bar{x}-6 \right\vert \geqslant c \}$,试求$c$使得检验的显著性水平为$0.05$,并求该检验在$\mu=6.5$处犯第二类错误的概率。
}{
$H_0$成立即$\mu=6$时,$\bar{x}\sim N(\mu, \frac{4}{16})=N(6, \frac{1}{4})$,所以
$$
p = P\left( \left\vert \bar{x}-6 \right\vert \geqslant c | \mu=6 \right) =P\left( \frac{\left\vert \bar{x}-6 \right\vert }{\frac{1}{2}} \geqslant 2c \middle| \mu=6\right) =2(1-\Phi(2c)) = 0.05
$$
$\Phi(2c)=0.975$,所以$2c=1.96$,从而$\bm{c=0.98}$
$\mu=6.5$时,$\bar{x} \sim N(6.5, 0.25)$,所以该检验在$\mu=6.5$处犯第二类错误的概率为
$$
\begin{aligned}
\bm{\beta} &= P\left( \left\vert \bar{x}-6 \right\vert < c \ \middle|\ \mu=6.5 \right) = P\left( 5.02<\bar{x}<6.98 \right) \\
&=P\left( \frac{5.02-6.5}{0.5}<\bar{x}<\frac{6.98-6.5}{0.5} \right) =\Phi\left( \frac{6.98-6.5}{0.5} \right) - \Phi\left( \frac{5.02-6.5}{0.5} \right) \bm{ = 0.8299317} \\
\end{aligned}
$$
\begin{center}
\includegraphics[width=0.3\linewidth]{imgs/2024-05-29-14-19-20.png}
\end{center}
}
\questionandanswerSolution[4]{
设总体为均匀分布$U(0, \theta)$$x_1,x_2, \cdots ,x_n$是样本,考虑检验问题
$$
H_0: \theta\geqslant 3 \quad\mathrm{vs}\quad H_1:\theta<3,
$$
拒绝域取为$W=\{ x_{(n)}\leqslant 2.5 \}$,求检验犯第一类错误的最大值$\alpha$,若要使得该最大值$\alpha$不超过$0.05$$n$至少应取多大?
}{
$x_{(n)}$的密度函数为$f_n(x)=\frac{nx^{n-1}}{\theta^{n}} 1_{(0,\theta)}(x)$,所以检验犯第一类错误的概率为
$$
\alpha' = P(x_{(n)}\leqslant 2.5|H_0)=P(x_{(n)}\leqslant 2.5|\theta\geqslant 3)=\int_{0}^{2.5} \frac{n x^{n-1}}{\theta^{n}} \mathrm{d}x = \left(\frac{5}{2}\right)^{n} \theta^{- n}
$$
$\theta$$3$$\alpha'$取到最大值$\bm{\alpha} = \left( \frac{5}{2} \right) ^{n} 3^{-n} \bm{= \left(\frac{6}{5}\right)^{- n}}$,而$\alpha = \left( \frac{6}{5} \right) ^{-n}= 0.05 $解得$ n = - \frac{\ln{(20)}}{- \ln{(6)} + \ln{(5)}} =16.4310371534373$,所以$n$至少应取$\bm{17}$
}
\questionandanswer[8]{
$x_1,x_2, \cdots ,x_{30}$为取自泊松分布$P(\lambda)$的随机样本。
}{}
\begin{enumerate}
\questionandanswer[]{
试给出单侧假设检验问题$H_0:\lambda\leqslant 0.1\ \ \mathrm{vs}\ \ H_1:\lambda>0.1$的显著性水平$\alpha=0.05$的检验;
}{
由于泊松分布关于参数$\lambda$具有可加性,所以$\sum_{k=1}^{n} x_k\sim P(30\lambda)$,所以选取$\sum_{k=1}^{n} x_k$作为统计量,设拒绝域为$W$,则
$$
P(W|H_0)=P(W|\lambda\leqslant 0.1)= \sum_{k=c}^{\infty} \frac{(30\lambda)^{k}}{k!} e^{-30\lambda} \leqslant 0.05
$$
$\lambda$越大则犯第一类错误的概率越大,所以此时$\lambda$可以取$0.1$,则
$$
\sum_{k=c}^{\infty} \frac{(30\lambda)^{k}}{k!} e^{-30\lambda} = \sum_{k=c}^{\infty} \frac{3^{k}}{k!}e^{-3}
$$
\begin{center}
\includegraphics[width=0.3\linewidth]{imgs/2024-05-29-15-56-01.png}
\includegraphics[width=0.3\linewidth]{imgs/2024-05-29-15-55-51.png}
\end{center}
(图中的$50$可以为任何较大的自然数)可以看到当$c$$6$时上式大于$0.05$,当$c$$7$时上式小于$0.05$,所以所求检验的拒绝域为$\displaystyle W= \left\{ \sum_{k=1}^{30} x_k\geqslant 7 \right\} $
}
\questionandanswer[]{
求此检验的势函数$\beta(\lambda)$$\lambda=0.05,0.2,0.3, \cdots ,0.9$时的值,并据此画出$\beta(\lambda)$的图像。
}{
$$
\begin{aligned}
\beta(\lambda)&= P_{\lambda} \left( \sum_{k=1}^{30} x_i \geqslant 7 \right) = \sum_{k=7}^{\infty} \frac{(30\lambda)^{k}}{k!} e^{-30 \lambda} \\
& = (- 1012500 \lambda^{6} - 202500 \lambda^{5} - 33750 \lambda^{4} - 4500 \lambda^{3} - 450 \lambda^{2} - 30 \lambda + e^{30 \lambda} - 1) e^{- 30 \lambda} \\
\end{aligned}
$$
使用\LaTeX 的 pgfplots 宏包画图如下:
\begin{center}
\noindent\hspace{-6em} % ylabel会导致图片偏右需要向左移动回来
\begin{tikzpicture}
\begin{axis}[
xlabel={$\lambda$},
ylabel={$\beta(\lambda)$}
]
\addplot[domain=0:1] {(- 1012500*x^6 - 202500*x^5 - 33750 *x^4 - 4500 *x^3 - 450 *x^2 - 30 *x + e^(30*x) - 1)* e^(-30*x)};
\end{axis}
\end{tikzpicture}
\end{center}
}
\end{enumerate}
\end{enumerate}
\section{正态总体参数假设检验}
说明:本节习题均采用拒绝域的形式完成,在可以计算检验的$p$值时要求计算出$p$值。
\begin{enumerate}
\questionandanswerSolution[]{
有一批枪弹,出厂时,其初速率$v \sim N(950, 100)$单位m/s。经过较长时间储存取9发进行测试得样本值单位m/s如下
$$
914\quad 920\quad 910\quad 934\quad 953\quad 945\quad 912\quad 924\quad 940
$$
据经验,枪弹经储存后其初速率仍服从正态分布,且标准差保持不变,问是否可以认为这批枪弹的初速率有显著降低($\alpha=0.05$
}{
设总体的均值为$\mu$,则待检验的原假设$H_0$和备选假设$H_1$分别为
$$
H_0:\mu=950 \quad\mathrm{vs}\quad H_1:\mu<950
$$
拒绝域为$\{ u\leqslant u_{\alpha} \}$,即$\left\{ \frac{\bar{x}-950}{10/3}\leqslant u_{0.05} \right\} $$\left\{ \bar{x}\leqslant -1.645\times \frac{10}{3}+950 \approx 944.5167 \right\} $
根据样本计算得出$\bar{x}=928$,在拒绝域内,因此可以认为这批枪弹的初速率有显著降低。
再计算$p$值,
$$
p=\Phi\left( \frac{928-950}{10/3} \right) = \bm{2.0665\times 10^{-11}} < 0.05
$$
}
\questionandanswerSolution[5]{
设需要对某正态总体的均值进行假设检验
$$
H_0:\mu=15 \quad\mathrm{vs}\quad H_1:\mu<15
$$
已知$\sigma^{2}=2.5$,取$\alpha=0.05$,若要求当$H_1$中的$\mu\leqslant 13$时犯第二类错误的概率不超过$0.05$,求所需的样本容量。
}{
由于已知$\sigma^{2}=2.5$,所以拒绝域为$\left\{ \frac{\bar{x}-15}{\sqrt{2.5/n}}\leqslant u_{0.05} \right\} $
$$
\beta=P\left( \frac{\bar{x}-15}{\sqrt{2.5/n}} >u_{0.05} \middle| \mu\leqslant 13 \right) \leqslant 0.05
$$
其中
$$
\begin{aligned}
P\left( \frac{\bar{x}-15}{\sqrt{2.5/n}}>u_{0.05} \right) &=P\left( \frac{\bar{x}-\mu+\mu-15}{\sqrt{2.5 /n}} >u_{0.05} \right) =P\left( \frac{\bar{x}-\mu}{\sqrt{2.5 /n}}>u_{0.05}+\frac{15-\mu}{\sqrt{2.5 /n}} \right) \\
&=1-\Phi\left( -1.645+\frac{15-\mu}{\sqrt{2.5 /n}} \right) \leqslant 0.05 \\
\end{aligned}
$$
所以
$\displaystyle
\Phi\left( -1.645+\frac{15-\mu}{\sqrt{2.5 /n}} \right) \geqslant 0.95
$
,从而
$\displaystyle
-1.645+\frac{15-\mu}{\sqrt{2.5 /n}} \geqslant 1.645
$
需要在$\mu\leqslant 13$时成立,由于左侧关于$\mu$递减,所以当$\mu=13$时,解$-1.645+\frac{15-13}{\sqrt{2.5 /n} }=1.645 $可得$ n = 6.7650625$,所以所需的样本容量至少为$\bm{7}$
}
\questionandanswer[6]{
从一批钢管中抽取10根测得其内径单位mm
$$
100.36\quad 100.31\quad 99.99\quad 100.11\quad 100.64\quad 100.85\quad 99.42\quad 99.91\quad 99.35\quad 100.10
$$
设这批钢管内径服从正态分布$N(\mu,\sigma^{2})$,试分别在下列条件下检验假设($\alpha=0.05$
$$
H_0:\mu=100 \quad\mathrm{vs}\quad H_1:\mu>100
$$
}{}
\begin{enumerate}
\questionandanswerSolution[]{
已知$\sigma=0.5$
}{
拒绝域为
$\displaystyle
\left\{ \frac{\bar{x}-100}{0.5/\sqrt{10}}\geqslant u_{1-\alpha} \right\} = \left\{ \bar{x} \geqslant u_{0.95} \times 0.5 \sqrt{10} + 100 \right\} =\left\{ \bar{x}\geqslant 102.60 \right\}
$
根据样本计算得出$\bar{x}=100.104$,不在拒绝域中,所以不能拒绝原假设。
再计算$p$值,
$$
p=1-\Phi\left( \frac{100.104-100}{0.5} \right) = \bm{0.082385} >0.05
$$
}
\questionandanswerSolution[]{
$\sigma$未知。
}{
拒绝域为
$$
\left\{ \frac{\bar{x}-100}{s /\sqrt{10}} \geqslant t_{0.95}(9) \right\} = \left\{ \frac{\bar{x}-100}{s /\sqrt{10}}\geqslant 1.8331 \right\}
$$
根据样本计算得出$\bar{x}=100.104, s=0.4759598489$,所以 $\frac{\bar{x}-100}{s /\sqrt{10}}=0.690976092663247$不在拒绝域内,所以不能拒绝原假设。
再计算$p$值,
$$
p=P_{t\sim t(9)}\left( t \geqslant 0.690976092663247 \right) > 1-0.7027 = \bm{0.2973} > 0.05
$$
}
\end{enumerate}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,300 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\setcounter{chapter}{6}
\setcounter{section}{5}
\section{区间估计}
\begin{enumerate}
\questionandanswer[3]{
$0.50, 1.25, 0.80, 2.00$是取自总体$X$的样本,已知$Y=\ln X$服从正态分布$N(\mu,1)$
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$\mu$的置信水平为$95\%$的置信区间;
}{
$$
\frac{1-0.95}{2} = 0.025
,\quad
u_{0.025} = -1.96
,\quad
\frac{u_{0.025}}{\sqrt{n}}=\frac{-1.96}{\sqrt{4}}=-0.98
$$
$$
\overline{\ln x} = \frac{1}{4}(\ln 0.50+ \ln 1.25+\ln 0.80+\ln 2.00) = 0
$$
所以$\mu$的置信水平为$95\%$的置信区间为$[-0.98, 0.98]$
}
\questionandanswerSolution[]{
$X$的数学期望的置信水平为$95\%$的置信区间。
}{
$$
EX = E e^{Y} = e^{EY} = e^{\mu}
$$
所以$EX$的置信水平为$95\%$的置信区间为$[e^{-0.98}, e^{0.98}],即[0.3753110988514, 2.66445624192942]$
}
\end{enumerate}
\questionandanswer[5]{
已知某种材料的抗压强度$X\sim N(\mu,\sigma^{2})$现随机地抽取10个试件进行抗压试验测得数据如下
$$
482\quad 493\quad 457\quad 471\quad 510\quad 446\quad 435\quad 418\quad 394\quad 469
$$
}{}
\begin{enumerate}
\questionandanswerSolution[]{
求平均抗压强度$\mu$的置信水平为$95\%$的置信区间;
}{
由于$\sigma$未知,所以$\mu$的置信区间为$\left[ \bar{x}-t_{1-0.025}(10-1)s/ \sqrt{10}, \bar{x}+t_{1-0.025}(10-1)s /\sqrt{10} \right] $
之后计算得
$$
\bar{x}=457.5,\quad s\approx 35.21757768
$$
所以$\mu$的置信水平为$95\%$的置信区间为
$$
[457.5- 2.2622\times 35.21757768/ \sqrt{10}, 457.5-2.2622\times 35.21757768 /\sqrt{10}]
$$
$$
[432.306385526736, 482.693614473264]
$$
}
\questionandanswerSolution[]{
若已知$\sigma=30$,求平均抗压程度$\mu$的置信水平为$95\%$的置信区间;
}{
由于$\sigma$已知,所以$\mu$$95\%$置信区间为$\left[ \bar{x}-u_{0.975}\sigma/\sqrt{n}, \bar{x}+u_{0.975}\sigma/\sqrt{n} \right] $,代入得
$$
\left[ 457.5-1.96\times 30 / \sqrt{10}, 457.5 + 1.96\times 30 /\sqrt{10} \right]
$$
$$
\left[ 438.90580735821, 476.09419264179 \right]
$$
}
\questionandanswerSolution[]{
$\sigma$的置信水平为$95\%$的置信区间。
}{
$\mu$未知时$\sigma$的置信水平为$95\%$的置信区间为$\left[ \frac{s\sqrt{n-1}}{\sqrt{\chi^{2}_{0.975}(n-1)}}, \frac{s\sqrt{n-1}}{\sqrt{\chi^{2}_{0.025}(n-1)}} \right] $,代入得
$$
\left[ \frac{35.21757768\times \sqrt{10-1}}{\sqrt{19.0228}}, \frac{35.21757768\times \sqrt{10-1}}{\sqrt{2.7004}} \right]
$$
$$
\left[ 24.2238693218913, 64.2934434191729 \right]
$$
}
\end{enumerate}
\questionandanswerSolution[6]{
在一批货物中随机抽取80件发现有11件不合格品试求这批货物的不合格品率的置信水平为$0.90$的置信区间。
}{
样本的分布为$b(1,p)$。由于样本量较大,可以使用近似置信区间,即\\
$\left[ \bar{x}-u_{0.95}\sqrt{\frac{\bar{x}(1-\bar{x})}{n}}, \bar{x}+u_{0.95}\sqrt{\frac{\bar{x}(1-\bar{x})}{n}} \right] $
,其中$\bar{x}=\frac{11}{80} = 0.1375$$n=80$$u_{0.95}=1.645$,代入得
$$
\left[ 0.1375-1.645 \times \sqrt{\frac{0.1375\times (1-0.1375)}{80}}, 0.1375+1.645\times \sqrt{\frac{0.1375\times (1-0.1375)}{80}} \right]
$$
$$
\left[ 0.0741638282314373, 0.200836171768563 \right]
$$
}
\questionandanswer[9]{
设从总体$X\sim N(\mu_1,\sigma_1^{2})$和总体$Y\sim N(\mu_2,\sigma_2^{2})$中分别抽取容量为$n_1=10,n_2=15$的独立样本,可计算得$\bar{x}=82, s_x^{2}=56.5, \bar{y}=76, s_y^{2}=52.4$
}{}
\begin{enumerate}
\questionandanswerSolution[]{
若已知$\sigma_1^{2}=64, \sigma_2^{2}=49$,求$\mu_1-\mu_2$的置信水平为$95\%$的置信区间;
}{
$\sigma_1^{2}$$\sigma_2^{2}$均已知,则$\mu_1-\mu_2$的置信水平为$95\%$的置信区间为\\
$\left[ \bar{x}-\bar{y}-u_{0.975}\sqrt{\frac{\sigma_1^{2}}{n_1} +\frac{\sigma_2^{2}}{n_2}}, \bar{x}-\bar{y}+u_{0.975}\sqrt{\frac{\sigma_1^{2}}{n_1}+\frac{\sigma_2^{2}}{n_2}} \right] $,代入得
$$
\left[ 82-76-1.96\times \sqrt{\frac{64}{10}+\frac{49}{15}},\ 82-76+1.96\times \sqrt{\frac{64}{10}+\frac{49}{15}} \right]
$$
$$
\left[ -0.0938876480180258,\ 12.093887648018 \right]
$$
}\questionandanswerSolution[]{
若已知$\sigma_1^{2}=\sigma_2^{2}$,求$\mu_1-\mu_2$的置信水平为$95\%$的置信区间;
}{
$\sigma_1^{2}=\sigma_2^{2}$未知,则$\mu_1-\mu_2$的置信水平为$95\%$的置信区间为\\
$$
\left[\bar{x}-\bar{y} - \sqrt{\frac{n_1+n_2}{n_1n_2}}s_w t_{0.975}(n_1+n_2-2),\ \bar{x}-\bar{y}+\sqrt{\frac{n_1+n_2}{n_1n_2}}s_w t_{0.975}(n_1+n_2-2)\right]
$$
其中$\displaystyle s_w^{2} = \frac{(n_1-1)s_{x}^{2}+(n_2-1)s_{y}^{2}}{n_1+n_2-2}$$t_{0.975}(23)=2.0687$,代入得
$$
s_w^{2}=\frac{(10-1)\times 56.5+(15-1)\times 52.4}{10+15-2} = \frac{12421}{230}
$$
置信区间为
$$
\left[ 82-76-\sqrt{\frac{10+15}{10\times 15}} \sqrt{\frac{12421}{230}}\times 2.0687,\ 82-76+\sqrt{\frac{10+15}{10\times 15}}\sqrt{\frac{12421}{230}}\times 2.0687 \right]
$$
$$
\left[ -0.206349837966326,\ 12.2063498379663 \right]
$$
}
\questionandanswerSolution[]{
若对$\sigma_1^{2},\sigma_2^{2}$一无所知,求$\mu_1-\mu_2$的置信水平为$95\%$的置信区间;
}{
此时为一般场合下,$\mu_1-\mu_2$的置信水平为$95\%$的近似置信区间为\\
$[\bar{x}-\bar{y}-s_0 t_{0.975}(l),\ \bar{x}-\bar{y}+s_0 t_{0.975}(l)]$,其中$s_0^{2} = \frac{s_{x}^{2}}{n_1}+\frac{s_y^{2}}{n_2}=\frac{56.5}{10}+\frac{52.4}{15} = \frac{2743}{300}$, \\
$\displaystyle l=\frac{s_0^{4}}{\frac{s_{x}^{4}}{n_1^{2}(n_1-1)}+\frac{s_y^{4}}{n_2^{2}(n_2-1)}} = \frac{\left( \frac{2743}{300} \right) ^{2}}{\frac{56.5^{2}}{10^{2}(10-1)}+\frac{52.4^{2}}{15^{2}(15-1)}} = \frac{52668343}{2783727} \approx 18.92008\approx 19$,\\
$t_{0.975}(19)=2.0930$
所以置信区间为
$$
\left[ 82-76-\sqrt{\frac{2743}{300}}\times 2.0930, \ 82-76+\sqrt{\frac{2743}{300}}\times 2.0930 \right]
$$
$$
\left[ -0.328801942179367, \ 12.3288019421794 \right]
$$
}
\questionandanswerSolution[]{
$\sigma_1^{2}/\sigma_2^{2}$的置信水平为$95\%$的置信区间。
}{
置信区间为
$$
\left[\frac{s_{x}^{2}}{s_y^{2}}\cdot \frac{1}{F_{0.975}(9, 14)}\ \frac{s_{x}^{2}}{s_y^{2}}\cdot \frac{1}{F_{0.025}(9,14)} \right]
$$
由于$F_{\frac{\alpha}{2}}(n_1,n_2) = {1}/{F_{1-\frac{\alpha}{2}}(n_2,n_1)}$,所以可以代入得
$$
\left[ \frac{56.5}{52.4}\cdot \frac{1}{3.21},\ \frac{56.5}{52.4}\cdot {3.80} \right]
$$
$$
\left[0.335901643242729,\ 4.09732824427481 \right]
$$
}
\end{enumerate}
\questionandanswerSolution[12]{
设某电子产品的寿命服从指数分布,其密度函数为$\lambda e^{-\lambda x}I_{\{ x>0 \}}$现从此批产品中抽取容量为9的样本测得寿命为单位千小时
$$
15\quad 45\quad 50\quad 53\quad 60\quad 65\quad 70\quad 83\quad 90
$$
求平均寿命$1/\lambda$的置信水平为0.9的置信区间和置信上、下限。
}{
首先尝试构造枢轴量,设样本为$x_1,x_2, \cdots ,x_9$,则$x_1,x_2, \cdots x_9\overset{\text{i.i.d.}}{\sim}\operatorname{Exp}(\lambda)$,则$\sum_{i=1}^{9} x_i \sim \operatorname{Ga}(9, \lambda)$,所以${2\lambda}\sum_{i=1}^{9} x_i \sim \operatorname{Ga}(9, \frac{1}{2})=\chi^{2}(18)$,分布不依赖于$\lambda$,所以$G=2\lambda\sum_{i=1}^{9} x_i$为枢轴量,所以
$$
P\left( \chi^{2}_{0.05}(18)\leqslant G\leqslant \chi^{2}_{0.95}(18) \right) = 0.9
$$
$$
P\left( \frac{\chi^{2}_{0.05}(18)}{2\sum_{i=1}^{9} x_i}\leqslant \lambda\leqslant \frac{\chi^{2}_{0.95}(18)}{2\sum_{i=1}^{9} x_i} \right) =0.9
$$
所以$\lambda$的置信水平为0.9的双侧置信区间为
$$
\left[ \frac{\chi^{2}_{0.05}(18)}{2\sum_{i=1}^{9} x_i}, \ \frac{\chi^{2}_{0.95}(18)}{2\sum_{i=1}^{9} x_i} \right] = \left[ \frac{9.3905}{2\times 531},\ \frac{28.8693}{2\times 531} \right] = \left[ 0.00884227871939736,\ 0.0271838983050847 \right]
$$
同理,单侧置信上限为
$$
\frac{\chi^{2}_{0.9}(18)}{2\sum_{i=1}^{9} x_i}=\frac{25.9894}{2\times 531} = 0.0244721280602637
$$
单侧置信下限为
$$
\frac{\chi^{2}_{0.1}(18)}{2\sum_{i=1}^{9} x_i}=\frac{10.8649}{2\times 531} = 0.0102306026365348
$$
所以$\frac{1}{\lambda}$的置信水平为0.9的置信区间为
$$
\left[ \frac{2\times 531}{28.8693}, \ \frac{2\times 531}{9.3905} \right] = \mathbf{\left[ 36.7864825264208, \ 113.093019541025 \right]}
$$
单侧置信上限为
$$
\frac{2\times 531}{10.8649} = \mathbf{97.74595256284}
$$
单侧置信下限为
$$
\frac{2\times 531}{25.9894} = \mathbf{40.8628133008073}
$$
}
\questionandanswerSolution[13]{
设总体$X$的密度函数为
$$
p(x;\theta)=\frac{1}{\pi\left[ 1+(x-\theta)^{2} \right] }, \quad -\infty<x<\infty, \quad -\infty<\theta<\infty
$$
$x_1,x_2, \cdots ,x_n$为抽自此总体的简单随机样本,求位置参数$\theta$的置信水平近似为$1-\alpha$的置信区间。
}{
$m_{0.5}$表示样本中位数则根据例5.3.10,当然$n$较大时,$m_{0.5}\sim N\left( \theta, \frac{\pi^{2}}{4n} \right) $,将$m_{0.5}$看作样本容量为1的样本$m_{0.5}$服从方差已知,期望未知的正态分布,所以$\theta$的置信水平近似为$1-\alpha$的置信区间为
$$
\left[ m_{0.5}-u_{1-\frac{\alpha}{2}} \sqrt{\frac{\pi^{2}}{4n}} / \sqrt{1} , \ m_{0.5}+u_{1-\frac{\alpha}{2}}\sqrt{\frac{\pi^{2}}{4n}} / \sqrt{1}\right]
$$
$$
\left[ m_{0.5}-u_{1-\frac{\alpha}{2}} \frac{\pi}{2 \sqrt{n}} , \ m_{0.5}+u_{1-\frac{\alpha}{2}}\frac{\pi}{2\sqrt{n}}\right]
$$
}
\questionandanswerSolution[14]{
$x_1,x_2, \cdots ,x_n$为抽自正态总体$N(\mu,16)$的简单随机样本,为使得$\mu$的置信水平为$1-\alpha$的置信区间的长度不大于给定的$L$,试问样本容量$n$至少要多少?
}{
$\sigma^{2}=16$已知,则置信区间为$\left[ \bar{x}-u_{1-\frac{\alpha}{2}}\sigma / \sqrt{n}, \bar{x}+u_{1-\frac{\alpha}{2}}\sigma / \sqrt{n} \right] $,区间长度为$2 u_{1-\frac{\alpha}{2}}\times 4 / \sqrt{n}\leqslant L$,则$\displaystyle n \geqslant \left( \frac{8 u_{1-\frac{\alpha}{2}}}{L} \right) ^{2}=\frac{64 u_{1-\frac{\alpha}{2}}^{2}}{L^{2}}$
}
\questionandanswerSolution[16]{
$x_1,x_2, \cdots ,x_n$是来自$U(\theta-\frac{1}{2}, \theta+\frac{1}{2})$的样本,求$\theta$的置信水平为$1-\alpha$的置信区间(提示:证明$\displaystyle \frac{x_{(n)}+x_{(1)}}{2}-\theta$为枢轴量,并求出对应的密度函数)。
}{
设总体为$X$,则$X\sim U(\theta-\frac{1}{2}, \theta+\frac{1}{2})$,则$X-\theta+\frac{1}{2}\sim U(0,1)$则根据例5.3.9$(Y,Z)=\left( x_{(1)}-\theta+\frac{1}{2}, x_{(n)}-\theta+\frac{1}{2} \right) $的联合密度函数为
$$
p(y,z)=n(n-1)(z-y)^{n-2}
$$
再根据卷积公式,$y+z=x_{(1)}+x_{(n)}-2\theta+1$的概率密度函数为
$$
p(x)=\int_{0}^{1} n(n-1)(x-2t)^{n-2} \mathrm{d}t = \frac{n}{2} x^{n-1} - \frac{n}{2} (x-2)^{n-1}
$$
所以$\frac{(y+z)-1}{2}=\frac{x_{(1)}+x_{(n)}}{2}-\theta$的概率密度函数为
$$
p'(x) = \frac{n}{2}(2x+1)^{n-1}-\frac{n}{2}(2x-1)^{n-1}
$$
显然与$\theta$无关,所以令$G=\frac{x_{(1)}+x_{(n)}}{2}-\theta$即为枢轴量,则可知
$$
\int_{- \frac{1-\alpha^{\frac{1}{n}}}{2}}^{\frac{1-\alpha ^{\frac{1}{n}}}{2}} \frac{n}{2}(2x+1)^{n-1}-\frac{n}{2}(2x-1)^{n-1} \mathrm{d}x = 1-\alpha
$$
所以
$
-\frac{1-\alpha ^{\frac{1}{n}}}{2} \leqslant G=\frac{x_{(1)}+x_{(n)}}{2}-\theta\leqslant \frac{1-\alpha ^{\frac{1}{n}}}{2}
$
,所以
$
\frac{x_{(1)}+x_{(n)}}{2}-\frac{1-\alpha ^{\frac{1}{n}}}{2} \leqslant \theta \leqslant \frac{x_{(1)}+x_{(n)}}{2}+\frac{1-\alpha ^{\frac{1}{n}}}{2}
$
所以$\theta$的置信水平为$1-\alpha$的置信区间为
$$
\left[ \frac{x_{(1)}+x_{(n)}}{2}-\frac{1-\alpha ^{\frac{1}{n}}}{2},\ \frac{x_{(1)}+x_{(n)}}{2}+\frac{1-\alpha ^{\frac{1}{n}}}{2} \right]
$$
}
\questionandanswer[19]{
设总体$X$的密度函数为
$$
p(x,\theta)=e^{-(x-\theta)} I_{\{ x>\theta \}}, \quad -\infty<\theta<\infty,
$$
$x_1,x_2, \cdots ,x_n$为抽自此总体的简单随机样本。
}{}
\begin{enumerate}
\questionandanswerProof[]{
证明:$x_{(1)}-\theta$的分布与$\theta$无关,并求出此分布;
}{
$y = x-\theta$,则$p(y) = e^{-y}I_{\{ y>0 \}}$
由于$y=x-\theta$是单调增函数,所以$y_{(1)}=x_{(1)}-\theta$
$F(y)=\int_{0}^{y} e^{-t} \mathrm{d}t=1-e^{-y}$,从而次序统计量$y_{(1)}=x_{(1)}-\theta$的概率密度函数为
$$
p_{(1)}(y) = \frac{n!}{0!(n-1)!} [F(y)]^{0} \left[ 1-F(y) \right] ^{n-1} p(y) = n \left( e^{-y} \right) ^{n-1} e^{-y} I_{\{ y>0 \}} = ne^{-ny} I_{\{ y>0 \}}
$$
所以$x_{(1)}-\theta \sim \operatorname{Exp}(n)$,与$\theta$无关。
}
\questionandanswerSolution[]{
$\theta$的置信水平为$1-\alpha$的置信区间。
}{
$$
P(c\leqslant x_{(1)}-\theta\leqslant d)=\int_{c}^{d} ne^{-ny} \mathrm{d}y
$$
因为被积函数在$[0,+\infty)$上单调递减,所以区间长度最短则$c=0$,所以
$$
\int_{0}^{d} n e^{-ny} \mathrm{d}y = \left. -e^{-ny} \right|_{0}^{d} = 1-e^{-nd} = 1-\alpha
$$
所以 $d = \dfrac{-\ln \alpha}{n}$
$c \leqslant x_{(1)}-\theta\leqslant d \implies x_{(1)}-d\leqslant \theta\leqslant x_{(1)}-c\implies x_{(1)}+\frac{\ln \alpha}{n}\leqslant \theta\leqslant x_{(1)}$,所以$\theta$的置信水平为$1-\alpha$的置信区间为
$$
\left[ x_{(1)}+\frac{\ln \alpha}{n},\ x_{(1)} \right]
$$
}
\end{enumerate}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,168 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\setcounter{chapter}{7}
\setcounter{section}{3}
\section{似然比检验与分布拟合检验}
\begin{enumerate}
\questionandanswer[3]{
$x_1,x_2, \cdots ,x_n$为来自指数分布$\operatorname{Exp}(\lambda_1)$的样本,$y_1,y_2, \cdots ,y_m$为来自指数分布$\operatorname{Exp}(\lambda_1)$的样本,且两组样本独立,其中$\lambda_1,\lambda_2$是未知的正参数。
}{}
\begin{enumerate}
\questionandanswerSolution[]{
求假设$H_0:\lambda_1=\lambda_2 \quad\mathrm{vs}\quad H_1:\lambda_1\neq \lambda_2$的似然比检验;
}{
参数空间为$\Theta_0 = \{ (\lambda_1,\lambda_2)| \lambda_1 = \lambda_2 >0 \}$$\Theta = \{ (\lambda_1,\lambda_2)|\lambda_1>0, \lambda_2>0 \}$。最大似然估计为
$$
\hat{\lambda_1} = \frac{n}{\sum_{i=1}^{n} x_i}, \hat{\lambda_2} = \frac{m}{\sum_{i=1}^{m} y_i}, \hat{\lambda_0}=\frac{n+m}{\sum_{i=1}^{n} x_i + \sum_{i=1}^{m} y_i}
$$
所以似然比检验为
$$
\Lambda = \frac{\left( \frac{n}{\sum_{i=1}^{n} x_i} \right) ^{n} \left( \frac{m}{\sum_{i=1}^{m} y_i} \right) ^{m}}{\left( \frac{n+m}{\sum_{i=1}^{n} x_i + \sum_{i=1}^{m} y_i} \right) ^{n+m}}
$$
}
\questionandanswerProof[]{
证明上述检验法的拒绝域仅依赖于比值 $\displaystyle \left. \sum_{i=1}^{n} x_i \middle/ \sum_{i=1}^{n} y_i \right.$
}{
此检验的拒绝域为
$$
\{ \Lambda \geqslant c \}= \left\{ \left. \sum_{i=1}^{n} x_i \middle/ \sum_{i=1}^{n} y_i \right. \leqslant \cdot \text{} \left. \sum_{i=1}^{n} x_i \middle/ \sum_{i=1}^{n} y_i \right. \geqslant \cdot \right\}
$$
这说明仅依赖于比值$\displaystyle \left. \sum_{i=1}^{n} x_i \middle/ \sum_{i=1}^{n} y_i \right.$
}
\questionandanswerSolution[]{
求统计量 $\displaystyle \left. \sum_{i=1}^{n} x_i \middle/ \sum_{i=1}^{n} y_i \right. $在原假设成立下的分布。
}{
因为 $\sum_{i=1}^{n} x_i \sim \operatorname{Ga}(n, \lambda_1)$, $\sum_{i=1}^{m} y_i \sim \operatorname{Ga}(m, \lambda_2)$,所以在原假设成立下,
$$
\left. \sum_{i=1}^{n} x_i \middle/ \sum_{i=1}^{n} y_i \right. \sim F(2n, 2m)
$$
}
\end{enumerate}
\questionandanswerProof[4]{
$x_1,x_2, \cdots ,x_n$为来自正态总体$N(\mu,\sigma^{2})$的 i.i.d. 样本,其中$\mu,\sigma^{2}$未知。证明关于假设$H_0:\mu\leqslant \mu_0 \quad\mathrm{vs}\quad H_1:\mu>\mu_0$的单侧$t$检验是似然比检验(显著性水平$\alpha < \frac{1}{2}$)。
}{
似然比统计量为
$$
\Lambda = \frac{(2\pi \hat{\sigma})^{-\frac{n}{2}} \exp (-\frac{n}{2})}{(2\pi \hat{\sigma}_0^{2})^{-\frac{n}{2}}\exp (-\frac{n}{2})}
$$
拒绝域为 $\displaystyle \{ \Lambda\geqslant c \}=\left\{ \frac{\sqrt{n}(\bar{x}-\mu_0)}{s}\geqslant t_{1-\alpha}(n-1) \right\} $,这说明似然比检验此时就是单侧$t$检验。
}
\questionandanswerSolution[6]{
掷一颗骰子60次结果如下
\begin{center}
\begin{tabular}{ccccccc}
\toprule
点数 & 1 & 2 & 3 & 4 & 5 & 6 \\
\midrule
次数 & 7 & 8 & 12 & 11 & 9 & 13 \\
\bottomrule
\end{tabular}
\end{center}
试在显著性水平为0.05下检验这颗骰子是否均匀。
}{
这是分布拟合优度检验:
$$
\chi^{2} = \sum_{i=1}^{6} \frac{(n_i - 10)^{2}}{10}=2.8, \quad W=\{ \chi^{2}\geqslant \chi^{2}_{0.95}(5)=11.0705 \}
$$
所以不拒绝原假设,即认为这颗骰子均匀。
}
\questionandanswerSolution[9]{
在一批灯泡中抽取300只作寿命试验其结果如下
\begin{center}
\begin{tabular}{ccccc}
\toprule
寿命h & <100 & [100,200) & [200,300) & $\geqslant 300$ \\
% \midrule
灯泡数 & 121 & 78 & 43 & 58 \\
\bottomrule
\end{tabular}
\end{center}
在显著性水平为0.05下能否认为灯泡寿命服从指数分布$\operatorname{Exp}(0.005)$
}{
也是分布拟合优度检验。题目中寿命分为了四个区间,由于指数分布的累计分布函数为$e^{-\lambda t}$,所以当$\lambda=0.005$时这四个区间的的概率$p$以及$np$分别为
$$
p=diff([e^{-300 \lambda} e^{-200 \lambda}, e^{-100 \lambda},1]) \approx [0.2231, 0.1447, 0.2387, 0.3935]
$$
$$
np = 300 \times [0.2231, 0.1447, 0.2387, 0.3935] \approx [66.93, 43.41, 71.61, 118.05]
$$
所以$\chi^{2} = \sum_{axis=0} \frac{(x-np)^{2}}{np} \approx 1.8393$,拒绝域为$\{ \chi^{2}\geqslant \chi^{2}_{0.995}(3)\approx 7.8147 \}$,所以不能拒绝原假设,所以认为灯泡寿命服从指数分布 $\operatorname{Exp}(0.005)$
}
\questionandanswerSolution[10]{
下表是上海1875年到1955年的81年间根据其中63年观察到的一年中5月到9月下暴雨次数的整理资料
\begin{center}
\begin{tabular}{ccccccccccc}
\toprule
$i$ & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & $\geqslant 9$ \\
\midrule
$n_i$ & 4 & 8 & 14 & 19 & 10 & 4 & 2 & 1 & 1 & 0 \\
\bottomrule
\end{tabular}
\end{center}
试检验一年中暴雨次数是否服从泊松分布($\alpha=0.05$)。
}{
由于泊松分布的参数的矩估计和最大似然估计是一样的,所以这里只需要计算样本的均值即 $\sum_{i=0}^{9} ( n_i \times i )/ 63 = 2.8571$,即为$\hat{\lambda}$
为了满足每一类的样本观测次数不小于5需要合并$i\leqslant 1$$i\geqslant 5$
之后计算 $\sum_{k=1}^{5} (n_k - n \hat{p_{k}})^{2} / n \hat{p_{k}}\approx 2.4995$,拒绝域为 $W=\{ \chi^{2}\geqslant \chi^{2}_{0.95}(5-1-1)\approx 7.8147 \}$,所以不能拒绝原假设,所以可以认为一年中暴雨次数服从泊松分布。
}
\questionandanswerProof[12]{
设按有无特性A与B将$n$个样品分成四类,组成$2\times 2$列联表:
\begin{center}
\begin{tabular}{c|cc|c}
\toprule
$ $ & $B$ & $\bar{B}$ & 合计 \\
\hline
$A$ & $a$ & $b$ & $a+b$ \\
$\bar{A}$ & $c$ & $d$ & $c+d$ \\
\hline
合计 & $a+c$ & $b+d$ & $n$ \\
\bottomrule
\end{tabular}
\end{center}
其中$n=a+b+c+d$,试证明此时列联表独立性检验的$\chi^{2}$统计量可以表示成
$$
\chi^{2} = \frac{n(ad-bc)^{2}}{(a+b)(c+d)(a+c)(b+d)}
$$
}{
对于$a$,最大似然估计为$\frac{(a+c)(a+b)}{n^{2}}$,同理可以计算其他参数的最大似然估计,所以检验统计量为
$$
\begin{aligned}
&\chi^{2} = \frac{\left( a-\frac{(a+b)(a+c)}{n} \right) ^{2}}{\frac{(a+b)(a+c)}{n}} + \frac{\left( b - \frac{(a+b)(b+d)}{n} \right)^{2} }{\frac{(a+b)(b+d)}{n}} + \frac{\left( c-\frac{(a+c)(c+d)}{n} \right) ^{2}}{\frac{(a+c)(c+d)}{n}} + \frac{\left( d-\frac{(c+d)(b+d)}{n} \right) ^{2}}{\frac{(c+d)(b+d)}{n}} \\
&= \frac{\begin{split}
(a + b) (a + c) (d n - (b + d) (c + d))^{2} + (a + b) (b + d) (c n - (a + c) (c + d))^{2}\\ + (a + c) (c + d) (b n - (a + b) (b + d))^{2} + (b + d) (c + d) (a n - (a + b) (a + c))^{2}
\end{split}}{n (a + b) (a + c) (b + d) (c + d)} \\
&= \frac{n(ad-bc)^{2}}{(a + b) (a + c) (b + d) (c + d)} \\
\end{aligned}
$$
}
\questionandanswerSolution[13]{
在研究某种新措施对猪白痢的防治效果问题时,获得了如下数据:
\begin{center}
\begin{tabular}{c|cc|c|c}
\toprule
& 存活数 & 死亡数 & 合计 & 死亡率 \\
\hline
对照 & 114 & 36 & 150 & 24\% \\
新措施 & 132 & 18 & 150 & 12\% \\
\hline
合计 & 246 & 54 & 300 & 18\% \\
\bottomrule
\end{tabular}
\end{center}
试问新措施对防治该种疾病是否有显著疗效($\alpha=0.05$
}{
原假设为新措施对该种疾病无显著疗效。
根据第12题计算统计量
$$
\chi^{2} = \frac{300\times (114\times 18 - 132\times 36)^{2}}{(114+36)(36+18)(18+132)(132+114)} = \frac{300}{41} \approx 7.31707317073171
$$
此时$r=c=2$,所以$(r-1)(c-1)=1$,所以$\chi^{2}_{0.95}(1)=3.8415$,所以拒绝域为$\{ \chi^{2}\geqslant 3.8415 \}$,所以拒绝原假设,所以新措施对防治该种疾病有显著疗效。
}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,189 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\setcounter{chapter}{7}
\setcounter{section}{2}
\begin{enumerate}
\questionandanswerSolution[14]{
在针织品漂白工艺过程中要考察温度对针织品断裂强力主要质量指标的影响。为了比较70℃与80℃的影响有无差别在这两个温度下分别重复做了8次试验得数据单位N如下
70℃时的强力\quad 20.5\quad 18.8\quad 19.8\quad 20.9\quad 21.5\quad 19.5\quad 21.0\quad 21.2,
80℃时的强力\quad 17.7\quad 20.3\quad 20.0\quad 18.8\quad 19.0\quad 20.1\quad 20.0\quad 19.l.
根据经验温度对针织品断裂强度的波动没有影响。问在70℃时的平均断裂强力与80℃时的平均断裂强力间是否有显著差别假定断裂强力服从正态分布取a= 0.05?
}{
使用$t$检验,检验的问题为
$$
H_0:\mu_1=\mu_2 \quad\mathrm{vs}\quad H_1:\mu_1\neq \mu_2
$$
根据样本计算得出$\bar{x}=20.4, \bar{y}=19.375, s_{u}=\sqrt{\frac{1}{8+8-2} (8\sigma^{2}_{x}+8\sigma^{2}_{y})}=0.9147599217$
\begin{center}
\includegraphics[width=0.3\linewidth]{imgs/2024-06-01-14-45-03.png}
\end{center}
$$
t=\frac{\bar{x}-\bar{y}}{s_u \sqrt{\frac{1}{8}+\frac{1}{8}}}=\frac{20.4-19.375}{0.9147599217 \sqrt{\frac{1}{8}+\frac{1}{8}}} \approx 2.2410, \quad W=\{ \left\vert t \right\vert \geqslant t_{0.975}(14) \}= \{ \left\vert t \right\vert \geqslant 2.1448 \}
$$
$t$在拒绝域内所以拒绝原假设所以在70℃时的平均断裂强力与80℃时的平均断裂强力间\boldkai{有显著差别}
再计算$p$值,$\displaystyle p=2(1-\Phi(\left\vert 2.2410 \right\vert ))=0.012513 < 0.05$,确实应拒绝原假设。
}
\questionandanswerSolution[15]{
一药厂生产一种新的止痛片,厂方希望验证服用新药片后至开始起作用的时间间隔较原有止痛片至少缩短一半,因此厂方提出需检验假设
$$
H_0:\mu_1=2\mu_2 \quad\mathrm{vs}\quad H_1:\mu_1>2\mu_2
$$
此处$\mu_1,\mu_2$分别是服用原有止痛片和服用新止痛片后至开始起作用的时间间隔的总体的均值。设两总体均为正态分布且方差分别为已知值$\sigma_1^{2},\sigma_2^{2}$,现分别在两总体中取一样本$x_1,x_2, \cdots ,x_n$$y_1,y_2, \cdots ,y_m$,设两个样本独立。试给出上述假设检验问题的检验统计量及拒绝域.
}{
使用$u$检验,检验统计量为 $\displaystyle u=\frac{\bar{x} - 2\bar{y}}{\sqrt{\frac{\sigma_1^{2}}{n}+\frac{4\sigma_2^{2}}{m}}}$,拒绝域为$\displaystyle W=\{ u\geqslant u_{1-\alpha} \}$
}
\questionandanswer[26]{
测得两批电子器件的样品的电阻(单位:$\Omega$)为
A批($x$):\qquad 0.140\quad 0.138\quad 0.143\quad 0.142\quad 0.144\quad 0.137;
B批($y$):\qquad 0.135\quad 0.140\quad 0.142\quad 0.136\quad 0.138\quad 0.140.
设这两批器材的电阻值分别服从分布$N(\mu_1, \sigma_1^{2}), N(\mu_2, \sigma_2^{2})$,且两样本独立。
}{
使用Excel计算如下
\begin{table}[H]
\tiny\centering
\begin{tabular}{ccccccccccc}
x & y & & & & & & & & & \\
0.14 & 0.135 & & & F-检验 双样本方差分析 & & & & t-检验: 双样本异方差假设 & & \\
0.138 & 0.14 & & & & & & & & & \\
0.143 & 0.142 & & & & x & y & & & x & y \\
0.142 & 0.136 & & & 平均 & 0.140667 & 0.1385 & & 平均 & 0.140667 & 0.1385 \\
0.144 & 0.138 & & & 方差 & 7.87E-06 & 7.1E-06 & & 方差 & 7.87E-06 & 7.1E-06\\
0.137 & 0.14 & & & 观测值 & 6 & 6 & & 观测值 & 6 & 6 \\
& & & & df & 5 & 5 & & 假设平均差 & 0 & \\
& & & & F & 1.107981 & & & df & 10 & \\
& & & & P(F<=f) 单尾 & 0.456576 & & & t Stat & 1.371845 & \\
& & & & F 单尾临界 & 5.050329 & & & P(T<=t) 单尾 & 0.100051 & \\
& & & & & & & & t 单尾临界 & 1.812461 & \\
& & & & & & & & P(T<=t) 双尾 & 0.200102 & \\
& & & & & & & & t 双尾临界 & 2.228139 & \\
& & & & & & & & & & \\
\end{tabular}
\end{table}
}
\begin{enumerate}
\questionandanswerSolution[]{
试检验两个总体的方差是否相等(取$\alpha=0.05$)。
}{
使用$F$检验,不能拒绝原假设,所以相等。
}
\questionandanswerSolution[]{
试检验两个总体的均值是否相等(取$\alpha=0.05$)。
}{
使用$t$检验,不能拒绝原假设,所以相等。
}
\end{enumerate}
\end{enumerate}
\section{其他分布参数的假设检验}
\begin{enumerate}
\questionandanswerSolution[2]{
某厂一种元件平均使用 寿命为1200 h偏低 现厂里进行技术革新革新后任选8个元件进行寿命试验测得寿命数据如下
$$
2686\quad 2001\quad 2082\quad 792\quad 1660\quad 4105\quad 1416\quad 2089
$$
假定元件寿命服从指数分布,取$\alpha=0.05$,问革新后元件的平均寿命是否有明显提高?
}{
使用$\chi^{2}$检验假设
$$
H_0: \theta \leqslant 1200 \quad\mathrm{vs}\quad H_1:\theta>1200
$$
$\chi^{2} = \frac{2\times 8 \bar{x}}{1200}\approx 28.0517$,拒绝域为$\{ \chi^{2}\geqslant \chi^{2}_{0.95}(2\times 8)\approx 26.2962 \}$,所以拒绝原假设,革新后元件的平均寿命\boldkai{有明显提高}
}
\questionandanswerSolution[3]{
有人称某地成年人中大学毕业生比率不低于30\%。为检验之随机调查该地15名成年人发现有3名大学毕业生$\alpha=0.05$,问该人看法是否成立?并给出检验的$p$值。
}{
样本的分布为$x\sim b(15, p')$,检验的假设为
$$
H_0: p'\geqslant 0.3 \quad\mathrm{vs}\quad H_1: p'<0.3
$$
检验的$p$值为$p=P(x\leqslant 3)$,其中$x\sim b(15,0.3)$,所以
$$
\bm{p}=\sum_{k=0}^{3} \mathrm{C}_{15}^{k} 0.3^{k} 0.7^{15-k} \approx \bm{0.2968679279} > 0.05
$$
\begin{center}
\includegraphics[width=0.3\linewidth]{imgs/2024-06-02-09-31-54.png}
\end{center}
所以不能拒绝原假设,只能认为该人的看法\boldkai{成立}
}
\questionandanswerSolution[4]{
某大学随机调查120名男同学发现有50人非常喜欢看武侠小说而随机调查的85名女同学中有23人喜欢用大样本检验方法在$\alpha=0.05$下确认男女同学在喜爱武侠小说方面有无显著差异?并给出检验的$p$值。
}{
使用大样本$u$检验,
$$
u=\frac{\frac{50}{120}-\frac{23}{85}}{\sqrt{\frac{50}{120}\left( 1-\frac{50}{120} \right) /120 + \frac{23}{85}\left( 1-\frac{23}{85} \right) /85}} \approx 2.21548089304598
$$
$$
\bm{p}=2(1-\Phi(2.21548089304598)) \bm{\approx 0.026728} < 0.05
$$
所以男女同学在喜爱武侠小说方面\boldkai{有显著差异}
}
\questionandanswerSolution[6]{
通常每平方米某种布上的疵点数服从泊松分布现观测该种布100 $\mathrm{m}^{2}$发现有126个疵点在显著性水平为0.05下能否认为该种布每平方米上平均疵点数不超过1个并给出检验的$p$值。
}{
设总体为$X\sim \operatorname{Poi}(\lambda)$,使用大样本检验假设
$$
H_0: \lambda\leqslant 1 \quad\mathrm{vs}\quad H_1: \lambda>1
$$
由于$EX=\operatorname{Var}X = \lambda$,所以$u = \frac{\sqrt{100} \left( \frac{126}{100}-1 \right) }{\sqrt{\frac{126}{100}}} \approx 2.31626409657434$$p$值为
$$
\bm{p} = 1-\Phi\left( 2.31626409657434 \right) \bm{\approx 0.010272} < 0.05
$$
所以拒绝原假设,因此该种布每平方米上平均疵点数\boldkai{超过1个}
}
\questionandanswer[9]{
有—批电子产品共50台产销双方协商同意找出一个检验方案使得当次品率$p\leqslant p_0=0.04$时拒绝的概率不超过0.05,而当$p>p_1=0.30$接受的概率不超过0.10,请你帮助找出适当的检验方案。
}{}
\begin{solution}
{\kaishu
这里的次品率如何定义是指这50台电子产品中次品的频率还是所有生产的产品的频率前者的总体是这50台电子产品并且是不放回抽样那么对应的是超几何分布。后者的总体是所有生产的产品可以近似看作放回抽样那么对应的是二项分布。由于生产的电子产品一般不止50台所以这里认为是后者。
设样本为$x\sim b(n, p)$,由于只有$50$台电子产品用于检验,所以$n\leqslant 50$,而$p$就是次品率。
% 两次检验的假设为
% $$
% H_0:p\leqslant p_0=0.04 \quad\mathrm{vs}\quad H_1:p>0.04
% $$
% $$
% H_0':p>p_1=0.30 \quad\mathrm{vs}\quad H_1':p\leqslant 0.30
% $$
拒绝域为$\{ x>c \}$$P(x, n, p)=\mathrm{C}_{n}^{x} p^{x}(1-p)^{n-x}$。所以需要求出$n$$x$使得
$$
\sum_{x=c+1}^{n} \mathrm{C}_{n}^{x}0.04^{x}(1-0.04)^{n-x} \leqslant 0.05
$$
$$
\sum_{x=0}^{c} \mathrm{C}_{n}^{x} 0.30^{x} (1-0.30)^{n-x} \leqslant 0.10
$$
遍历$n$$c$所有可能的取值($n = 1,2, \cdots ,50$, $c=0,1, \cdots ,n$)即可找到合适的$n$$c$
\begin{minted}[breaklines=true, baselinestretch=1, frame=single, framesep=1em]{python}
from latex2sympy2 import latex2sympy
from sympy.abc import c, n
import pandas as pd
verify1 = latex2sympy(r"\sum_{x=c+1}^{n} \binom{n}{x} 0.04^{x}(1-0.04)^{n-x} \leqslant 0.05")
verify2 = latex2sympy(r"\sum_{x=0}^{c} \binom{n}{x} 0.30^{x} (1-0.30)^{n-x} \leqslant 0.10")
result = []
for _n in range(1, 51):
line = []
for _c in range(0, _n + 1):
line.append(verify1.subs({n:_n, c:_c}) and verify2.subs({n:_n, c:_c}))
for _c in range(_n + 1, 51):
line.append(False)
result.append(line)
pd.DataFrame(result)
\end{minted}
观察结果即可发现在所有结果为 \mintinline{Python}{True} 的位置里,$n$最小取15对应的$c$为2也就是\boldkai{取出15个产品进行检测次品数大于2时就拒绝否则就接受}
}
\end{solution}
\end{enumerate}
\end{document}

View File

@@ -0,0 +1,183 @@
\documentclass[全部作业]{subfiles}
\input{mysubpreamble}
\begin{document}
\setcounter{chapter}{5}
\setcounter{section}{4}
\section{充分统计量}
\begin{enumerate}
\questionandanswerProof[1]{
$x_1,x_2, \cdots ,x_n$是来自几何分布
$$
P(X=x)=\theta(1-\theta)^{x},\quad x=0,1,2, \cdots
$$
的样本,证明 $\displaystyle T=\sum_{i=1}^{n} x_i$是充分统计量。
}{
$$
p(x_1,x_2, \cdots ,x_n;\theta)=\prod_{i=1}^{n} \theta(1-\theta)^{x_i}=\theta^{n}(1-\theta)^{\sum_{i=1}^{n} x_i}=\theta^{n}(1-\theta)^{T}
$$
$g(T,\theta)=\theta^{n}(1-\theta)^{T}, h(X)=1$
由因子分解定理可知 $\displaystyle T=\sum_{i=1}^{n} x_i$$\theta$的充分统计量。
}
\questionandanswer[3]{
设总体为如下离散分布:
\begin{tabular}{c|cccc}
$x$ & $a_1$ & $a_2$ & $\cdots$ & $a_k$ \\
\hline
$p$ & $p_1$ & $p_2$ & $\cdots$ & $p_k$ \\
\end{tabular}
$x_1,x_2, \cdots ,x_n$是来自该总体的样本,
}{}
\begin{enumerate}
\questionandanswerProof[]{
证明次序统计量$(x_{(1)},x_{(2)}, \cdots , x_{(n)})$是充分统计量;
}{
$T=(x_{(1)},x_{(2)}, \cdots , x_{(n)})$$X$表示一次取样。则
$$
\begin{aligned}
P(X=(x_1,x_2, \cdots ,x_n)|T=t) &= \frac{P(X=(x_1,x_2, \cdots ,x_n), T=t)}{P(T=t)} \\
&=\frac{\prod_{i=1}^{n} p_{i}}{\mathrm{P}_{n}^{n}\prod_{i=1}^{n} p_{i}}=\frac{1}{\mathrm{P}_{n}^{n}}=\frac{1}{n!} \\
\end{aligned}
$$
可见与$T$无关,所以次序统计量$(x_{(1)},x_{(2)}, \cdots , x_{(n)})$是充分统计量。
}
\questionandanswer[]{
$n_j$表示$x_1,x_2, \cdots ,x_n$中等于$a_j$的个数,证明$(n_1,n_2, \cdots ,n_k)$是充分统计量。
}{
$T=(n_1,n_2, \cdots , n_k)$$X$表示一次取样。则
$$
\begin{aligned}
P(X=(x_1,x_2, \cdots ,x_n)|T=t) &= \frac{P(X=(x_1,x_2, \cdots ,x_n), T=t)}{P(T=t)} \\
&=\frac{\prod_{j=1}^{n} p_j}{\mathrm{P}_{n}^{n} \prod_{j=1}^{n} p_j^{n_j}} \\
\end{aligned}
$$
应该与$T$无关,所以$(n_1,n_2, \cdots ,n_k)$是充分统计量。
}
\end{enumerate}
\questionandanswerSolution[8]{
$x_1,x_2, \cdots ,x_n$是来自拉普拉斯Laplace分布
$$
p(x;\theta)=\frac{1}{2\theta} e^{-\frac{\left\vert x \right\vert }{\theta}}, \theta>0
$$
的样本,试给出一个充分统计量。
}{
$X$表示一次取样,则
$$
\begin{aligned}
P(X=(x_1,x_2, \cdots ,x_n);\theta)&=\prod_{i=1}^{n} p(x_i;\theta)=\prod_{i=1}^{n} \frac{1}{2\theta} e^{-\frac{\left\vert x \right\vert }{\theta}} = \left( \frac{1}{2\theta} \right) ^{n} e^{-\frac{1}{\theta}\sum_{i=1}^{n} \left\vert x_i \right\vert }\\
% =\left( \frac{1}{2\theta} \right) ^{n} \left( e^{\sum_{i=1}^{n} \left\vert x_i \right\vert } \right) ^{-\frac{1}{\theta}} \\
\end{aligned}
$$
$T=\displaystyle \sum_{i=1}^{n} \left\vert x_i \right\vert $,则上式$=\displaystyle \left( \frac{1}{2\theta} \right) ^{n} \left( e^{-\frac{T}{\theta}} \right) $。则可以令$g(T,\theta)=\displaystyle \left( \frac{1}{2\theta} \right) ^{n} \left( e^{-\frac{T}{\theta}} \right)$, $h(X)=1$,由因子分解定理可知$T=\displaystyle \sum_{i=1}^{n} \left\vert x_i \right\vert $$\theta$的充分统计量。
}
\questionandanswer[10]{
$x_1,x_2, \cdots ,x_n$是来自正态分布$N(\mu,\sigma^{2})$的样本。
}{}
\begin{enumerate}
\questionandanswerSolution[]{
$\mu$已知时给出$\sigma^{2}$的一个充分统计量。
}{
$$
p(x_1,x_2, \cdots ,x_n; \sigma^{2})=(2\pi\sigma^{2})^{-\frac{n}{2}} \exp \left\{ -\frac{1}{2\sigma^{2}} \sum_{i=1}^{n} (x_i-\mu)^{2}\right\}
$$
所以可以令$\displaystyle T=\sum_{i=1}^{n} (x_i-\mu)^{2}$,则$T$$\sigma^{2}$的一个充分统计量。
}
\questionandanswerSolution[]{
$\sigma^{2}$已知时给出$\mu$的一个充分统计量。
}{
$$
\begin{aligned}
p(x_1,x_2, \cdots ,x_n; \sigma^{2})&=(2\pi\sigma^{2})^{-\frac{n}{2}} \exp \left\{ -\frac{1}{2\sigma^{2}} \sum_{i=1}^{n} (x_i-\mu)^{2}\right\} \\
&=(2\pi \sigma^{2})^{-\frac{n}{2}} \exp \left\{ -\frac{n\mu^{2}}{2\sigma^{2}} \right\} \exp \left\{ -\frac{1}{2\sigma^{2}}\sum_{i=1}^{n} x_i^{2} \right\} \exp \left\{ \frac{\mu}{\sigma^{2}}\sum_{i=1}^{n} x_i \right\} \\
\end{aligned}
$$
% 理论上来说,对于正态分布的参数$\mu$,可以使用样本均值$\displaystyle \bar{x}= \sum_{i=1}^{n} x_i$来估计,但无法使用因子分解定理证明,那只能认为$\bar{x}$是$\mu$的一个充分统计量了。
$\displaystyle T=\sum_{i=1}^{n} x_i$,则$\displaystyle g(\mu, T)=(2\pi \sigma^{2})^{-\frac{n}{2}} \exp \left\{ -\frac{n\mu^{2}}{2\sigma^{2}} \right\}\exp \left\{ \frac{\mu}{\sigma^{2}}T \right\}$$\displaystyle h(\overrightarrow{x})=\exp \left\{ -\frac{1}{2\sigma^{2}}\sum_{i=1}^{n} x_i^{2} \right\} $
所以$T$$\mu$的一个充分统计量。
}
\end{enumerate}
\questionandanswerSolution[11]{
$x_1,x_2, \cdots ,x_n$是来自均匀分布$U(\theta_1, \theta_2)$的样本,试给出一个充分统计量。
}{
$$
p(x_1,x_2, \cdots ,x_n; \theta_1, \theta_2)= \prod_{i=1}^{n} \frac{1}{\theta_2-\theta_1} 1_{[\theta_1, \theta_2]}(x_i)=\left( \frac{1}{\theta_2-\theta_1} \right) ^{n} 1_{[\theta_1,\theta_2]}(x_{(1)}, x_{(n)})
$$
所以$(x_{(1)}, x_{(n)})$是一个充分统计量。
}
\questionandanswerSolution[12]{
$x_1,x_2, \cdots ,x_n$是来自均匀分布$U(\theta,2\theta), \theta>0$的样本,试给出充分统计量。
}{
$$
p(x_1,x_2, \cdots ,x_n; \theta)=\prod_{i=1}^{n} \frac{1}{\theta} 1_{[\theta,2\theta]}(x_i)=\frac{1}{\theta^{n}} 1_{[\theta, 2\theta]}(x_{(1)}, x_{(n)})
$$
所以$(x_{(1)}, x_{(n)})$是一个充分统计量。
}
\questionandanswerSolution[17]{
$\displaystyle \binom{x_i}{y_i}, i=1,2, \cdots ,n$是来自正态分布族
$$
\left\{ N\left( \binom{\theta_1}{\theta_2}, \begin{pmatrix}
\sigma_1^{2} & \rho\sigma_1\sigma_2 \\
\rho\sigma_1\sigma_2 & \sigma_2^{2} \\
\end{pmatrix} \right) \ ;\ -\infty<\theta_1,\theta_2<\infty, \sigma_1,\sigma_2>0,\left\vert \rho \right\vert \leqslant 1 \right\}
$$
的一个二维样本,寻求$(\theta_1,\sigma_1,\theta_2,\sigma_2,\rho)$的充分统计量。
}{
$$
\begin{aligned}
&p\left( \binom{x_i}{y_i};(\theta_1,\sigma_1,\theta_2,\sigma_2,\rho) \right) = \prod_{i=1}^{n} \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^{2}}} \exp \left\{ -\frac{1}{2(1-\rho^{2})}(a_i^{2}+b_i^{2}-2\rho a_i b_i) \right\} \\
&=\left( \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^{2}}} \right) ^{n} \exp \left\{ -\frac{1}{2(1-\rho^{2})} \left( \sum_{i=1}^{n} a_i^{2}+\sum_{i=1}^{n} b_i^{2}-2\rho \sum_{i=1}^{n} a_i b_i \right)\right\} \\
\end{aligned}
$$
其中
$$
\sum_{i=1}^{n} a_i^{2}=\sum_{i=1}^{n} \left( \frac{x_i-\theta_1}{\sigma_1} \right) ^{2}=\frac{1}{\sigma_1^{2}}\sum_{i=1}^{n} (x_i^{2}-2\theta_1 x_i+\theta_1^{2})=\frac{1}{\sigma_1^{2}}\sum_{i=1}^{n} x_i^{2}-\frac{2\theta_1}{\sigma_1^{2}}\sum_{i=1}^{n} x_i+ \frac{\theta_1^{2}}{\sigma_1^{2}}
$$
$$
\sum_{i=1}^{n} b_i^{2}=\sum_{i=1}^{n} \left( \frac{y_i-\theta_2}{\sigma_2} \right) ^{2}=\frac{1}{\sigma_2^{2}}\sum_{i=1}^{n} (y_i^{2}-2\theta_2 y_i+\theta_2^{2})=\frac{1}{\sigma_2^{2}}\sum_{i=1}^{n} y_i^{2}-\frac{2\theta_2}{\sigma_2^{2}}\sum_{i=1}^{n} y_i+\frac{\theta_2^{2}}{\sigma_2^{2}}
$$
$$
\begin{aligned}
&\sum_{i=1}^{n} a_i b_i =\sum_{i=1}^{n} \left( \frac{x_i-\theta_1}{\sigma_1} \right) \left( \frac{y_i-\theta_2}{\sigma_2} \right) =\frac{1}{\sigma_1\sigma_2}\sum_{i=1}^{n} (x_i y_i- \theta_1 y_i - \theta_2 x_i+\theta_1 \theta_2) \\
&=\frac{1}{\sigma_1\sigma_2}\sum_{i=1}^{n} x_i y_i- \frac{\theta_1}{\sigma_1\sigma_2}\sum_{i=1}^{n} y_i - \frac{\theta_2}{\sigma_1\sigma_2}\sum_{i=1}^{n} x_i+\frac{n\theta_1\theta_2}{\sigma_1\sigma_2} \\
\end{aligned}
$$
仔细观察即可发现
$$
\left( \sum_{i=1}^{n} x_i,\ \sum_{i=1}^{n} x_i^{2},\ \sum_{i=1}^{n} y_i,\ \sum_{i=1}^{n} y_i^{2},\ \sum_{i=1}^{n} x_i y_i \right)
$$
是此二维正态分布的充分统计量。
}
\questionandanswerProof[19]{
$x_1,x_2, \cdots ,x_n$是来自两参数指数分布
$$
p(x;\theta,\mu)=\frac{1}{\theta} e^{-\frac{x-\mu}{\theta}}, \quad x>\mu, \theta>0
$$
的样本,证明$(\bar{x},x_{(1)})$是充分统计量。
}{
$$
\begin{aligned}
&p(x_1,x_2, \cdots ,x_n; \theta,\mu)=\prod_{i=1}^{n} \frac{1}{\theta} e^{-\frac{x_i-\mu}{\theta}}=\frac{1}{\theta^{n}} \exp \left\{ -\frac{1}{\theta} \sum_{i=1}^{n} (x_i-\mu) \right\} \\
=&\frac{1}{\theta^{n}} \exp \left\{ -\frac{1}{\theta}\sum_{i=1}^{n} x_i \right\} \exp \left\{ \frac{n\mu}{\theta} \right\} , \quad x_1,x_2, \cdots ,x_n > \mu \\
\end{aligned}
$$
其中$x_1,x_2, \cdots ,x_n>\mu \iff x_{(1)} > \mu$,并且$\displaystyle \sum_{i=1}^{n} x_i=n \bar{x}$
所以$(\bar{x}, x_{(1)})$是充分统计量。
}
\questionandanswerSolution[20]{
设随机变量$Y_i\sim N(\beta_0+\beta_1 x_i, \sigma^{2}), i=1,2, \cdots ,n$,诸$Y_i$独立,$x_1,x_2, \cdots ,x_n$是已知常数,证明$\displaystyle \left( \sum_{i=1}^{n} Y_i,\ \sum_{i=1}^{n} x_i Y_i,\ \sum_{i=1}^{n} Y_i^{2} \right) $是充分统计量。
}{
$$
\begin{aligned}
&p(Y_1,Y_2, \cdots ,Y_n; \beta_0, \beta_1, \sigma^{2})=\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi}\sigma} \exp \left\{ -\frac{1}{2}\left( \frac{Y_i-(\beta_0+\beta_1 x)}{\sigma} \right) ^{2} \right\} \\
=&\left( \frac{1}{\sqrt{2\pi}\sigma} \right) ^{n} \exp \left\{ -\frac{1}{2\sigma^{2}} \sum_{i=1}^{n} \left( Y_i-\beta_0-\beta_1 x_i \right) ^{2} \right\} \\
\end{aligned}
$$
其中
$$
\sum_{i=1}^{n} (Y_i-\beta_0-\beta_1 x_i)^{2}=\sum_{i=1}^{n} Y_i^{2}+n \beta_0^{2}+n\beta_1^{2}\sum_{i=1}^{n} x_i^{2} - 2\beta_0\sum_{i=1}^{n} Y_i -2\beta_1 \sum_{i=1}^{n} x_i Y_i + \beta_0\beta_1 \sum_{i=1}^{n} x_i
$$
其中$\beta_0,\beta_1, \sigma$为参数,$x_1,x_2, \cdots ,x_n$已知,
所以$\displaystyle \left( \sum_{i=1}^{n} Y_i,\ \sum_{i=1}^{n} x_i Y_i,\ \sum_{i=1}^{n} Y_i^{2} \right) $是充分统计量。
}
\end{enumerate}
\end{document}