关于数据矩阵 $X$ 的随机性问题: 在一般情形下,$X$可视为随机,因为样本是随机变量的实现。
格林在第 6.1 节特别强调:
“We will treat XX as fixed in repeated samples, though in most econometric applications it is random. This distinction is immaterial for the results presented below.”
(我们在推导中将 $X$ 视为固定,但在大多数经济应用中它是随机的,这种区别对主要结果影响不大。)
关于球面方差的定义:
“The assumption of spherical disturbances implies that the covariance matrix of the disturbances is proportional to the identity matrix.” (球面扰动假设意味着误差协方差阵与单位矩阵成比例。)
为什么会出现两种估计方法?
格林第 7 章提到两种方法并存的原因非常明确:
“OLS arises naturally from the geometry of linear projections, while MLE arises from the probability model for the data. They coincide under normality, but differ conceptually.”
换句话说:
二者出发点不同:
所以,OLS 是“分布自由”的几何方法,MLE 是“分布依赖”的统计方法。
关于无偏性、有效性和一致性(主要的评价指标):
| 概念 | 保证了什么 | 通俗解释 |
|---|---|---|
| 无偏性 | 估计量“平均不跑偏” | 我用很多样本重复估计,结果的平均值刚好是正确答案 |
| 一致性 | 样本越大结果越准 | 数据越来越多时,估计结果会越来越靠近真值 |
| 有效性 | 方差最小、最稳定 | 在所有正确的估计方法中,我的方法波动最小、最准 |
什么叫做指数族?
| 分布类型 | 随机变量范围 | 自然参数 θ | 方差函数 ($V(\mu)$) | 备注 |
|---|---|---|---|---|
| 正态 ($N(\mu,\sigma^2)$) | $((-\infty,\infty))$ | $(\mu)$ | 常数 | 线性回归 |
| 二项分布 ($Bin(1,p)$) | $({0,1})$ | $(\ln\frac{p}{1-p})$ | $(p(1-p))$ | Logistic 回归 |
| 泊松分布 ($Poisson(\lambda)$) | $({0,1,2,\dots})$ | $(\ln\lambda)$ | $(\lambda)$ | Poisson 回归 |
| Gamma 分布 | $((0,\infty))$ | $(-1/\mu)$ | $(\mu^2)$ | Gamma 回归 |
指数分布族的共同结构使得广义线性模型可以在统一的极大似然框架下处理不同类型的数据。
**如何理解连接函数:**连接函数的本质作用是 确保模型的预测值符合响应变量的取值域。
Logit 回归是选择了正则连接的广义线性模型,如果用连续模型外推离散模型,则 Logit、Probit、cloglog 可以视作是对连续模型误差做不同程度分布假设的结果。
广义线性模型定义为:

对二值选择模型而言,响应变量 ($Y_i \in {0,1}$),因此:

所以:
这正是 Logistic / Probit / cloglog 三种模型的分界点。