Skip to content

6 断点回归

  在处理效应中,如果处理变量\(D_i\)完全由某连续变量\(X_i\)是否超过某断点所决定,据此进行分组的变量\(X_i\),称为分配变量. 考虑规则

\[D_i=\begin{cases} 1,\,\mbox{若}X_i\geq c\\ 0,\,\mbox{若}X_i<c \end{cases}\]

此时,断点附近的局部平均处理效应(Local Average Treatment Effect)为

\[\rho_{LATE}=\mathbb{E}[Y_{1i}-Y_{0i}|X=c]=\mathbb{E}[Y_{1i}|X=c]-\mathbb{E}[Y_{0i}|X=c]=\lim_{X\rightarrow c^+}\mathbb{E}[Y_{1i}|X]-\lim_{X\rightarrow c^-}\mathbb{E}[Y_{0i}|X]\]

  假设干预前,结果变量\(Y_i\)\(X_i\)之间存在线性关系

\[Y_i=\alpha+\beta X_i+\epsilon_i\]

则实施干预的回归方程可写为

\[Y_i=\alpha+\beta(X_i-c)+\delta D_i+\gamma (X_i-c)D_i+u_i\]

上式中,\(X_i-c\)为变量\(X_i\)的标准化,使得其断点为0;并引入交互项\(\gamma (X_i-c)D_i\),允许断点两侧回归线斜率可以不同. 此时\(\hat{\delta}\)就是局部平均处理效应的估计量,由于该回归存在断点,故称为断点回归.

6.1 精确断点回归

定义6.1.1 如果断点\(X=c\)处,个体得到处理的概率从0跳跃到1,我们称这种断点回归为精确断点回归(SRD).

注6.1.1 精确断点回归和随机控制实验的区别是:精确断点回归中,分配变量是处理变量的唯一父变量,分配变量可能受其他变量影响;随机控制实验中,处理变量是随机变量的唯一父变量,但处理变量不受任何其他变量影响.

  精确断点回归的简单情形为

\[Y_i=\alpha+\beta(X_i-c)+\delta D_i+\gamma (X_i-c)D_i+u_i\]

包含处理效应项、断点项、处理效应和断点交互项. 然而,用该方程来估计精确断点回归,存在两个问题. 首先,如果回归函数包含高次项,会导致遗漏变量偏差;其次,断点回归是局部实验,原则上只应使用断点附近的观测值. 为了解决这一问题,我们常在方程中引入高次项,并限定\(X\)的取值范围,如

\[Y_i=\alpha+\beta_1(X_i-c)+\beta_2(X_i-c)^2+\delta D_i+\gamma_1(X_i-c)D_i+\gamma_2(X_i-c)^2D_i+u_i,X_i\in(c-h,c+h)\]

6.2 模糊断点回归

定义6.2.1 如果断点\(X=c\)处,个体得到处理的概率从\(p_0(c)\)跳跃到\(p_1(c)(0<p_0(c)<p_1(c)<1)\),我们称这种断点回归为模糊断点回归(FRD).

  模糊断点回归与精确断点回归的不同在于,精确断点回归中处理变量\(D_i\)完全由分配变量\(X_i\)决定;模糊断点回归中,处理变量\(D_i\)不完全由\(X_i\)决定,一般来说影响处理变量\(D_i\)的其他因素也会影响结果变量\(Y_i\),由此产生内生性。