去听习题课并不是为了听讲习题,而是为了混参与分数(虽然我相信这个课不用参与分数也可以拿很高的分)。虽然,仍然有两则有趣的见闻以飨观众。
注:“虽然”是文言用法,意思是“即使这样”。
有一道习题是这样的:
设 X1,...,Xn 独立同分布且取值恒正,证明E[X1+⋯+XnX1+⋯+Xk]=nk.
这个题目的正确做法不难,大概是这样:
用线性性得到E[X1+⋯+XnX1+⋯+Xk]=i=1∑kE[X1+⋯+XnXi],又因为独立且同分布,所以E[X1+⋯+XnXi]=E[X1+⋯+XnX1]⋯⋯
后面的省略了,当我强调独立的时候,助教和几个同学提出质疑:这里并不需要独立性,只要同分布即可。
我说:不,这里需要独立性。
助教:没有独立性就不等了吗?
我:让我换一种说法,我的论证用到了独立性。
助教和其他同学陷入沉思,并再次表示只要同分布,不用独立性。
我:嗯,那如果不需要独立性,这个题目为什么还要给出这个条件呢?此外,我不是说没有独立性这个期望就不相等,而是我不知道没有独立性怎么做,因为我是这样做的;此外,我认为去掉独立性结论不一定成立。
考虑Yi=(Xi,X2,...,Xi−1,X1,Xi+1,...,Xn),因为 Xi 独立同分布,所以每个 Yi 都是同一个分布的 n 次幂,令f(Z1,...,Zn)=Z1+⋯+ZnZ1,我们就知道诸 f(Yi) 是同分布,因此期望相等。
说完上述之后,助教表示:我们来试试找一个不独立的反例?
然后助教想了一个平凡的非反例,我:暂时没有找到反例不代表这是对的呀!
然后又过了一会儿,一个同学提出了一种变形方式,让助教老师一下子就意识到了这里需要独立性。
实际上,助教和其他同学在谈话间常常强调:这里没有用到随机变量的乘积,只是替换了一下下标,应该不用独立性。
这就让我感觉很迷惑,尤其是助教老师也这样,感觉就像是小学生在学习概率论,检查结论是否正确的时候没有使用形式化的思考方式,说好听点叫做“感性理解”和“直觉”,说难听点叫“想当然”。实际上,在达到一定水平之前不要太相信自己的感性、直觉;又或者,只是记住了乘积需要独立,线性不需要独立,然后错误地运用到了这里的情况。
这让我想到了我们的微积分教学,微积分课是一个很好的锻炼形式化思考能力的机会,因为很多想当然的结论是错误的(推荐一本书《数学分析中的反例》)。这里的同学很多也不是一年级的学生了,一年级的微积分课到底是否有效地建立了形式化思考的习惯和能力,还是说过了微积分这一茬儿除了计算没有留下点什么,有待考察。
另外,一个反例:考虑 X1−1∼B(21) 而 X2=X1,X3=3−X1,于是=E[X1+X2+X3X1] = E[X1+3X1]21⋅1+31+21⋅2+32 ≠ 31.
新奇的想法值得仔细对待
有一个题目是这样的:
设 X 是一个取值在 [a,b] 上的随机变量,证明 Var[X]≤4(a−b)2 并说明何时等式成立。
这个题目也很简单,一个自然的想法是使用 Jensen 不等式,这里略去不谈。一位同学提出了一个新奇的做法,定义随机变量Y={a,b,X≤E[X];otherwise.然后注意到 (Y−E[X])2≥(X−E[X])2,于是 Var[Y]≥Var[X],而熟知 Y 的方差不超过 4(a−b)2,于是得到结论。
在她讲述的时候,我非常吃惊,因为这个构造的想法在我看来是巧妙的,而且她一开始说思路的时候也特别好:“我们先找一个随机变量,把 X 的方差放大。”然后我也没多想,而且我在讲我的做法(Jensen 不等式,讲题可以改进平时分数)的时候还称赞了这个做法,我说这个做法很“新奇、聪明”。
只可惜这个证明是错误的,下课前我发现这里的谬误在于 Y 的期望并不一定要是 X 的期望,前面的逐点不等式无法推出方差的关系。
新奇的想法可以开阔思维,值得仔细学习,同时也要仔细审视,确保是正确的。
18 日更新
再次思考表明这个方法实际上是可行的,只不过正确的做法很不简炼。这里要先造另一个概率空间,并且在新的空间上实现 X,且新实现的离散部分可以被“拆开”。
具体来说,考虑原来的概率空间是 P,则新建立的概率空间是 P×Qv,其中 Qv 是一个待定的 {0,1} 上的概率测度,且 {0} 的测度是 v。定义 X^(p,q)=X(p),显然 X^ 和 X 同分布,现在开始用 X 表示 X^。待定 Y 是这样一个随机变量:Y(p,q)=⎩⎨⎧a,a,b,X<u;X=u,q=0;otherwise.我们希望 E[Y]=u,利用累积概率函数的单调性和右连续性,容易看出存在着一种 u,v 的选取使我们的愿望被满足——论证方法是先用区间套确定 u,然后根据需要选择 v(实际上当 Pr[X=u]>0 时才用得到 v,等于 0 的情况都不需要建立新的概率空间;另外这里的叙述有很多种不同的说法,这里提到的不一定是最易懂的)。接下来利用=≤≤Var[X] = E[(X−E[X])2]E[(X−u)2]−(u−E[X])2E[(X−u)2]E[(Y−u)2] = Var[Y],就得到结论。
当然这样大费周章就抛弃了考虑这个方法的意义(本来我们希望这个方法是巧妙、简洁、优美的),另一位同学在课上已经提出了一种很优美的做法,用上一个公式里的第一个不等号的道理:Var[X]≤E[(X−2a+b)2]≤4(a−b)2.
评注 实际上,最后一个方法和 Jensen 不等式方法的区别在于配方的先后,Jensen 不等式最后一步是对 E[X] 配方,而最后这个方法是先对 X 配方,而(X−2a+b)2≤4(a−b)2也可以看成是 Jensen 不等式的特殊情况(不过,一般来说大家不说这是 Jensen 不等式)。
请启用 JavaScript 来查看由 Disqus 驱动的评论。