D. 1 双胞胎悖论。 Mamoru教授在一所大学的计算机科学与数学楼授课,该楼有 层。

(1)假设楼层是独立的,并且乘坐电梯的人选择每个楼层的概率相同。需要有多少人乘坐电梯,才能使得两个人去同一楼层的概率超过一半(概率大于一半)?

(提示:使用 的泰勒级数展开,并给出解的近似一般表达式。)

(2)Mamoru教授很受欢迎,他的楼层实际上比其他楼层更有可能被选中。假设所有其他楼层被选中的概率相同,推导出两个人去同一楼层的概率的一般表达式,使用之前的相同近似。当Mamoru教授的楼层被选中的概率为.25、.35或.5时,需要有多少人乘坐电梯,才能使得两个人去同一楼层的概率较大?当 ,如果楼层数改为 ,答案会改变吗?

(3) 在(1)和(2)中假设的概率模型都是简单模型。如果你能够获取电梯管理员收集的数据,你将如何定义一个更真实可靠的模型?

D. 2 估计标签偏差。设 上的一个分布, 是一个标记函数。假设我们希望找到分布 的标签偏差的一个好的近似,即 的定义如下:

是一个大小为 的有限标记样本,独立同分布地根据 抽取。使用 推导出 的估计 。证明对于任何 ,以至少 的概率

D. 3 偏斜的硬币。Moent教授口袋里有两枚硬币,。两枚硬币都略有偏斜,即 ,其中 是一个小正数,0 表示正面,1 表示反面。他喜欢和学生玩以下游戏。他随机地从口袋里挑选一枚硬币 ,抛掷它 次,展示出 得到的序列,并询问抛掷的是哪枚硬币。确定 需要有多大,才能使得学生的硬币预测误差至多

(a) 设 是一个大小为 的样本。Moent教授最优秀的学生Oskar,按照决策规则 进行游戏,该规则定义为当 当且仅当 ,其中 是样本 中0的数量。

Suppose is even, then show that

(b) Assuming even, show that

(c) Argue that if is odd, the probability can be lower bounded by using in the bound in (a) and conclude that for both odd and even ,

(d) Using this bound, how large must be if Oskar’s error is at most , where . What is the asymptotic behavior of this lower bound as a function of ?

(e) Show that no decision rule can do better than Oskar’s rule . Conclude that the lower bound of the previous question applies to all rules.

D. 4 Concentration bounds. Let be a non-negative random variable satisfying for all and some . Show that (Hint: to do that, use the

identity , write , bound the first term by and find the best to minimize the upper bound).

D. 5 Comparison of Hoeffding’s and Chebyshev’s inequalities. Let be a sequence of random variables taking values in with the same mean and variance and let

(a) For any , give a bound on using Chebyshev’s inequality, then Hoeffd-ing’s inequality. For what values of is Chebyshev’s inequality tighter?

(b) 假设随机变量 取值在 中。证明 。使用这个结果简化切比雪夫不等式。选择 并绘制修改后的切比雪夫不等式和作为 函数的霍夫丁不等式(你可以使用你偏好的程序来生成图形)。

D. 6 贝内特和伯恩斯坦不等式。这个问题的目标是证明这两个不等式。

(a) 证明对于任意的 ,以及任意的随机变量 ,当 时,

其中

(b) 证明 对于 成立。

(c) 使用切尔诺夫界技术,证明

其中 的方差。

(d) 证明

(e) 使用 (4) 中导出的界,找到 的最优值。

(f) 贝内特不等式。设 为独立实值随机变量,均值为零,满足对于 。设 。证明

其中

(g) 伯恩斯坦不等式。在贝内特不等式相同的条件下,证明

(提示:证明对于所有 。)

(h) 假设相同条件下写出霍夫丁不等式。对于哪些 的值,伯恩斯坦不等式比霍夫丁不等式更好?

D. 7 指数不等式。设 为遵循二项分布 的随机变量。

(a) 使用桑诺夫不等式证明以下指数不等式对于任意

成立:

(b) 使用上述结果证明以下成立:

(c) 证明

其中 如练习 D.6 中定义。