泛化能力证明
参考文章及视频:
泛化误差上界的证明
泛化误差上界
马尔可夫(Markov)不等式
尾概率估计方法
强化学习理论基础 Sound_of_wind 的个人空间_bilibili【视频】 :+1:
集合论
如何通俗的理解矩母函数
concentration-slides (stanford.edu)
先导
期望和方差的定义和性质
期望的定义:
离散型:
E[X]=i∑nxipi
连续型:
E[X]=∫−∞+∞xf(x)dx
也称为随机变量 X 的均值,记做 Xˉ
期望的性质:
E[C]=C,C是常数E[aX]=aE[X],a是常数E[aX+bY]=aE[X]+bE[Y]若X,Y相互独立,则E[XY]=E[X]E[Y]
方差的定义:
D[X]=Var[X]:=E[(X−E[X])2]
离散型:
Var[X]=i∑n(xi−E[X])2pi
连续型:
Var[X]=∫−∞+∞(x−E[X])2f(x)dx
方差的性质:
Var[C]=0,C是常数Var[CX]=C2Var[X]Var[aX+bY]=a2Var[X]+b2Var[Y]+2abE[(X−EX)(Y−EY)]=a2Var[X]+b2Var[Y]+2ab[E(XY)−E(X)E(X)]若X,Y相互独立,则Var[aX+bY]=a2Var[X]+b2Var[Y]Var[X+b]=Var[X]Var[aX+b]=a2Var[X]Var[X]=E[X2]−E2[X]
样本期望和方差的无偏估计
假设 X1,X2,X3,....,Xn 是一个独立同分布( i.i.d )随机变量序列,假设其均值 μ=E[X] 及其方差 σ2=Var[X] 均存在。若采用如下估计量来估计 μ ,用 μ^ 表示,同时 μ^ 也是样本均值 Xˉ :
Xˉ=μ^=N1i=1∑nXi
无偏估计的定义:
E[θ]=θ
样本均值期望满足无偏估计,证明如下:
Proof:
E[μ^]=E[N1i=1∑NXi]=N1i=1∑NμE[Xi]=N1⋅N⋅μ=μ
□
在总体方差中,设 S2 为其方差,表达式为:
S2=N1i=1∑N(Xi−Xˉ)2
对于 μ^ 的方差如下,这个在下面的证明需要使用:
Var(μ^)=Var[N1i=1∑NXi]=N21i=1∑Nσ2Var(Xi)=N21⋅N⋅σ2=Nσ2
总体方差是有偏估计,证明如下:
Proof:
E[S2]=E[N1i=1∑N(Xi−Xˉ)2]=N1E[i=1∑N[(Xi−μ)−(Xˉ−μ)]2]=N1E[i=1∑N(Xi−μ)2−2(Xˉ−μ)i=1∑N(Xi−μ)+N(Xˉ−μ)2]∵i=1∑N(Xi−μ)=N(Xˉ−μ)=N1E[i=1∑N(Xi−μ)2−N(Xˉ−μ)2]∵E[(Xi−μ)2]=Var(Xi)=σ2 E[(Xˉ−μ)2]=Var(Xˉ)=Var(μ^)=Nσ2=N1(Nσ2−N⋅Nσ2)=NN−1σ2
当对上式( E[N1∑i=1N(Xi−Xˉ)2] )乘上 N−1N 后,即
==N−1NE[N1i=1∑N(Xi−Xˉ)2]σ2E[N−11i=1∑N(Xi−Xˉ)2]
可让其方差,达成无偏估计的无偏方差为:
S2=N−11i=1∑N(Xi−Xˉ)2
□
尾概率
那么 μ (期望)和 μ^ (样本期望)之间大概差多少?
通常使用 ∣μ^−μ∣≥ϵ , ϵ 是设置的一个阈值,当超过这个时则认为差距大,不超过时则认为不大,那么通过计算 P(∣μ^−μ∣≥ϵ) 如果这个值很小则认为 μ^ 是符合要求的, P(∣μ^−μ∣≥ϵ) 就称为尾概率。
定义:若 X 是一个构成均值为 μ 的随机变量, ϵ 是一个常数:
- P(X≥μ+ϵ) 称为右尾概率(upper tail probability)
- P(X≤μ−ϵ) 称为左尾概率(lower tail probability)
- P(∣X−μ∣≥ϵ) 称为双尾概率(two-sided tail probability)
损失函数
损失函数是用来度量模型一次预测的好坏,通常用 L(Y,f(x)) 来表示,常见的损失函数有:
L(Y,f(X))={1,Y=f(X)0,Y=f(X)
L(Y,f(X))=(Y−f(X))2
L(Y,f(X))=∣Y−f(X)∣
L(Y,P(Y∣X))=−lnP(Y∣X)
风险函数
风险函数则是损失函数的平均。
若是在训练样本集上的平均,则称为经验风险或经验损失(Empirical Risk/Loss),记作 Remp(f) 。给定训练集 T={(x1,y1),(x2,y2),...,(xn,yn)} ,则:
Remp(f)=N1i=1∑NL(yi,f(xi))
若是在样本空间上的期望,相当于在全集中进行度量。则为期望风险或期望损失(Expected Risk/Loss),记作 Rexp(f) 。模型的输入、输出 (X,Y) 是随机变量,遵循联合分布 P(X,Y) ,则:
Rexp(f) = Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
模型训练的终极目的是为了降低期望风险。但由于联合分布 P(X,Y) 是未知的,所以期望风险只存在理论意义。
根据大数定律,当样本容量 N 趋于无穷时,经验风险趋于期望风险。因此,在实际训练时,我们可以用经验风险去近似期望风险。针对样本容量大小,存在两种训练策略:经验风险最小(经验损失最小)策略和结构风险最小(结构风险=经验风险+正则化项)策略。正则化参考2.LinearRegression.md中的 L1 和 L2 正则化。
Rsrm(f)=Remp+λJ(f)=N1n=1∑NL(y,f(x,f))+λJ(f)
当样本容量足够大时,经验风险最小策略就能保证较好的训练效果,即:
f∈FminRemp(f)
如果训练样本有限,经验风险最小策略就会产生“过拟合”,可在经验风险的基础上增加表示模型复杂度的正则化项(惩罚项),即结构风险最小策略(Structural Risk Minimization, SRM):
f∈FminRsrm(f)=f∈Fmin[Remp(f)+λJ(f)]
其中, J(f) 表示模型复杂度,是定义在假设空间 F 上的泛函, f 越复杂, J(f) 越大,比如在多项式函数空间,多项式系数的平方和可作为度量函数复杂度的指标。 λ≥0 是正则化系数,用于权衡经验风险和模型复杂度,即用来控制正则化项(惩罚项)惩罚力度。
正则化方法符合奥卡姆剃刀原理:在所有可能的模型中,能够很好解释已有数据,且最简单的模型才是最好的模型。这样的模型泛化能力强。
霍夫丁不等式的证明
证明霍夫丁不等式,需要先证明马尔可夫不等式、切比雪夫不等式、切诺夫界和霍夫丁引理,才能够对霍夫丁不等式进行证明,这些不等式也叫集中不等式。
⇒⇒⇒⇒马尔可夫不等式切比雪夫不等式切诺夫界霍夫丁引理霍夫丁不等式
一、Markov’s Inequality(马尔可夫不等式)
马尔可夫不等式把概率关联到数学期望,给出了随机变量的分布函数的一个宽泛但仍有用的上界。
马尔可夫不等式:
令 X 为非负随机变量,且假设 E(X) 存在,则对任意的 ϵ>0 有
P{X≥ϵ}≤ϵE(X)
马尔可夫不等式是用来估计尾部事件的概率上界,一个直观的例子是:如果 X 是工资,那么 E(X) 就是平均工资,假设 ϵ=n∗E(X) ,即平均工资的 n 倍。那么根据马尔可夫不等式,不超过 n1 的人会有超过平均工资的 n 倍的工资。
证明如下:
Proof~1~:
E(X)⇒=∫0+∞xf(x)dx=∫0ϵxf(x)dx+∫ϵ+∞xf(x)dx≥∫ϵ+∞xf(x)dx≥ϵ∫ϵ+∞f(x)dx=ϵP{X≥ϵ}P{X≥ϵ}≤ϵE(X)
Proof~2~:
P(X≥ϵ)=∫X≥ϵp(x)dx(1)≤∫X≥ϵϵxp(x)dx(2)=ϵ1∫X≥ϵxp(x)dx≤ϵ1∫0+∞xp(x)dx=ϵE(X)
由 (1) 变到 (2) 可由 P(X≥ϵ) 中的 X≥ϵ 得出,将 ϵ 移到右边得到 ϵX≥1 ,带入 (1) 式可得 (2) 式。
将该不等式推广到概率测度空间上:
设 (Ω,F,P) 为概率空间, X 为非负实值随机变量,对任意 ϵ>0 ,则有 P(w∈Ω:X(w)≥ϵ)≤ϵ1∫ΩX(w)dP
proof:
概率空间
令阶梯函数
S(w)={ϵ0,X(w)≥ϵ,X(w)<ϵ
显然有 0≤S(w)≤X(w) ,
E[X]=∫ΩX(w)dP≥∫ΩS(w)dP=0∫0ϵS(w)dP+ϵ∫ϵ∞dP∫ϵ∞S(w)dP=ϵP(X≥ϵ)P({w∈Ω:X(w)≥ϵ})⇒E[X]≥ϵP(X≥ϵ)∵ϵ>0∴ϵE[X]≥P(X≥ϵ)
□
二、Chebyshev’s Inequality(切比雪夫不等式)
切比雪夫不等式是马尔可夫不等式的特殊情况,其不限定随机变量的范围,应用更广泛。
切比雪夫不等式:
若任意随机变量 (r.v)X 的期望和方差都存在,分别为 E(X) 和 Var(X) ,则有:
P{∣X−E(X)∣≥ϵ}≤ϵ2Var(X),ϵ>0
Proof~1~:
任取 ϵ>0
P{∣X−E(X)∣≥ϵ}=P{∣X−E(X)∣2≥ϵ2}≤ϵ2E{∣X−E(X)∣2}=ϵ2Var(X)
□
红色部分使用的是马尔科夫不等式
Proof~2~:
使用和 Markov 不等式类似的证明方法,通过放缩的方式也可以获得这一结果
记D:∣X−E(X)∣≥ϵP{∣X−E(X)∣≥ϵ}=∫Df(x)dx≤∫D(ϵ∣X−E(X)∣)2f(x)dx=ϵ21∫D(X−E(X))2f(x)dx≤ϵ21∫−∞+∞(X−E(X))2f(x)dx=ϵ21Var(X)
□
红色部分是 ∣X−E(X)∣≥ϵ 得到的 ϵ∣X−E(X)∣≥1 代入。
三、Chernoff’s bound(切诺夫界)
在实际应用中,由于 Markov 不等式和 Chebyshev 不等式仅用到了随机变量的一阶和二阶矩(期望和方差)特征,通常得到的界较为宽松。我们希望能够找到一个更为紧确的界。
上面的切比雪夫不等式使用的是 (X−E[X])2 那么也可以使用 (X−E[X])k ,k 为任意常数,k 可能是奇数使用使用 ∣X−E[X]∣k ,再使用马尔科夫不等式得到 P(∣X−E[X]∣≥ϵ)≤ϵkE[∣X−E∣k] ,在这些上界中(不同的 k 值)可以得到一个更小的,更紧的上界,但是对于k的计算也较为复杂。我们需要一个界它足够的紧,又比较方便计算,那么切诺夫界正好就满足了这两个要求,它的右侧是矩母函数,首先先介绍矩母函数。
矩母函数:
假设 X 为一个随机变量 (r.v.) ,若存在 h>0 使得对于任意 t∈[0,h],E[etX] 均存在,则称存在矩母函数(MGF),记作 Mx(t) ,定义式为:
MX(t):=E[etX]=⎩⎨⎧∑xetx⋅PMFP(x)∫xetx⋅PDFf(x)dxx:discrete(离散)x:continuous(连续)PDF:概率密度函数(probabilitydensityfunction),连续型PMF:概率质量函数(probabilitymassfunction),离散型
矩母函数有一个较好的性质
性质:取 n 次 Mx(t) 的导数并令 t=0 ,就可以得到 E(Xn) 也叫 n 阶矩。即
MX(n)(0)=E[Xn]=dtndnMX(0)
矩母函数(MGF)其实就可以看做矩生成函数,可以通过求导获取到想对应的矩。
Proof:
使用泰勒级数可以得到
⇒ex =1+ x + 2!x2 + 3!x3 +⋯+ n!xnetx=1+tx+2!(tx)2+3!(tx)3+⋯+n!(tx)n
然后取得期望
E[etX]=E[1+tX+2!(tX)2+3!(tX)3+⋯+n!(tX)n]=E[1]+tE[X]+2!t2E[X2]+3!t3E[X3]+⋯+n!tnE[Xn]
假如对 t 求 1 阶导可得
dtdE[etX]=dtd(E[1]+tE[X]+2!t2E[X2]+3!t3E[X3]+⋯+n!tnE[Xn])求完导后代入t=0=0+E[X]+0+0+⋯+0=E[X]
同理 2,3 阶导也可求得 □
为什么我们需要矩母函数
重尾和轻尾:
若随机变量 X 满足 E[etX]=∞,∀t>0 ,则称为重尾,否则就称为轻尾。
重尾的就是指矩母函数不存在,轻尾的是指矩母函数存在。
通过指数函数来了解这个概念,指数分布定义如下:
f(x)={λ⋅e−λx0,x≥0,x<0
求得矩母函数为:
MX(t)=E[etX]=∫0∞etx⋅λe−λxdx=λ∫0∞e(t−λ)xdx=λt−λ1e(t−λ)x0∞=⎩⎨⎧∞λ−tλ,t−λ>0,t−λ<0
可以看只有当 t−λ<0 时才收敛,才能求出期望,一但求出 λ−tλ ,计算矩就变成了求导的问题,比积分更容易计算期望值。
设 t∈(0,∞) ,
有函数 f(x)=exp(tx) ,明显 f(x) 单增,所以 x1≥x2⇒f(x1)≥f(x2) ;
逆函数 f−1(x)=t1ln(x) , f−1(x) 单增,所以 f(x1)≥f(x2)⇒X1≥x2 。
综上可得: x1≥x2⇔f(x1)≥f(x2) 。
综上可以推出以下不等式
P[(x−μ)≥ϵ]=P[et(x−μ)≥etϵ]≤etϵE[et(X−μ)],∀λ∈[0,h]
不等式部分使用的是马尔科夫不等式,因为 λ 的不同,取得的上界也是不同的,所以我们就要获取一个更紧更小的下确界,这个最紧的界就是要介绍的切诺夫界。
切诺夫界:
对任意的 r.v. X ,假设其均值存在且为 μ ,并且其矩母函数 MX(t),t∈[0,h] ,存在,则 X 的切诺夫界定义为:
P[(X−μ)≥ϵ]≤λ∈[0,h]infetϵE[et(X−μ)]=λ∈[0,h]infetϵE[e(tX−tμ)]=常数etμλ∈[0,h]infetϵ+tμE[etX]=λ∈[0,h]infetϵ+tμMX(t)
同时也可以得到一般情况下,令 E[X]=μ=0 得:
P(X≥ϵ)≤λ>0infetϵE[etX]
现在通过正态分布 X∼N(μ,σ2) 了解切诺夫界:
MX(t)=E[etX]=∫−∞∞etx2πσ1e−2σ2(x−μ)2dx=∫−∞∞2πσ1 exp(tx−2σ2(x−μ)2)dx=∫−∞∞2πσ1 exp(2σ22txσ2−x2+2xμ−μ2)dx=∫−∞∞2πσ1 exp(−2σ2x2−2x(μ+tσ2)+μ2)dx对exp中分子前两项凑平方,消去与x的无关项=∫−∞∞2πσ1 exp(−2σ2x2−2x(μ+tσ2)+(μ+tσ2)2+μ2−(μ+tσ2)2)dx=∫−∞∞2πσ1 exp(−2σ2[x−(μ+tσ2)]2+μ2−μ2−2μtσ2−(tσ2)2)dx=∫−∞∞2πσ1 exp(−2σ2[x−(μ+tσ2)]2+μt+2t2σ2)dx=∫−∞∞2πσ1 exp(−2σ2[x−(μ+tσ2)]2)exp(μt+2t2σ2)dxexp后半部分与x无关,可以看做常数=exp(μt+2t2σ2)⋅∫−∞∞2πσ1 exp(−2σ2[x−(μ+tσ2)]2)dx
后面的积分结果必为 1,因为其满足 X∼N(μ+tσ2,σ2) 的高斯分布,所以取得最终结果为:
MX(t)=exp(μt+2t2σ2)
显然 MX(t) 对任意 t>0 均有定义
===t>0infetϵE[et(X−μ)]t>0infetϵ+tμMX(t)t>0infetϵ+tμe(μt+2t2σ2)t>0infe(2t2σ2−tϵ)
接下来求得最小值即可,因为指数函数是单调函数得:
argmint>0{e(2t2σ2−tϵ)}=argmint>0{2t2σ2−tϵ}
将上式对 t 求导得:
dtd(2t2σ2−tϵ)=σ2t−ϵ
然后令等式对于 0 求得驻点
σ2t−ϵ⇒t=σ2ϵ
代入 t ,求得高斯分布切诺夫界为:
e(2t2σ2−tϵ)=e(2σ2ϵ2−σ2ϵ2)=e−2σ2ϵ2⇒P[(X−μ)≥ϵ]≤e−2σ2ϵ2
Hoeffding’s Lemma(霍夫丁引理)
次高斯性:
设 X 是一个均值为 μ=E[X] 的 r.v. ,若存在 σ<0 使得:
E[eλ(X−μ)]≤e2σ2λ2∀λ∈R
则称它为 σ 次高斯,其中 σ 称作次高斯参数。
定理:
若 X 为 σ 次高斯随机变量,则 X 满足:
P[(X−μ)≥ϵ]≤e−2σ2ϵ2
Proof:
P[(X−μ)≥ϵ]=P[eλ(X−μ)≥eλϵ]≤E[eλ(X−μ)]e−λϵ(马尔可夫不等式)≤e2λ2σ2e−λϵ(次高性定义)=e(2λ2σ2−λϵ)
将 λ=σ2ϵ (在切诺夫的正态分布中求过)待入上式,得:
P[(X−μ)≥ϵ]≤e−2σ2ϵ2
□
函数的凹凸性:
Proof:
设函数 f(x) 在区间 I 上有定义,在 I 内任取两点 x1,x2 ,对任意的 λ∈[0,1] ,有 λx1+(1−λ)x2∈[x1,x2] 。
A1 点坐标 (x1,f(x1)) , A2 点坐标 (x2,f(x2)) ,A 点坐标 (x,f(x)) ,于是可求得:
yB=x2−x1x2−xf(x1)+x2−x1x−x1f(x2)
可以得到 yB 是关于 X 的一条直线,且 A1,A2 均在直线上,令 λ=x2−x1x2−x ,则:
yB=λf(x1)+(1−λ)f(x2)
可以得到 yB 的值在 y1 和 y2 之间。易推出:
x=λx1+(1−λ)x2
通过函数图像可得
yA≤yB
所以
f(x)≤x2−x1x2−xf(x1)+x2−x1x−x1f(x2)
即
f[λx1+(1−λ)x2]≤λf(x1)+(1−λ)f(x2),λ∈(0,1)
满足这个性质的函数称为凹函数,同理可证凸函数。
霍夫丁引理:
设随机变量 X∈[a,b] ,对任意的 λ∈R 有:
E[eλ(X−E[X])]≤exp{8λ2(b−a)2}
Proof~1~:
为了使推导更加的简洁,令 E(X)=0 ,如果取其他值也不用影响结果,所以:
E[eλ(X−E[X])]=E[eλX]
其中 eλx 在区间 [a,b] 上是凹函数,由凹函数的性质可得
eλX≤b−ab−Xeλa+b−aX−aeλb
对不等式两边求数学期望有
E[eλX]≤b−ab−E[X]eλa+b−aE[X]−aeλb
因为 E[X]=0 ,所以
E[eλX]≤b−abeλa−b−aaeλb
对右侧表达式进行变换
b−abeλa−b−aaeλb=eλa(b−ab−b−aaeλ(b−a))=exp{λa+ln(b−ab−b−aaeλ(b−a))}
将最复杂的部分进行换元,令 h=λ(b−a),p=b−a−a 则有:
exp{λa+ln(b−ab−b−aaeλ(b−a))}=exp{−hp+ln(1−p+peh)}
对于函数
L(h)=−hp+ln(1−p+peh)
利用泰勒公式将其在 x=0 处展开,得:
L(h)=L(0)+L′(0)h+2L′′(ξ)h2ξ∈[0,h]
对 L(h) 求导得:
L′(h)L′′(h)=−p+1−p+pehpeh=(1−p+peh)2peh(1−p+peh)−p2e2h=1−p+pehpeh(1−1−p+pehpeh)=t(1−t)≤41(均值不等式ab≤(2a+b)2)
可得 L(0)=0,L′(0)=0 ,所以
L(h)≤81h2=8λ2(b−a)2
最终可得到
E(eλX)≤exp{8λ2(b−a)2}
□
Proof~2~:
设 P 为 X 的概率分布,定义 L(λ):=lnEP[eλX] 。
对 L(λ) 在 λ=0 出进行泰勒展开,得:
L(λ)=L(0)+L′(0)λ+2!L′′(λ)λ2
其中 2!L′′(λ)λ2 为拉格朗日余项。因此还需求得 L′(0) 和 2!L′′(λ)λ2 的值。求得:
L′(λ)L′′(λ)=EP[eλX](EP[eλX])′=EP[eλX]EP[XeλX]=EP[eλX]2EP[X2eλX]EP[eλX]−EP[XeλX]2=EP[eλX]EP[X2eλX]−EP[eλX]2EP[XeλX]2
通过计算 L(λ):=lnEP[eλX] 泰勒展开式的每一项可得:
L(0)L′(0)λ=ln(1)=0=EP[eλX]EP[XeλX]λ=EP[X]λ=μλ
但是拉格朗日余项中的 λ 不知其取值,所以只能求得其范围。
此时定义一个关于 X 的分布 Qλ :
∫dQλ=∫Ep[eλX]eλxdP(X)
所以,得到:
L′(λ)L′′(λ)=EP[eλX]EP[XeλX]=∫xEp[eλX]eλxdP(X)=∫xdQλ(X)=EQλ[X]=EP[eλX]EP[X2eλX]−EP[eλX]2EP[XeλX]2=EQλ[X2]−EQλ[X]2=VarQλ[X]
对于方差有以下性质:
随机变量 X∈[a,b] 中,做一个变换,令 Y=b−aX−a ,可以明显得到 Y∈[0,1] 。根据方差定义以及性质可以得到以下等式。
Var[Y]=Var[b−aX−a]=(b−a)2Var[X]⇒Var[X]=(b−a)2Var[Y]=(b−a)2(E[Y2]−E2[Y])
通过提下不等式
0≤Y≤1⇒Y2≤Y⇒E[Y2]≤E[Y]
可推出以下不等式:
Var[X]≤(b−1)2(E[Y]−E2[Y])=(b−1)2E[Y](1−E[Y])
通过均值不等式 ab≥(2a+b)2 可得:
Var[X]≤4(b−a)2
所以可以得到 L(λ) 的拉格朗日余项范围:
2!L′′(λ)λ2=2!VarQλ(X)λ2≤8(b−a)2λ2
综合以上可得到不等式:
⇒⇒⇒⇒L(λ)≤μλ+8(b−a)2λ2lnEP[EλX]≤μλ+8(b−a)2λ2EP[EλX]≤exp(μλ+8(b−a)2λ2)EP[EλX]e−μλ≤exp(8(b−a)2λ2)(其中e−μλ大于0)EP[Eλ(X−μ)]≤exp(2(2b−a)2λ2)
X 刚好是服从 2b−a 为参数的次高斯分布的定义。
□
Hoeffding’s Inequality(霍夫丁不等式)
关于次高斯的一些定理
假设 X 是 σ 次高斯的 r.v. , X1,X2 相互独立,分别为 σ1,σ2 次高斯,则有:
-
Var[X]≤σ2 。
-
∀c (c 是常数)有 cX 是 ∣x∣σ 次高斯的随机变量。
-
X1+X2 是 σ12+σ22 次高斯的。
Proof:
-
设 Y 为一个 r.v. 定义为 Y=X−E[X] 。显然 E[Y]=0,Var[Y]=Var[X] 根据次高斯性的定义, Y 也是次高斯 r.v. 且次高斯参数也是 σ 。
根据高斯的定义
MY(λ)≤e2σ2λ2
对于左侧将 Y 的矩母函数在 λ=0 附近泰勒展开,得:
MY(λ)=MY(0)+1!MY′(0)λ+2!MY′′(0)λ2+3!MY(3)(λ1)λ3λ1∈[0,λ]=1+0+21Var(Y)λ2+6MY(3)(λ1)λ3
对于右侧设 f(λ):=e2σ2λ2 ,则 f′(x)=e2σ2λ2λσ2,f′′(λ)=e2σ2λ2λ2σ4+e2σ2λ2σ2 ,在原点进行泰勒展开,得:
f(λ)=f(0)+1!f′(0)λ+2!f′′(0)λ2+3!f(3)(λ2)λ3λ2∈[0,λ]=1+0+21σ2λ2+6f(3)(λ2)λ3
根据次高斯性的定义有 MY(λ)≤f(λ)∀λ∈R ,代入泰勒展开式得:
限制λ=0,同除λ2⇒⇒⇒⇒⇒21Var(Y)λ2+6MY(3)(λ1)λ3≤21σ2λ2+6f(3)(λ2)λ321Var(Y)+6MY(3)(λ1)λ≤21σ2+6f(3)(λ2)λλ→0lim21Var(Y)+6MY(3)(λ1)λ≤λ→0lim21σ2+6f(3)(λ2)λ21Var(Y)≤21σ2Var(Y)≤σ2Var(X)≤σ2
-
因为 X 是 σ 次高斯分布的,根据次高斯性定义,有:
E[eλ(X−μ)]≤e2λ2σ2∀λ∈R
∵E[X]=μ∴E[cX]=cμ ,所以应当证明下式:
E[eλ(cX−cμ)]≤exp{2λ2(∣c∣σ2∣)}∀λ∈R
设 λ′=cλ ,则有:
E[eλ(cX−cμ)]=E[eλ′(X−μ)]≤e2(λ′)2σ2=e2c2λ2σ2=e2λ2(∣c∣σ2∣)
因此, cX 是 ∣c∣σ 次高斯的。
-
X1+X2 是 σ2+σ2 次高斯分布随机变量
X1 是 σ1 次高斯的, ∴E[eλ(X1−μ1)]≤exp{2λ2σ12}
X2 是 σ2 次高斯的, ∴E[eλ(X2−μ2)]≤exp{2λ2σ22}
则需要证明:E[}]≤exp{2λ2(σ12+σ22)}
===≤=E[exp{λ[(X1+X2)−(μ1−μ2)]}]E[exp{λ(X1−μ1)+λ(X2−μ2)}]E[exp{λ(X1−μ1)}⋅exp{λ(X2−μ2)}]E[exp{λ(X1−μ1)}]⋅E[exp{λ(X2−μ2)}]exp{2λ2σ12}⋅exp{2λ2σ22}exp{2λ2(σ12+σ22)}
□
霍夫丁界:
若随机变量 X1,X2,⋯,Xn 相互独立,且 Xi 的均值为 μi ,次高斯参数为 σi 。则对任意 ϵ>0 有:
P[i=1∑n(Xi−μi)≥ϵ]≤exp{−2∑i=1nσi2ϵ2}
Proof:
根据上面第三个定理 X1+X2 是 σ12+σ22 次高斯可得 i=1∑nXi 为 i=1∑nσi2 次高斯分布随机变量。
根据期望是线性的(可加性)有 E[i=1∑nXi]=i=1∑nE[Xi]=i=1∑nμi
根据霍夫丁引理中次高斯性的定理有
P[(X−μ)≥ϵ]≤e−2σ2ϵ2
将参数代入可得:
P[i=1∑nXi−E[i=1∑nXi]≥ϵ]=P[i=1∑n(Xi−μi)≥ϵ]≤exp{−2∑i=1nσi2ϵ2}
□
霍夫丁不等式:
若随机变量 X1,X2,⋯,Xn 相互独立,且 Xi∈[ai,bi]∀i∈[n] 则:
P[i=1∑n(Xi−μi)≥ϵ]≤exp{−∑i=1n(bi−ai)22ϵ2}
Proof~1~:
∵Xi∈[ai,bi]∀i∈[n]∴ 根据霍夫丁引理 Xi 是 2bi−ai 次高斯的。
把次高斯参数代入霍夫丁界可得
P[i=1∑n(Xi−μi)≥ϵ]≤exp{−2∑i=1n(2bi−ai)2ϵ2}=exp{−∑i=1n(bi−ai)22ϵ2}
□
Proof~2~:
令 Sn=i=1∑nXi ,可得:
P{Sn−E[Sn]≥ϵ}=P{eλ(Sn−E[Sn])≥eλϵ}λ>0
由马尔科夫不等式得:
P{eλ(Sn−E[Sn])≥eλϵ}≤eλϵE[eλ(Sn−E[Sn])]=eλϵE[eλ∑i=1n(Xi−E[Xi])]=eλϵ∏i=1nE[eλ(Xi−E[Xi])]
有霍夫丁引理得:
e−λϵi=1∏nE[eλ(Xi−E[Xi])]≤e−λϵi=1∏ne8λ2(bi−ai)2=exp{−λϵ+i=1∑n8λ2(bi−ai)2}
令
g(λ)=−λϵ+i=1∑n8λ2(bi−ai)2λ>0
对 g(λ) 求导:
g′(λ)=−ϵ+i=1∑n4λ(bi−ai)2
令 g′(λ)=0 得:
λ∗=∑i=1n(bi−ai)24ϵg(λ∗)=∑i=1n(bi−ai)2−2ϵ2
综合上面的可得:
P[i=1∑n(Xi−μi)≥ϵ]≤exp{−∑i=1n(bi−ai)22ϵ2}
□
P[N1i=1∑n(Xi−μi)≥ϵ]≤exp{−∑i=1n(bi−ai)22ϵ2N2}
Proof:
P[N1i=1∑n(Xi−μi)≥ϵ]=P[i=1∑n(Xi−μi)≥Nϵ]
代入霍夫丁不等式可得
P[N1i=1∑n(Xi−μi)≥ϵ]≤exp{−∑i=1n(bi−ai)22ϵ2N2}⇒P[Xˉ−E[Xˉ]≥ϵ]≤exp{−∑i=1n(bi−ai)22ϵ2N2}
□
泛化能力解释
泛化能力(generalization ability)
泛化能力表示学习方法学习到的模型对未知数据的预测能力,可以通过泛化误差来度量。理解为举一反三的能力。
泛化误差(generalization error)
泛化误差表示用学习到的模型对未知数据进行预测的误差,定义如下:(假设学到的模型为 f^ ,L 为损失函数)
Rexp(f) = Ep[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dxdy
泛化误差也就是所学模型的误差期望值(即期望风险),反映了学习方法的泛化能力。
泛化误差上界(generalization error bound)
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界。泛化误差即期望误差,由于其只存在理论意义,只能从理论上寻找泛化误差的概率上界。