徐海蛟 Teaching.
考虑一个随机变量X,如果给出X的一系列独立同分布的观察值,那么如何由这些观察值来估计出X的密度函数P(X)?这就是密度估计问题。
概率分布可分为参数分布和非参数分布。参数分布函数是由一些参数控制的,比如高斯分布中平均值和方差,用参数分布的方法去估计密度时,必须确定合适的参数。从频率论来看,可用极大似然函数来确定参数;而从贝叶斯论来看,需要引入共轭先验,它使得后验分布与先验分布有相同的函数形式。比如多项分布的共轭先验是狄利克雷分布。
非参数分布一般依赖于观察数据集的大小,虽然也包含参数,但这些参数只控制模型的复杂度而不是分布函数的形式。此类方法主要有直方图,核函数和最近邻方法。
We emphasized the central role played by probability theory in the
solution of pattern recognition problems. We turn now to an exploration of some particular examples of probability distributions and their properties. As well as being of great interest in their own right, these distributions can form building blocks for more complex models. The distributions introduced here will also serve another important purpose, namely to provide us with the opportunity to discuss some key statistical concepts, such as Bayesian inference (贝叶斯推理), in the context of simple models before we encounter them in more complex situations.
One role for the distributions discussed here is to model the probability distribution p(x) of a random variable x, given a finite set x1,..., xN of observations. This problem is known as density estimation (密度估计). For the purposes, we shall assume that the data points are independent and identically distributed (独立同分布). It should be emphasized that the problem of density estimation (密度估计) is fundamentally ill-posed, because there are infinitely many probability distributions that could have given rise to the observed finite data set. Indeed, any distribution p(x) that is nonzero at each of the data points x1,..., xN is a potential candidate. The
issue of choosing an appropriate distribution relates to the problem of model selection that has already been encountered in the context of polynomial curve fitting (多项式拟合) and that is a central issue in pattern recognition.
We begin by considering the binomial and multinomial distributions (二项分布与多项式分布) for discrete random variables and the Gaussian distribution (高斯分布) for continuous random variables. These are specic examples of parametric distributions (参数分布), so-called because they are governed by a small number of adaptive parameters, such as the mean and variance in the case of a Gaussian for example. To apply such models to the problem of density estimation, we need a procedure for determining suitable values for the parameters, given an observed data set. In a frequentist treatment, we choose specic values for the parameters by optimizing some criterion, such as the likelihood function (似然函数). By contrast, in a Bayesian treatment we introduce prior distributions over the parameters and then use Bayes’ theorem to compute the corresponding posterior distribution
given the observed data.
We shall see that an important role is played by conjugate priors (共轭先验), that lead to posterior distributions having the same functional form as the prior (它使得后验分布与先验分布有相同的函数形式), and that therefore lead to a greatly simplied Bayesian analysis. For example, the conjugate prior for the parameters of the multinomial distribution is called the Dirichlet distribution (狄利克雷分布), while the conjugate prior for the mean of a Gaussian is another Gaussian. All of these distributions are examples of the exponential family of distributions, which possess a number of important properties, and which will be discussed in some detail.
One limitation of the parametric approach is that it assumes a specic functional form for the distribution, which may turn out to be inappropriate for a particular application. An alternative approach is given by nonparametric density estimation methods (非参数密度估计方法) in which the form of the distribution typically depends on the size of the data set. Such models still contain parameters, but these control the model complexity rather than the form of the distribution. We end this discussions by considering three nonparametric methods based respectively on histograms, nearest-neighbours, and kernels (直方图,最近邻和核函数).
2.1 二项分布
考虑随机变量X描述抛硬币实验的结果,当为正面时,X=1;反面
时,X=0。那么X的概率分布就是如下的伯努力分布:
当给出X的一组观察数据集时,可由此得到它的似然函数:
取对求导后可得参数的极大似然值,发现此值只与观察数据值有关,这
种情况是充分统计。然而从频率论的角度得出的极大似然值有可能产生
过拟合现象。
如果将上述实验重复N次,记m为X=1次数,就可得到二项分布:
2.1.1 贝塔分布
从贝叶斯观点看,需要引入一个先验分布。注意观察到似然函数的形
式,则可考虑如下形式的贝塔先验分布:
那么后验分布就和似然函数与先验分布的乘积成正比,且与先验分布有
相同的形式,也是贝塔分布。即有:
通过对比先后验分布发现,先验分布中的参数a和b可分别看做影响观察
值X=1和X=0的数目。
此外,如果我们连续地观察到新的数据,那么后验分布也可做为先验
分布。每次观察一个新数据,计算包含新数据的似然函数,乘以修改前
的后验分布后再规范化,就可得到修改后的后验分布。每新增一个X=1
的观察数据,a增加1;每新增一个X=0的观察数据,b就增加1。
连续方法不依赖于先验的选择和似然函数,只依赖于数据的独立同分
布。由于它不需要全部数据存在内存,所以可用于大数据集。
根据式子(2.20)可得出,当数据集是无穷大的情况下,从贝叶斯和
似然函数得到的结果是一致的;当数据集是有限的时,后验值介于先验
值和似然值之间。
2.2 多项分布
考虑一个K维的随机变量X,其中的元素只有一个等于1,其它为零。
表示X有K个取值状态,每个状态被取都有一定的概率,且这些概率和
为1,实际上是伯努利分布的一种推广。那么变量X的分布函数为:
如果取N个独立的观察数据值,那么相应的似然函数为:
从似然函数可看出,此分布显出了充分统计。通过取对数,加入拉格朗
日因子,求导可得出似然值。
如果考虑每个状态被观察的次数的联合分布,那就得出如式(2.34)
的多项分布。
2.2.1 狄利克雷分布
考虑如何找多项分布的先验,通过观察似然函数并由共轭先验性,得
到先验分布是如下的狄利克雷分布:
由贝叶斯理论可得后验分布如下:
发现后验也是狄利克雷分布,这也证实了狄利克雷分布确实多项分布的
共轭先验。狄利克雷先验分布中的参数和贝塔先验分布中的参数解释类
似。
2.3 高斯分布
中心极限定理说明无穷多个独立随机变量组成和的分布是高斯分布。
多元高斯分布的函数依赖是指数中的二次型:
它的开方也就是马氏距离,当协方差矩阵是单位矩阵时,马氏距离就成
了欧氏距离。通过求特征值与特征向量等矩阵知识,可变二次型为:
这样就从一个坐标系转到另一个坐标系,新坐标方向沿着各个特征向
量,比例为特征值的根值。协方差距阵至少应该是半正定的。
通过计算雅可比矩阵,可得新坐标下的高斯分布:
高斯分布中的参数分别代表均值和协方差。
虽然高斯分布应用广泛,但也有局限性。一般高斯分布的参数个数随
着数据集的二次方增长;如果协方差是对角的,那么参数个数是数据集
个数的2倍;如果协方差是与单位矩阵成比例,那么参数个数是数据集个
数加1。但是这些条件会限制高斯分布获取数据相关性的能力。
高斯分布的另一个局限是它不能模拟多峰分布,因为它本身是一个单
峰分布。
2.3.1 高斯条件分布
高斯条件分布还是高斯分布。考虑一个D维的向量X,把它分成两部
分,给出一部分时,求另一部分的条件分布。一般的二次形式为:
计算高斯条件分布时用到协方差矩阵的逆,称为精度矩阵。用分块矩阵
的知识可得高斯条件分布的二次形式(2.70),然后对比就得到条件分
布的均值和协方差,由此得到的值是关于精度矩阵的。当然,通过一些
矩阵知识,也可得到关于协方差的表现形式,精度矩阵表示比协方差表
示简单。
由于条件分布的均值是Xb的线性函数,并且条件分布的方差独立于
Xa,所以称这样的模型为线性高斯模型。
2.3.2 高斯边缘分布
高斯边缘分布也是高斯分布。为求(2.83),考虑高斯的二次形式,
从(2.70)中挑出Xb并完全平方化得到(2.84)。在整个二次型中对
Xb求积分后剩下结果只是关于Xa的函数,可用来与(2.71)作对比,
就得到了边缘分布以精度分块矩阵表示的均值和协方差,换成协方差表
示的如下所示:
与高斯条件分布相比,边缘分布的均值和协方差用分块的协方差表示
更简单。
2.3.3 高斯变量的贝叶斯理论
给出高斯边缘分布P(X)和高斯条件分布P(Y|X),如何求得边缘分
布P(Y)和条件分布P(X|Y)?
首先,由P(Z)=P(Y|X)P(X)算出联合分布。用联合分布的二次
型与(2.71)比较可得出联合分布的均值(2.108)和协方差(2.105)。
其次,由上节求高斯边缘分布的结论,可得联合分布P(Z)关于X的
边缘分布P(Y),其均值和协方差分别是(2.109)和(2.110)。
最后,由求高斯条件分布的结论,可得条件分布P(X|Y)的均值和协方差,分别用(2.111)和(2.112)表示。
如果把P(X)看作是先验分布,那么P(X|Y)可以看成在观察到Y之
后的后验分布,这可看做是贝叶斯理论的例子。
2.3.4 高斯的极大似然
给出N个独立同分布于多元高斯分布的观察值,如何对高斯分布的参
数进行估计?
首先求得多元高斯分布的似然函数的如下对数形式:
然后对参数求导就可得极大似然值,其中求协方差的似然值比较复杂,
有文章给出了独特的解法。
可以验证,均值的似然估计是无偏的,而协方差的似然估计是有偏的,
但可以通过调整得到无偏的。
2.3.5 连续估计
考虑高期分布的均值极大似然,当把最后一个数据分离出来,就形成
(2.126),它通过新观察到的数据值与以前的似然值的差来修改当前的
似然值,体现了连续性。
Robbins-Monro算法,定义了一个回归函数(2.127),目标是找到回
归函数的根。假设每次只有一个观察,如何找到一个相应的连续估计来
找到根。
那么如何对一般的似然函数用Robbins-Monro算法求解?通过观察
(2.133)和(2.134),发现似然函数的解对应于回归函数的根,就有
(2.135)。文中给出了一个单变量高斯分布连续分布的例子。
2.3.6 高斯的贝叶斯推理
考虑单变量高斯分布,方差已知,从贝叶斯观点来推理均值,由一些
观察数据集,就可得似然函数(2.137)。观察似然函数,可得共轭先验
是高斯分布,通过相乘似然函数与先验并规范化后得后验分布,其均值
与方差如下:
发现后验均值是先验均值与似然值的组合,当N=0时,为先验均值;N
无穷大时为似然值。当观察数据增加时,后验精度是增加的;当N=0时
后验精度是先验精度;当N无穷大时,后验方差为0,后验分布在变得无
限尖。当先验有无穷大的方差时,后验均值成了似然值。
另外,贝叶斯推理能自然地说明连续估计,见(2.144)。
考虑均值已知,方差未知的高斯单变量分布,关于精度的似然函数为
(2.145),通过观察可得相应的共轭先验为伽马分布:
其a与b为参数。通过先验与似然函数的乘积,可得后验分布的参数:
发现N个观察数据能增长系数a,为参数b贡献了
考虑均值与方差都不未知的单变量高斯分布,关于均值与方差的似然
函数为(2.152),通过完全平方,发现共轭先验是高斯分布和伽马分布
的联合形式,被称为高斯-伽马分布:
注意到此分布不是简单的高斯分布和伽马分布的乘积,因为各自的参数
有线性关系。
考虑多元变量,若协方差已知,关于均值的共轭先验是高斯分布;若
均值已知,关于精度矩阵未知的共轭先验是Wishart分布,见(2.155)
若均值与协方差都未知,那么共轭先验是Gaussian-Wishart分布。
2.3.7 t分布
考虑一个单变量的高斯分布和伽马分布,经过融合,对精度求积分,
可得边缘分布如(2.158),再通过代量变换,就得到t分布:
若v=1,t分布就成了柯西分布;若v趋于无穷大,t分布就成了高斯分布
通过观察(2.158),t分布就是无穷多个有相同均值不同精度的高斯
分布的和,实际上就是高斯的混合模型。t分布比高斯分布有一个长尾巴
因此它也就比高斯分布健壮,这可从图2.16看出。
通过运用和单变量相同的方法可以得到多元变量的t分布:
2.3.8 周期变量
考虑一个周期变量的N个数据集,如何估计它们的均值?可以把它们
看成是单位圆上的点,并用二维的单位向量来表示。这样通过坐标变换
就得周期变量的均值(2.169)。
考虑周期变量的分布,它必须满足(2.170)—(2.172)三个条件,
找一个符合条件的类高斯分布:
此分布的轮廓是一系列圆,从笛卡尔换到极坐标,由上式可得到周期
变量的分布,即von Mises分布:
考虑von Mises分布的极大似然估计,它的似然函数的对数形式为:
对第一个参数求导可推出似然值:
对第二个参数求导可得(2.187),求其逆即为似然值。
一般有如下处理周期分布的方法:第一,用柱状图,把极坐标分成固
定的箱子,此方法简单灵活;第二,就是类似于von Mises的方法;第三
通过把宽度为2派的连续区间映射到周期变量,任何在实坐标上有效的分
布都能转换成周期分布。
von Mises分布的局限性是它是单峰的。
2.3.9 混合高斯
任意连续的密度能被足够多的高斯分布以任意的精度逼近。考虑混合
高斯分布:
混合系数满足(2.190),由全概率公式可得(2.191)和(2.192)。
混合高斯的似然函数的对数形式为:
由于出现了下标k,使得似然的最大化很难求,一般采用EM算法。
2.4 指数家族
指数家族的分布形式一般为:
首先考虑伯努利分布,它通过简单的变换可表成标准分布形式:
通过比较,可得到各个参数形式。
其次考虑单个观察值的多项分布,它能写成(2.204),标准形式为:
其相应参数也可通过比较可得。根据条件(2.209),现在想用前M-1个
参数来表示第M个参数,这样多项分布可表示成(2.21),经过一系列
数运算可得标准形式:
最后考虑了单变量高斯分布。
2.4.1 极大似然和充分统计
考虑N个独立同分布的数据集,指数家族分布的似然函数如下:
对似然函数取对数,求导可得:
这样就可以从理论上求得似然估计值。
另外,似然估计值以...的形式只依赖于数据,这样的性质称
为指数家族分布的充分统计。
2.4.2 共轭先验
给出一个密度分布 ,可以找到共与似然函数共轭的先验分布,
也能得到和先验分布有相同形式的后验分布。对于指数家族中的任一分
布,都有如下形式的共轭先验:
那么,后验分布就正比于似然函数与共轭先验的乘积,其形式如下:
2.4.3 无信息先验
许多情况下,不能确定先验分布是什么分布,于是我们想找到不提供
信息的先验,它尽可能少地影响到后验分布,让数据本身表达自己。
给出一个分布P(x|λ),如何找到先验分布?如果λ是K个状态的离散
变量,可取概率为均值。如果是连续的,则存在两个潜问题:第一,对
参数λ的积分有可能发散,会产生不合适的先验;第二,概率密度在变
量非线性变换下引起变化。
举了两个不提供信息先验的例子,分别描述了平移不变性和比例不变
性。可以找到反映(2.232)和(2.233)性质的先验分布,使(2.234)
成立,进而可得分布是不变的,相应的位置参数例子是高斯分布的均
值。然而通过(2.239)发现有比例参数的先验分布是合适的先验,通过
取对可修正。相应的例子是高斯分布的标准差,其先验分布是伽马分布
2.5 非参数方法
参数方法需要找到合适的密度分布模型,如果模型找的不好,就会产
生不好的效果。如多峰数据集用高斯分布模拟是不会有好效果的。
考虑连续单变量x,把x分成有一定宽度的不同格子,数出落进不同格
子的观察数据,通过规范化,可得每个格子的概率值(2.241),通常格
子的宽度是相同的。这就是柱状图方法,它能处理大数据集和连续到达
数据。但是也有局限:由于格子边的存在,估计密度不是连续的;在高
维空间引起维度灾难。
它给我们的启发:为了估计某点的概率密度,可考虑此点的邻域,柱
状图中邻域相当于格子,它的光滑参数就是格子的宽度;为了得到较好
的效果,光滑参数既不能太大也不能太小。
2.5.1 核密度估计
考虑D维空间的密度估计,在点x邻域内概率可由(2.242)表示,这
样落进区域的观察数据的数目就服从二项分布(2.243),由相关知识可
得密度估计值:
在这里,邻域应该足够小以使在其中的密度保持不变;邻域又应该足够
大以使落进其中观察数据数目服从二项分布。
当固定K值,从数据中决定V的值,就是K近邻方法;当固定V值,从
数据中决定K,就是核方法。
把x的邻域看成超立方体,为了数出落入立方体的观察点,定义了如
(2.247)的核函数,从而可得K,表达式如(2.248),代入(2.246)
就得如(2.249)的估计密度。为了得到光滑的密度模型,通常用高斯核
函数(2.250)。
2.5.2 最近邻方法
最近邻方法能解决核函数中h的取值问题。
考虑以点x为中心的小球邻域,允许小球射线增长,止到小球含有K个
数据点,这就是K最近邻方法,它也有一个K的取值问题。
K近邻方法可用到分类问题,考虑总共有N个点,C个类,每个类Ck有
Nk个点,如果想分类一个新点x,可设想一个以x为中心的包含K个点的
小球,然后通过贝叶斯理论,就可得到:
使上式取最大值类别就是点x应该分的类。