Information Cell Mixture Models 语义细胞混合模型

语义细胞混合模型是用于表示模糊概念的一种模型，我个人的理解嘛，是一种介于k-means与GMM之间的一个模型。具体论文可以看

Tang, Yongchuan, and Jonathan Lawry. “Information cells and information cell mixture models for concept modelling.” Annals of Operations Research195.1 (2012): 311-323.

下面做一些简要介绍。

基本概念及假设

一个语义细胞混合模型(Information Cell Mixture Model, ICMM)是由一组语义细胞[latex]L_i[/latex]构成的，每个语义细胞使用三元组[latex]<P_i, d_i, \delta_i>[/latex]表示，这三个符号分别表示原型，距离函数以及密度函数。其中原型的概念类似于k-means中的聚类中心，而距离、密度刻画了这个聚类中心的“势力范围”。下图就是一个例子，这个ICMM里面有两个语义细胞。

ICMM的概率密度

假设一个ICMM由[latex]n[/latex]个语义细胞构成，则可以根据每个语义细胞自身的概率密度函数及这个细胞的权重来界定整个ICMM的密度函数如下
[latex]\delta_{ICMM}(X)=\sum_{i=1}^{n} \delta_i (X) Pr(L_i)[/latex]
而每个语义细胞自身的密度函数，由一个指定的距离函数（文中用欧氏距离）和一个概率密度函数（文中用高斯密度函数）一起界定，即
[latex]\delta_{L_i}(X) = \delta_{i}(d_i(X,P_i)) [/latex]表示到X与原型的”距离”密度，而[latex]\delta[/latex]是一个高斯密度函数[latex]\delta(\epsilon|c_i, \sigma_i)[/latex].
上面这堆都是密度函数，最后算出来是个距离（也可以称之为相似度）的密度，那如果要求真正点X到ICMM的“距离”，就需要求密度函数在[latex][d(X, P_i), +\infty)[/latex]范围的积分了。

目标函数

跟其他的生成模型类似，就是最大似然估计，目标函数也就变成了整个(对数)期望最大化了。
[latex]maximize J(ICMM) = ln \delta_{ICMM}(DB)=\sum_{k=1}^{N}(ln \delta_{ICMM}(X_k))[/latex]
[latex]= \sum_{k=1}^{N} ln (\sum_{i=1}^{n}(\delta(\epsilon_{ik}|c_i, \sigma_i)Pr(L_i))[/latex]
其中DB表示数据集，k是训练集的样本，i是第i个语义细胞。
但是上面这个对数似然函数很难优化，因此引入一个隐含变量[latex]z_{ik}\in {0,1} [/latex]并且有[latex]\sum_{i=1}^{n} z_{ik} = 1[/latex]，它表示由某一个语义细胞“生成”了整个ICMM。

参数更新

语义细胞的概率分布更新

引入了隐变量，很容易想到用EM来更新参数… EM就是两个步骤：1.利用现有的参数去更新隐变量；2.利用隐变量来更新参数
在我们的问题中，用隐变量[latex]z_{ik}[/latex]的最大似然估计来更新，即[latex]q_{ik}=E(z_{ik}|ICMM) = \frac{\delta(\epsilon_{ik}|c_i, \sigma_i)Pr(L_i)}{\sum_{i=1}^{n}\delta(\epsilon_{ik}|c_i, \sigma_i)Pr(L_i)}[/latex]
这里的参数c, sigma, Pr, L全都是有hat的hypothesis值，鄙人不熟悉latex，没有加上。
然后，之前的那个目标函数就转变为了
[latex]Q(.)=\sum_{k=1}^{N}\sum_{i=1}^{n}q_{ik}ln(\delta(\epsilon_{ik}|c_i, \sigma_i)Pr(L_i))[/latex]
这是一个带有约束条件(Pr权重加起来=1)最优化目标函数，所以引入Lagrange乘子[latex]\lambda[/latex]来进行变换。变换后的目标函数求最值的问题，就可以转化为偏导数=0的问题了。

更新语义细胞的概率密度

没错，又是“退而求其次”。上面写的那个目标Q，展开来是有一个高斯分布函数项的（见原文公式9），这样对Q最优化又有难度了。作者退了一步，，因为高斯分布是个[0,1]的值，它的ln是负数，因此把这一项[latex]-ln(…)[/latex]去掉，相当于加上了一个负数值的[latex]-ln(…)[/latex].
假设这个精简版的优化目标函数叫U，显然就有[latex]U<=Q[/latex]，相当于U就是个lower-bound
那如果能不断提高U的话，原有的目标函数也能得到优化。还是类似，求最值=偏导数为0，在本文中就是[latex]\frac{\partial U}{\partial c_i} = 0[/latex]以及[latex]\frac{\partial U}{\partial \sigma_i} = 0[/latex]
解出来是这么两坨：

参数更新算法

终于..可以更新参数了，具体算法如下

利用k-means算法找出k个语义细胞的原型，初始化每个语义细胞的权重[latex]Pr(L_i)=1/n[/latex]；
计算训练集到当前原型的距离[latex]\epsilon_{ik}=d(X_k, P_i)[/latex]，这里用的是欧氏距离；
初始化距离密度函数的参数
计算第一轮的隐变量；
迭代更新(EM)，直到目标函数J收敛
1. 更新权重参数；
2. 更新密度函数的两个参数
3. 利用更新后的参数，重新计算隐变量(的MLE)
4. 计算目标函数J

GMM与ICMM

GMM与ICMM长得比较像，我觉得ICMM算是GMM的一个简化版本。GMM求的是每个样例做高斯分布的参数，而ICMM事先就假定好了有k个“原型”，先做了一轮k-means固定下了原型，再来做密度函数的参数更新。假设有N个sample，GMM就相当于是k=N的ICMM。因此从计算复杂度上来说，ICMM比GMM简单，当然了ICMM能表示的模型复杂度还需要调参(k)才能进一步优化。