新闻资讯

NEWS

公司新闻
行业新闻

CRM系统:聚类模型在客户关系管理中的应用以及对特征提取的探讨

3  对客户数据进行聚类分析 把聚类算法应用到客户数据上面,通常需要以 下几个步骤: ①特征提取; ②归一化; ③聚类; ④分 析聚类的结果。表1 是关于移动客户的数据。本节 将以这个移动数据作为例子,讨论进行聚类分析的 每个步骤。 311  特征提取 特征属性提取是应用聚类算法,也是其他数据 挖掘算法之前的一个重要的步骤。因为数据都是从 现实世界中收集的,不像用于理论分析而人工生成 的数据那样“纯净”。在收集数据时,常常会记录很 多属性。但是,在对数据进行聚类的时候,并不是每 一个属性都对聚类分析有用;每一个对聚类分析有 用的属性,他们对聚类的影响也不是同等的。比如 在表1 中的移动数据,地址对移动客户消费群的划 分是没有贡献的,因为移动客户不会因为他们的地 理上的相近而产生相似的消费行为。像手机用户的 年龄和性别,他们对聚类有一定的贡献,可是他们的 影响不像用户的通话分钟数等消费属性那么直接。 因此,在进行聚类分析前,需要把无关的属性去掉, 并给一些影响小的属性确定一个较小的权重,以减 轻它们在聚类过程中,对距离的贡献。  另一个问题是,不同的属性之间可能会存在关 联,甚至是完全相关。比如说,一个客户的月收入水 平比较低,那么他的话费很可能就比较低;而一个高 收入的客户,他的话费也比较可能偏高。因此月收 入和话费这两个特征是有一定关联性的。再看一个 例子,在表格一中,特征“短途分钟”和“短途话费”是 完全相关的。从前者可以通过某种公式计算出后者 (在我们的例子中,是“单价3 短途分钟= 短途话 费”) 常常我们不希望在计算两个客户之间的距离 时,计入一个属性的双重或者多重影响。所以我们 需要进行特征提取,除去冗余和无关的属性,剩下的 属性就是用于聚类分析的相关属性了。在第四节 中,我们将会给出在非监督学习中,进行特征提取的 具体算法,并且和监督学习中的特征提取算法进行 比较。 312  离散属性值 聚类算法是基于数据点之间的距离,它的目标 是把相似的数据点聚为一类,把不相似的数据点划 分到不同的子类。对于连续的属性值,距离的衡量 是很自然的。 313  归一化 归一化是数据预处理的另一个重要步骤。在聚 类的不同属性中,每一个属性有不同的取值范围。 比如在表1 中的移动数据,年龄通常在[ 18 , 80 ] , 然 而,通话分钟数的取值通常在几百。如果把这两个 距离简单的相加,那么在通话分钟属性上的距离会 大大超过年龄上的距离,从而削弱年龄差距的影响。 一种办法是把每个属性的取值范围都归一化到[ 0 , 1 ] 的范围内。也可以给不同的属性根据他们重要 性的大小,赋上不同的权值。 314  聚类分析 对数据预处理好之后,就可以运用聚类算法进 行聚类分析了。可以根据问题的需要,选择相应的 算法。 运用聚类算法之后,需要管理人员对聚类的结 果进行分析,并作出反馈。比如说,从聚类的结果来 看,是否合理,是否符合他们的预期结果。比如,用 户在运用K2Means 分析移动客户的时候,指定k = 3 。但是从聚类的结果来看,分成3 个子类,并不能 很好的区分客户群体。因此用户需要调整聚类的参 数,重新对数据进行聚类分析,直到聚类的结果合理 为止。 4  非监督学习中的特征提取算法 在这一节中,我们介绍在非监督学习中的特征 提取算法。在监督学习中,特征提取问题被研究的 很多。主要有两类代表性的算法。第一类叫wrap2 per app roach[10 ] , 就是把各种特征组合成不同的特 征子集,用一个分类算法来测试在不同特征子集上 的分类正确率,以此来选择最好的特征子集。特征 子集通常有以下两种方法产生: ①向前选择,从单个 特征开始,然后每次往当前的特征子集里面增加一 个好的特征,再测试正确率; ②向后消除,现选中所 有的特征,然后每次剔除一个差的特征,在剩下的特 征子集中,测试正确率。第二类算法是对每个特征 计算一个分数,衡量它的重要性。对所有特征按分 数排序,剔除那些分数低的特征。Fisher Score 和 Information Gain 就属于这一类。在进行这一类分 数计算的时候,通常需要类属性值来帮助衡量一个 特征的重要性。 在文献[ 11 ]中提出了一个新的特征提取算法 Laplacian Score (L S)1 这个算法的思想是,假设在 一个n 维空间,两个数据点距离很近。如果我们选 择一个k (k < n) 维的子空间,在这个子空间中,这 两个数据点仍然很近。那么我们认为这个k 维的子 空间能够很好的保持数据点在原来n 维空间的临近 关系。这种性质叫做Locality Preserving1 在LS 算法中, 对每一个特征都计算出它的Laplacian Score , 来反映它的Locality Preserving power 。为 了描述数据点附近的几何结构,我们建一个nearest neighbor 图。LS 要提取出那些能够保持这个图的 结构的特征。 我们认为,L S 很适用于解决聚类问题中的特征 选择问题。因为①L S 不需要知道类属性,这正是 聚类问题所不能提供的信息。②L S 寻找的是可以 保持数据点临近结构(距离) 的特征,这与聚类问题 的目标是一致的。 我们在下面给出L S 算法的详细描述。让Lr 表示第r 个特征的Laplacian Score1 让f ri 表示第i 个数据点的第r 个特征值, i = 1 , ⋯,m1 该算法的 理论分析可以参见文献[11 ] 。 在第五节,我们将在实验中检验LS 算法在聚 类算法中的有效性。 强力推荐: 天柏客户关系管理系统 天柏客户关系管理系统(CRM)是一款集专业性、实用性、易用性为一体的纯B/S架构的CRM系统,它基于以客户为中心的协同管理思想和营销理念,围绕客户生命周期的整个过程,针对不同价值的客户实施以客户满意为目标的营销策略,通过企业级协同,有效的“发现、保持和留住客户”,从而达到留住客户、提高销售,实现企业利润最大化的目的。通过对客户进行7P的深入分析,即客户概况分析(Profiling)、客户忠诚度分析(Persistency)、客户利润分析(Profitability)、客户性能分析(Performance)、客户未来分析(Prospecting)、客户产品分析(Product)、客户促销分析(Promotion)以及改善与管理企业销售、营销、客户服务和支持等与客户关系有关的业务流程并提高各个环节的自动化程度,从而帮助企业达到缩短销售周期、降低销售成本、扩大销售量、增加收入与盈利、抢占更多市场份额、寻求新的市场机会和销售渠道,最终从根本上提升企业的核心竞争力,使得企业在当前激烈的竞争环境中立于不败之地。 关键词:CRM,CRM系统,CRM软件,客户关系管理,客户管理软件,客户管理系统,客户关系管理软件,客户关系管理系统