在电子商务中聚类挖掘的应用探讨
- 作者:admin 来源:互联网 日期:2009-6-19 22:35:25
- 一个频繁网页集中的每个关联规则的可信度。可信度的大小也反映了网页之间关联的密切程度。为此,计算每个频繁网页集中所有的关联规则的可信度,在此基础上计算其所有关联规则可信度的平均值,用可信度的平均值反映网页与不同的频繁网页集之间联系的密切程度。
3.利用超图进行网页聚类
超图是对图的扩充,允许一条边连接三个或三个以上的点。每条边带有权的超图称为加权超图,在挖掘出频繁网页集和关联规则的基础上,可以得到网站的加权超图。超图中的一个顶点代表一个网页,超图的边称为超边,超边连接的顶点是频繁网页集中的网页。每个超边的权取该边所对应的频繁网页集中所有关联规则可信度的平均值。
上图为超图的示意图,代表A,B和C所组成的频繁网页集的超边的权值,0.7是A,B和C三个网页所组成的所有关联规则可信度的平均值。
为了使聚集结果的每个类中的网页具有高度相关性,超图中仅包含出现在强关联规则中的网页。利用超图进行聚类的方法是逐步切割超边将超图进行分割,分割成多个子超图,分割的原则是被切割的超边的权值和尽可能小,从而保证将相互关联比较小的网页分割在不同的子图,而将关联比较密切的网页保留在同一子图内。分割过程继续进行直到被切割超边的权值和与留下的超边权值和的比值大于某一临界值,或所得到的子超图数目达到某指定值,分割过程结束,留下的各子超图便是聚类的结果。每一个子超图对应一个聚类,超图中的各顶点代表该聚类中所包含的网页。
4.事务和用户聚类
在将网页进行聚类的基础上,可以将浏览网站的事务和用户进行聚类。浏览事务聚类的原则是根据事务和网页聚类的相似度进行,将事务聚合在相似度最高的网页类中。事务和网页类的相似度可以按照如下公式计算:
|Tj∩Ci|/|Ci|
其中,Tj为一个事务,Ci为一个聚类,|Tj∩Ci|为Tj和Ci中所包含的相同页面的数目,|Ci|为Ci中所包含的页面数目。
在记录网站用户标志的情况下,可以通过用户的浏览事务聚类将用户进行聚类,即将访问相似网页的用户聚在同一类。
5.聚类挖掘结果的可视化
聚类挖掘的结果是多维的,由于笛卡儿坐标系最多只有三个坐标,所以不能用通常的方法作图。而且这些多维的数据集一般不含有空间语义,数据集的各维之间没有空间连贯性,这也很难用传统的二维或三维图形直接表达多维空间。本文采用了一种通过主分量分析将多维空间坐标转换为三维坐标的挖掘结果可视化方法,实现聚类挖掘结果的可视化。根据生成的各个点之间的距离和簇的形状,我们可以有效地从大量数据中发现对我们有用的信息。
三、结论
阐述了在电子商务系统的研究和应用中,利用基于关联规则的多层次、超图分割聚类方法,对Web网页和用户进行有效聚类。该方法借助网站层次图,可以根据实际需要,在各个层次上进行聚类分析;在挖掘出满足一定Support的关联规则的基础上进行聚类,仅将高度相关的网页和用户聚在同一类,而将关联性较小的网页排除在聚类外。该方法对于改进网站质量、完善电子商务中产品销售策略具有十分重要的意义。
参考文献:
[1]Pei J, Han J, Behazad M, et al. Proceedings of the 1999 KDD Workshop on Web Mining[C], Kyoto: PKDD, 1999. 396-407
[2]Cooley R, Mobasher B, Srivastava J. Data Preparation for mining World Wide Web Browsing Patterns [J]. Knowledge and Information System, 1999,1(1): 25-29
[3]Karypis G, Aggarwal R, Kumar V, et al. Multi-level Hypergraph Partitioning: Applications in VLSI Domain[R]. Minnesota: University of Minnesota, Department of Computer Science, 1997.1-50
[4]刘子维等:一种聚类挖掘结果的可视化方法[J].计算机应用研究,2006,23(5):75-76
代写论文联系方式
联系QQ:904272800

联系信箱:904272800@qq.com

代写论文导航
客户、写手申请单
最新论文
热点论文