如何判断聚类分析结构的优劣

飞扬嗒兜兜 2021-09-19 09:19 461 次浏览赞 126

最新问答

洛雪吟风
需要搜集用户的哪些特征？聚类分析变量选择的原则是：在哪些变量组合的前提，使得类别内部的差异尽可能的小，即同质性高，类别间的差异尽可能的大，即同质性低，并且变量之间不能存在高度相关。常用的用户特征变量有：①
人口学变量：如年龄、性别、婚姻、教育程度、职业、收入等。通过人口学变量进行分类，了解每类人口的需求有何差异。②
用户目标：如用户为什么使用这个产品？为什么选择线上？了解不同使用目的的用户的各自特征，从而查看各类目标用户的需求。③
用户使用场景：用户在什么时候，什么情况下使用这个产品？了解用户在各类场景下的偏好/行为差异。④
用户行为：如使用频率，使用时长，客单价等。划分用户活跃等级，用户价值等级等。⑤
态度倾向量表：如消费偏好，价值观等，看不同价值观、不同生活方式的体在消费取向或行为上的差异。需要多少样本量？没有，通常情况下与实际应用有关，如果非要加一个理论的，通常认为，样本的个数要大于聚类个数的平方。①如果需要聚类的量较少（lt;100），那么三种方法(层次聚类法，K-均值聚类法，两步聚类法)都可以考虑使用。优先考虑层次聚类法，因为层次聚类法产生的树状图更加直观形象，易于解释，并且，层次聚类法方法、距离计算方式、标准化方式的丰富程度也是其他两种方法所无法比拟的。②如果需要聚类的量较大（;1000），应该考虑选择快速聚类别法或者两步聚类法进行。③如果量在100～1000之间，理论上现在的计算条件是可能满足任何聚类方法的要求的，但是结果的展示会比较困难，例如不可能再去直接观察树状图了。应用定量方法还是定性方法？聚类分析是一种定量分析方法，但对聚类分析结果的解释还需要结合定性讨论。1.聚类分析的定义与用途聚类分析（Cluster Analysis）是一种探索性的分析方法，根据指标/变量的结构特征，对进行分类，使得类别内部的差异尽可能的小，即同质性高，类别间的差异尽可能的大，即同质性低。2.聚类分析的方法①层次聚类法（Hierarchical），也叫系统聚类法。既可处理分类变量，也可处理连续变量，但不能同时处理两种变量类型，不需要指定类别数。聚类结果间存在着嵌套，或者说层次的关系。②K-均值聚类法（K-Means Cluster），也叫快速聚类法。针对连续变量，也可处理有序分类变量，运算很快，但需要指定类别数。K-均值聚类法不会自动对进行标准化处理，需要先自己手动进行标准化分析。③两步聚类法（Two-Step Cluster）：可以同时处理分类变量和连续变量，能自动识别最佳的类别数，结果比较稳定。如果只对连续变量进行聚类，描述记录之间的距离性时可以使用欧氏（Euclidean）距离，也可以使用对数似然值（Log-likelihood），如果使用前者，则该方法和传统的聚类方法并无太大区别；但是若进行聚类的还有离散变量，那么就只能使用对数似然值来表述记录间的差异性。当聚类指标为有序类别变量时，Two-Step Cluster出来的分类结果没有K-means cluster的明晰，这是因为K-means算法假定聚类指标变量为连续变量。3.聚类分析的步骤①确定研究目的：研究问题关注点有哪些、是否有先验分类数…②问卷编制：态度语句李克特项目、有序类别…③确定分析变量：问卷变量的类型，连续or分类，有序类别or无序类别、是否纳入后台，变量间相关性低…④聚类分析：聚类分析方法选择、标准化方法、聚类类别数确定…⑤结果检验：类别间差异分析、是否符合常理…⑥聚类结果解释：类别的命名、类别间的差异、结合定性解释…
浏览 403赞 63时间 2024-01-22
实言舌实言兑

浏览 206赞 75时间 2023-02-28

如何判断聚类分析结构的优劣

最新问答

相关问答

如何判断聚类分析结构的优劣

最新问答

热门问答

热门标签