我对数据科学相当陌生,想用简单的话(比如教你的祖母)知道度量和非度量多维缩放之间的区别是什么。
我已经在谷歌上搜索了2天,看了不同的视频,不能很好地理解人们用来描述差异的一些术语,也许我缺乏一些基本知识,但我不知道在哪个领域,所以如果你有一个想法,我应该在解决这个问题之前有一个坚定的理解,我会很感激的建议。以下是我所知道的:
多维缩放是一种减少维度的方式,以便能够以更友好的方式可视化或表示数据。我知道MDS有几种方法,比如度量和非度量,PCA和FA(也许FA是PCA的一部分,我不确定)。
我尝试应用此方法的示例是一组显示不同城市以及与这些城市相关的属性的数据。例如,在1-7(1最低-7最高)的分数上,这是每个城市和相应属性的分数。
**Clean** **Friendly** **Expensive** **Beautiful**
字符串
柏林- 4 -- 2-
日内瓦-7
巴黎---------- 3 ------------------- 4-------------------6---------------------------7
巴塞罗那- 2 -- 6--3-4
我如何知道我应该使用度量MDS还是非度量MDS。有没有一般的经验法则或简单的逻辑,我可以用它来决定,而不深入技术过程。
谢谢你
2条答案
按热度按时间ssgvzors1#
好吧,我可能无法给予你一个具体的答案,但一个简单的答案是,度量MDS已经有了距离形式的输入矩阵(即城市之间的实际距离),因此这些距离在输入矩阵中具有意义,并根据这些距离创建实际物理位置的Map。
在非度量MDS中,距离仅仅是排名的表示(即,高为7或低为1),它们本身没有任何意义,但是需要它们来使用欧几里德几何来创建Map,然后该Map仅示出由Map上坐标之间的距离表示的等级的相似性。
5lhxktic2#
Metric MDS处理一个
item x item
输入矩阵,其项表示欧氏距离(Metric MDS的特殊情况称为经典MDS*,等价于PCA**)或任何其他项目之间的距离。非度量MDS处理项目之间的一些类似距离的度量(让我们称之为相异性)。不要求相异性满足距离/度量的形式属性(参见wiki所需属性)。唯一的要求是,应该可以以非降序对所有
item x item
对的相异度值进行排序。在您的示例中,
item x attribute
矩阵包含有序数据(1-7标度的数据)。欧氏距离在这里并不合适,但是例如。Pearson“distance” 或 cosine“distance” 通常用于此类数据,由于它们不是正确的距离,因此应选择非度量MDS。