我想找一种方法来画一些汇总统计数据,但我不明白哪一个是正确的。
我有2个数据集关于相同的城市,我需要给予一个图形表示在4四个变量(2为第一个数据集,2为第二个)
这些是我的总结
> summary(data_1$New_wage)
Min. 1st Qu. Median Mean 3rd Qu. Max.
777.7 1480.0 1633.1 1634.6 1774.3 2408.1
> summary(data_1$Old_wage)
Min. 1st Qu. Median Mean 3rd Qu. Max.
471.3 658.9 693.1 696.9 735.2 1001.9
> summary(data_2$New_wage)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1895 2072 2154 2166 2259 2543
> summary(data_2$Old_wage)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1777 2109 2236 2244 2352 2833
我需要把它们画在一个独特的图中,以显示每个分布从哪个五分位数开始,以及中位数(或平均值)是否接近。
显示此类信息的最佳方式是什么?
我想用密度图(它是正确的吗?)
ggplot()+
geom_density(data=data_1, aes(x= `New_wage`),alpha=.8, fill="pink")+
geom_density(data=data_1, aes(x= `Old_wage`),alpha=.8, fill="yellow")+
geom_density(data=data_2, aes(x= `New_wage`),alpha=.8, fill="lightblue")+
geom_density(data=data_2, aes(x= `Old_wage`),alpha=.8, fill="orange")+
geom_vline(xintercept = 1633.1, size=0.5)+
geom_vline(xintercept = 693.1, size=0.5)+
geom_vline(xintercept = 2154, size=0.5)+
geom_vline(xintercept = 2236, size=0.5)+
theme_classic()
但我得到的是相当丑陋的
你知道有什么方法可以让它更好吗?或者任何其他类型的情节,可以更好地显示这些信息?
以下是每个数据集的示例
一个二个一个一个
1条答案
按热度按时间mspsb9vt1#
首先,将数据框绑定在一起,然后转换为长格式。
然后,您可以选择要如何表示数据。
例如,您可以使用
ggstatsplot
获得相当复杂的结果:或者如果你更喜欢vanilla ggplot,你可以这样做: