Stata to Pandas：即使有重复的价值标签？

u91tlkcl 于 2023-06-04 发布在其他

关注(0)|答案(3)|浏览(119)

我尝试将.dta作为DataFrame打开。但出现错误：
“ValueError：列的值标签...并不是独一无二的。重复的标签是：“后跟在一列中出现两次的标签。
我知道在stata中用完全相同的值标签标记多个代码并不聪明（不是我的错）。经过一些研究，我知道，Pandas不会接受重复的价值标签（这是聪明的）。
但我找不到（好的）解决方案。是否存在：
a.在这个过程中，用pandas打开数据并重命名double（如“label”到“label（2）”）的平滑方法？
下面是数据的外观（括号中的值标签）：

| multilabel    
1 | 11 (oneone or twotwo)
2 | 22 (oneone or twotwo)
3 | 33 (other-label-which-is-unique)

我的代码到目前为止：

import pandas as pd

#followed by any option that delivers this solution:
dataframe = pd.read_stata('file.dta')

或
一个快速简单的方法来告诉stata：将所有重复值标签重命名为“label（2）”而不是“label”？是的，到目前为止，代码也相当无聊：

use "file.dta"

*followed by a loop which finds repeated labels and changes them

save "file.dta", replace

是的，有很多重复的价值标签要一个接一个地通过它。
这里的Stata-Commands生成一个最小的例子：

set obs 1
generate var1 = 1 in 1
set obs 2
replace var1 = 2 in 2
set obs 3
replace var1 = 3 in 3
generate var2 = 11 in 1
replace var2 = 22 in 2
replace var2 = 33 in 3
rename var2 multilabel
label define labelrepeat 11 "oneone or twotwo" 22 "oneone or twotwo"
label values multilabel labelrepeat

我对每一个建议都很满意！

pandas

来源：https://stackoverflow.com/questions/46037548/stata-to-pandas-even-if-there-are-repeated-value-labels

3条答案

按热度按时间

c2e8gylq1#

由于pandas至少为0.22，因此您可以将convert_categoricals=False传递给read_stata，并且它不会尝试将数值Map到它们的定义。
d = pd.read_stata('fooy_labels.dta', convert_categoricals=False)
您得到的DataFrame将在问题列中包含数值。现在您可以根据需要重新编码它们。

赞(0）回复(0）举报 2023-06-04

zazmityj2#

如果你有一个带有重复标签的变量，那么

decode multilabel, gen(valuelabel)
label values multilabel

将值标签放入字符串变量中，然后撤消multilabel值与先前附加的值标签的关联。我不知道你还需要做什么，也不知道你为什么要做其他事情。你现在得到的信息和以前一样。我不知道pandas是否会忽略值标签的定义。
为了完整起见，这里有一种方法可以找出哪些变量的值标签与数值不一一对应。

* your sandbox, simplified and extended  
clear 
set obs 3
generate var1 = _n 
generate multilabel = 11 * _n
label define labelrepeat 11 "oneone or twotwo" 22 "oneone or twotwo"
label values multilabel labelrepeat

label define var1 1 "frog" 2 "toad" 3 "newt"
label val var1 var1 

* my code 
local bad 
ds *, has(vallabel) 

quietly foreach v in `r(varlist)' { 
    tempvar decoded diff 
    decode `v', gen(`decoded') 
    bysort `decoded' (`v') : gen `diff' = `v'[1] != `v'[_N] & !missing(`decoded') 
    count if `diff' 
    if r(N) > 0 local bad `bad' `v' 
    drop `decoded' `diff' 
} 

di "`bad'"

赞(0）回复(0）举报 2023-06-04

cs7cruho3#

我的最终解决方案（在Stata中）：

clear

use "file.dta"

*Find out which duplicated value labels there are
labelbook, length(12)

return list, all

*r(nuniq) contains the not-unique-values

*on all variables in r(nuniq) use the numlabels command

numlabel `r(nuniq)', add

*Look at the not unique value labels again:
labelbook, length(12)

return list, all

save "file2.dta", replace

谢谢你尼克！

赞(0）回复(0）举报 2023-06-04

我来回答

Stata to Pandas：即使有重复的价值标签？

3条答案

相关问题

热门标签

最新问答