sqlalchemy-unicode难题

js5cn81o 于 2021-06-17 发布在 Mysql

关注(0)|答案(2)|浏览(335)

关于sqlalchemy的unicode处理，我遇到了一个奇怪的问题。简而言之，当我将python unicode字符串插入mysql数据库的unicode列时，我可以毫不费力地将它取出来。然而，在数据库方面，它被存储为一个奇怪的4字节序列（不，这似乎与mysql上的“utf8mb4”默认值没有任何关系）
我的问题是，我有一个mysql转储，它来自另一台机器，在sql中包含直接的utf8字符。当我试图检索从另一台机器导入的数据时，总是会出现unicodedecodeerror。
下面我提供了一个简单的例子来说明这个问题。
utf8test.sql：设置数据库并创建一行，其中包含unicode字符
utf8test.py：使用sqlalchemy打开db，插入一行python的utf字符，然后检索两行。
结果表明，python可以很好地检索它自己插入的数据，但它在文本的ä' 我将输入到sql导入脚本中。对mysqldumped数据集和mysql本身的二进制数据文件的hextumps的研究表明，通过sql插入的utf字符是真正的deal（德语umlaut's）ä' = utf'c3 bc'），而python插入'ä' 转换为我不理解的序列“c3 83 c2 a4”（参见下面的hextump；我使用了''和'yyy'作为标记，以便于在hextump中找到它们。
有人能解释一下吗？
这将创建测试数据库：

dh@jenna:~/python$ cat utf8test.sql
DROP DATABASE IF EXISTS utftest;
CREATE DATABASE utftest;
USE utftest;
CREATE TABLE x (
    id INTEGER PRIMARY KEY AUTO_INCREMENT,
        text VARCHAR(10)
        );
INSERT INTO x(text) VALUES ('xxxü');
COMMIT;
dh@jenna:~/python$ mysql < utf8test.sql

下面是pyhton脚本：

dh@jenna:~/python$ cat utf8test.py

# -*- encoding: utf8 -*-

from sqlalchemy import create_engine, Column, Unicode, Integer
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base

Base = declarative_base()
class X(Base):
    __tablename__ = 'x'
    id = Column(Integer, primary_key=True)
    text = Column(Unicode(10))

engine = create_engine('mysql://localhost/utftest',
    encoding='utf8')
Base.metadata.create_all(engine)
Session = sessionmaker(engine)

db = Session()
x = X(text=u'yyyä')
db.add(x)
db.commit()

rs = db.query(X.text).all()
for r in rs:
    print(r.text)

db.close()

当我运行脚本时会发生这种情况（当我在utf8test.sql中省略insert-into位时，运行时不会出错）：

dh@jenna:~/python$ python utf8test.py
Traceback (most recent call last):
  File "utf8test.py", line 23, in <module>
      rs = db.query(X.text).all()
[...]
UnicodeDecodeError: 'utf8' codec can't decode
    byte 0xfc in position 3: invalid start byte

这是一份确认两人ä'在数据库中存储的数据确实不同。使用hd，我还确认python和sql脚本都是utf。

dh@jenna:~/python$ mysqldump utftest | hd
00000000  2d 2d 20 4d 79 53 51 4c  20 64 75 6d 70 20 31 30  |-- MySQL dump 10|
00000010  2e 31 36 20 20 44 69 73  74 72 69 62 20 31 30 2e  |.16  Distrib 10.|
00000020  31 2e 33 37 2d 4d 61 72  69 61 44 42 2c 20 66 6f  |1.37-MariaDB, fo|
00000030  72 20 64 65 62 69 61 6e  2d 6c 69 6e 75 78 2d 67  |r debian-linux-g|
00000040  6e 75 20 28 69 36 38 36  29 0a 2d 2d 0a 2d 2d 20  |nu (i686).--.-- |
[...]
00000520  4c 45 20 4b 45 59 53 20  2a 2f 3b 0a 49 4e 53 45  |LE KEYS */;.INSE|
00000530  52 54 20 49 4e 54 4f 20  60 78 60 20 56 41 4c 55  |RT INTO `x` VALU|
00000540  45 53 20 28 31 2c 27 78  78 78 c3 bc 27 29 2c 28  |ES (1,'xxx..'),(|
00000550  32 2c 27 79 79 79 c3 83  c2 a4 27 29 3b 0a 2f 2a  |2,'yyy....');./*|

mysql python sqlalchemy unicode

来源：https://stackoverflow.com/questions/53479763/sqlalchemy-unicode-conundrum

2条答案

按热度按时间

rsl1atfo1#

在db url中添加？use \u utf8=0可以解决这个问题。在sqlalchemy文档中发现的。

赞(0）回复(0）举报 2021-06-18

ndasle7k2#

c3 83 c2 a4 是“双重编码”吗 ä . 正如伊利亚指出的。这里将进一步讨论
http://mysql.rjweb.org/doc.php/charcoll#fixes_for_various_cases 提供 UPDATE 修复数据。
下面是python中可能需要解决的问题清单：http://mysql.rjweb.org/doc.php/charcoll#python
但这很可怕：我明白了 c3 bc （莫吉巴克） ü )以及 c3 83 c2 a4 （双重编码） ä . 这意味着在同一代码中发生了两个不同的问题。备份到零地，确保在所有阶段都使用utf8（或utf8mb4）。您的数据库可能太混乱，无法恢复，因此请考虑重新开始。
可能唯一的问题是没有 # -*- encoding: utf8 -*- 从一个python脚本。但是，不，你确实需要它，但是当你使用它的时候，双重编码发生了。
底线：你有多个错误。

赞(0）回复(0）举报 2021-06-17

我来回答

sqlalchemy-unicode难题

2条答案

相关问题

热门标签

最新问答