最近使用python处理文本数据导入oracle数据库。由于数据库是gbk编码的,导致处理文件编码问题困扰我两天的时间。
我用了两个白天加两个晚上研究,程序直接在linux下用python运行程序成功,加入crontab后运行不成功,一开始以为是linux环境变量问题。
再尝试了各种办法未解后,在凌晨2点突然想到,既然能够运行,并且报错是出现在执行sql语句的时候,那么环境变量应该没问题,应该还是连接数据库insert的时候出现问题。
由此,把问题重点转移到了cx_oracle上面。也就是通过cx_oracle向数据库插入数据是出现编码问题。这个我也通过select时候中文乱码,验证了判断问题点正确,
至此,问题的解决方案就很明了啦!我只需要在cx_oracle客户端编码设定和数据库的编码一致就可以了。
以下是从网上查找到的设定客户端cx_oracle编码的方法:
用python连接Oracle需要处理数据导出,和txt文件数据导入数据库,导出是中文总是乱码,文件导入数据库是,中文数据就会报错,提示编码错误。
UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-5: ordinal not in range(128)
最后发现是oracle客户端的字符编码设置不对。
要解决此问题需要一下两个方面注意处理:
1、根据数据库不同的编码设定,编写的python脚本中需要相对应的加入如下几句:
import os
os.environ[‘NLS_LANG‘] = ‘SIMPLIFIED CHINESE_CHINA.UTF8‘
或者
os.environ[‘NLS_LANG‘] = ‘SIMPLIFIED CHINESE_CHINA.ZHS16GBK‘
这样select出来的中文显示没有问题。
2、要能够正常的insert和update中文,还需要指定python源文件的字符集密码和oracle一致。
-------------------------------------------------------------------------------
例子:
- # -*- coding: utf-8 -*-
-
- import os
- os.environ[‘NLS_LANG‘] = ‘SIMPLIFIED CHINESE_CHINA.UTF8‘ #或者os.environ[‘NLS_LANG‘] = ‘AMERICAN_AMERICA.AL32UTF8‘
-
-
-
- import cx_Oracle
- db = cx_Oracle.connect(username/passwd@host:port/sevicename)
- cursor = db.cursor()
- #其他操作
-
- db.commit()
- db.close()
参考:
客户端的NLS_LANG设置及编码转换
①在Oracle客户端向服务器端提交SQL语句时,Oracle客户端根据NLS_LANG和数据库字符集,对从应用程序接传送过来的字符串编码进行转换处理。如果NLS_LANG与数据库字符集相同,不作转换,否则要转换成数据库字符集并传送到服务器。服务器在接收到字符串编码之后,对于普通的CHAR或VARCHAR2类型,直接存储;对于NCHAR或NVARCHAR2类型,服务器端将其转换为国家字符集再存储。
①在Oracle客户端向
服务器端提交SQL语句时,Oracle客户端根据NLS_LANG和数据库字符集,对从应用程序接传送过来的字符串编码进行转换处理。如果NLS_LANG与数据库字符集相同,不作转换,否则要转换成数据库字符集并传送到
服务器。服务器在接收到字符串编码之后,对于普通的CHAR或VARCHAR2类型,直接存储;对于NCHAR或NVARCHAR2类型,服务器端将其转换为国家字符集再存储。
python用cx_Oracle连接oracle编码问题解决办法
原文:http://www.cnblogs.com/mytomi/p/6500839.html