s = 'english'
print str(unicode(s))
위와 같이 영어 문자열을 Unicode로 바꿧다가 str로 바꾸는 코드를 실행하면 잘 돌아간다. 그러면 한글을 집어넣고 돌려보자.
s = '한글'
print str(unicode(s))
print str(unicode(s))
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc7 in position 0: ordinal
not in range(128)
뒤진다. 훗. 그래야 한글답지. 에러를 보면 UnicodeDecodeError(유니코드 해석 에러)가 발생한다.python script에 한글 사용하기와는 다른 에러다. 이번에 발생한 에러를 해석하자면 ‘한글’을 ascii라고 간주하고 유니코드로 변환하려고 시도했으나 해석이 안되서 발생한 에러이다. 이를 해결하기 위해서는 아래의 소스와 같이 명시적으로 문자열을 utf-8로 간주하고 unicode로 변환하도록 할수있다.
s = '한글'
print s.decode('utf-8').encode('utf-8')
하지만 위의 소스는 만능이 아니다. 외부 라이브러리를 만든 사람이 문자열을 유니코드로, 유니코드를 문자열로 변환할때 인코딩을 명시적으로 적지 않앗다고 가정하자. 양놈이 그런코딩을 했으면 자신의 환경에서는 문제없이 잘 작동한다. (아래코드가 예시)
foo = unicode(s)
...
bar = str(foo)
하지만, 양놈이 만든 라이브러리를 우리가 가져다 사용하는데 함수의 인자로 한글을 사용하게 된다면 어떨까? 위에서 이야기한것과 같이 UnicodeDecodeError가 발생하고 망한다. 이를 해결하겟다고 라이브러리에서 유니코드 관련 인코딩/디코딩하는 지점에 전부 인코딩을 명시적으로 적어주는건 사람이 할 짓이 아니다. 만약 Unicode로 인코딩/디코딩할때 사용할 기본 인코딩을 ascii
대신utf-8
로 바꿔주면 쉽게 해결할수 있지 않을까? sys.setdefaultencoding
가 바로 이럴 때 사용하는 함수이다.
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
s = '한글'
print str(unicode(s))
위와 같이 기본 인코딩을 ascii대신 utf-8로 바꿔주는 내용을 스크립트 파일을 최초 진입부에 집어넣으면 된다. #-*- coding: utf-8 -*-
과 달리 저것은 함수라서 호출된 이후, 계속 유지된다. 적절한곳에 한번만 넣어주면 된다. 참고로 reload(sys)
를 하지 않으면sys.setdefaultencoding
함수를 사용할 수 없다.