Notas sobre Python y Unicode

[ permalink ] [ download ]
>>> s1 = 'camión'
>>>
>>> # s1 es un string codificado en 'utf-8'
>>> # ¿por qué puede ser?
>>> # por que lo he sacado de una bd en utf-8,
>>> # o lo introduje mediante un form en un browser configurado en utf-8
>>> # o lo asigné mediante una consola configurada en utf-8
>>>
>>> type(s1)
<type 'str'>
>>>
>>>
>>> u1 = s.decode('utf-8')
>>>
>>> # u1 es un unicode-string, no contiene codificación ninguna
>>> # (ni utf-8, ni iso-8859-1, ni nada) solo contiene códigos
>>> # universales
>>>
>>> type(u1)
<type 'unicode'>
>>>
>>>
>>> s2 = u1.encode('iso-8859-1')
>>>
>>> # s2 es un string codificado en 'iso-8859-1'
>>>
>>> type(s2)
<type 'str'>
hits counter