GAE: len()取字符串长度，中文也算一个字节怎么处理？我现在是正则取了中文*2 不知道有没简单的方法！？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

Python Cookbook

Using Google App Engine

推荐下载

Latest Google App Engine SDK

其他兼容技术

AppScale

这是一个创建于 5457 天前的主题，其中的信息可能已经有所发展或是发生改变。

中文

len

GAE

4 条回复 1970-01-01 08:00:00 +08:00

est

2011 年 2 月 27 日

UTF8的中文是3字节

manhere

2011 年 2 月 27 日

能不能配合decode encode统一编码后截取?

darasion

2011 年 2 月 27 日

如果是unicode保存的东西，一个中文字符就算一个“字节”
如果是utf-8，那就算3个。
如果是GBxxx，就算2个。

Python 2.5.4 (r254:67916, Dec 23 2008, 15:10:54) [MSC v.1310 32 bit (Intel)] on
win32
Type "help", "copyright", "credits" or "license" for more information.
>>> len(u'哈哈')
2
>>> len(u'哈哈'.encode('gbk'))
4
>>> len(u'哈哈'.encode('utf-8'))
6
>>>

vivian

2011 年 2 月 27 日

@darasion 谢谢

GAE: len()取字符串长度，中文也算一个字节怎么处理？ 我现在是正则取了中文*2 不知道有没简单的方法！？

GAE: len()取字符串长度，中文也算一个字节怎么处理？我现在是正则取了中文*2 不知道有没简单的方法！？