中文字符串能压缩吗？

#!/usr/bin/python
# coding=utf-8

import zlib

text = "zlib 以字节为单位压缩，中文字符串能压缩，任何数据都能压缩，因为任何数据都能表现为字节。只有一种情况会导致压缩后变大，就是输入内容太短。但是你几千字，已经不短了，所以肯定是变小，而不是变大。你误认为变大，原因应该就是 #1 说的那样，你用 len() 比较压缩前的字符数和压缩后的字节数，错误的比较得到了错误的结果"

origin_bytes = bytes(text, "UTF-8")
compressed_bytes = zlib.compress(origin_bytes, 2)

print("------字符数", len(text))
print("--原始字节数", len(origin_bytes))
print("压缩后字节数", len(compressed_bytes))

momo1999

Jun 2, 2022

python 的 len 不是字节长度。

Latin

Jun 2, 2022

stackoverflow 解君忧
https://stackoverflow.com/questions/29243119/how-to-compress-or-compact-a-string-in-python

makeitwork

Jun 2, 2022

@eason1874 @Latin 谢谢各位大佬

makeitwork

Jun 2, 2022

@eason1874 这里对比的，
把原始文本 "zlib 以字节为单位压缩。。。"贴到到 txt ，在 mac 下面是 445 字节
把压缩后的"b'x^eP\xc1N\xc2@\x14\xfc\x95&^。。。" 贴到 txt ，在 mac 是 857 字节
这么看，压缩之后，反而更大了
虽然用 len( ) 或者 sys.getsizeof 函数来看，压缩的字节数是小一点的

eason1874

Jun 2, 2022

@makeitwork 以 b' 开头这段不是字节数据，这是字节数据的十六进制格式文本，那肯定比字节本身要大的

字节有 256 个，只有 95 个是可见字符（字母数字和标点符号），其他都是不可见字符。当你要打印出来，程序会以十六进制表示不可见字符（让它变得可见），并以 \x 开头表示格式

比如 Delete 键，它是不可见字符，本身只占 1 字节，它的十六进制是 7F 。当你以可见的十六进制打印出来，它会表现为 4 字节，也就是 \x7f

如果你把中文字符也转为十六进制，你会发现字节长度也变大了。比如 UTF8 的“中文”占 6 字节，当你转为十六进制并以\x 开头，它就变成了 24 字节 \xe4\xb8\xad\xe6\x96\x87

所以你比较错了。压缩后你应该直接存储字节，而非转十六进制文本再存，字节流转成任何可见字符编码都会导致体积变大

binaryify

Jun 2, 2022

能重复就能压缩