编码和字符串操作 | 彩潭有鲤的札记

type

status

date

slug

summary

编码

字符串比较特殊的是还有一个编码问题。

因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可表示最大整数是65535，4个字节可表示最大整数是4294967295。

ASCII编码

由于计算机是美国人发明的，因此最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。

GB2312编码

要处理中文一个字节是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，所以中国制定了GB2312编码把中文编进去

Unicode标准

全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

因此，Unicode字符集应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。

Unicode标准也在不断发展，最常用的是UCS-16编码，用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

ASCII编码和Unicode编码的区别：ASCII编码是1个字节，而Unicode编码通常是2个字节。

字母A用ASCII编码是十进制的65，二进制的01000001

字符0用ASCII编码是十进制的48，二进制的00110000，注意字符'0'和整数0是不同的

汉字中已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 00101101

如果把ASCII编码的A用Unicode编码，只需要在前面补0就可以，因此A的Unicode编码是00000000 01000001。

UTF-8编码

如果统一成Unicode编码，乱码问题消失了，但是如果文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

从上表还可以发现，UTF-8编码有一个额外的好处，就是ASCII编码实际上可以被看成是UTF-8编码的一部分，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

计算机系统通用的字符编码工作方式

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：

很多网页的源码上会有类似<meta charset="UTF-8" />的信息，表示该网页正是用的UTF-8编码

Unicode 字符百科

萬國碼、國際碼、統一碼、單一碼（英文Unicode）是一种字符编码标准。简而言之，这是一个文本字符（数字，字母，标点符号）与二进制代码对应的表格。计算机只能理解0和1的序列。为了知道它应该在屏幕上显示什么，您必须为每个符号分配每个唯一编号。在八十年代，字符被编码在一个字节中，即八位（每一位是0或1）。因此，事实证明，一个表（相同的编码或集合）只能包含256个字符。即使是一种语言，这可能还不够...

https://unicode-table.com/cn/

字符串操作

Python中字符串可以使用单引号、双引号和三引号(三个单引或三个双引号)括起来，使用反斜杠\转义特殊字符

支持字符串拼接、截取等多种运算

Python3源码文件默认以UTF—8编码，所有字符串都是unicode字符串

由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes

Python对bytes类型的数据用带b前缀的单引号或双引号表示：x = b'ABC'

要注意区分'ABC'和b'ABC'，前者是str，后者虽然内容显示得和前者一样，但bytes的每个字符都只占用一个字节。

以Unicode表示的str通过encode()方法可以编码为指定的bytes，例如：

在bytes中，无法显示为ASCII字符的字节，用\x##显示。

当str和bytes互相转换时，需要指定编码。最常用的编码是UTF-8。Python当然也支持其他编码方式，比如把Unicode编码成GB2312：'中文'.encode('gb2312')但这种方式纯属自找麻烦，如果没有特殊业务要求，请使用UTF-8编码

反过来，如果从网络或磁盘上读取了字节流，那么读到的数据就是bytes，把bytes变为str就需要decode()方法：

在操作字符串时，会经常遇到str和bytes的互相转换。为了避免乱码问题，应坚持使用UTF-8编码对str和bytes进行转换。

由于Python源代码也是一个文本文件，所以，当源代码中包含中文的时候，在保存源代码时，就需要指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，通常在文件开头写上这两行：

申明了UTF-8编码并不意味着.py文件就是UTF-8编码的，必须并且要确保文本编辑器正在使用UTF-8 without BOM编码

字符串函数

len()函数

字母处理

格式化相关

字符串搜索相关

字符串替换相关

字符串去空格及去指定字符

分割字符串

字符串判断相关

string内置函数总结

方法	描述
`string.capitalize()`	把字符串的第一个字符大写
`string.center(width)`	返回一个原字符串居中,并使用空格填充至长度 width 的新字符串
`string.count(str, beg=0, end=len(string))`	返回 str 在 string 里面出现的次数，如果 beg 或者 end 指定则返回指定范围内 str 出现的次数
`string.decode(encoding='UTF-8', errors='strict')`	以encoding指定的编码格式解码string，如果出错默认报一个ValueError 的异常，除非errors指定的是 'ignore' 或者'replace'
`string.encode(encoding='UTF-8', errors='strict')`	以 encoding 指定的编码格式编码 string，如果出错默认报一个ValueError 的异常，除非 errors 指定的是'ignore'或者'replace'
`string.endswith(obj, beg=0, end=len(string))`	检查字符串是否以 obj 结束，如果beg 或者 end 指定则检查指定的范围内是否以 obj 结束，如果是，返回 True,否则返回 False.
`string.expandtabs(tabsize=8)`	把字符串 string 中的 tab 符号转为空格，tab 符号默认的空格数是 8。
`string.find(str, beg=0, end=len(string))`	检测 str 是否包含在 string 中，如果 beg 和 end 指定范围，则检查是否包含在指定范围内，如果是返回开始的索引值，否则返回-1
`string.index(str, beg=0, end=len(string))`	跟find()方法一样，只不过如果str不在 string中会报一个异常.
`string.isalnum()`	如果 string 至少有一个字符并且所有字符都是字母或数字则返回 True,否则返回 False
`string.isalpha()`	如果 string 至少有一个字符并且所有字符都是字母则返回 True, 否则返回 False
`string.isdecimal()`	如果 string 只包含十进制数字则返回 True 否则返回 False.
`string.isdigit()`	如果 string 只包含数字则返回 True 否则返回 False.
`string.islower()`	如果 string 中包含至少一个区分大小写的字符，并且所有这些(区分大小写的)字符都是小写，则返回 True，否则返回 False
`string.isnumeric()`	如果 string 中只包含数字字符，则返回 True，否则返回 False
`string.isspace()`	如果 string 中只包含空格，则返回 True，否则返回 False.
`string.istitle()`	如果 string 是标题化的(见 title())则返回 True，否则返回 False
`string.isupper()`	如果 string 中包含至少一个区分大小写的字符，并且所有这些(区分大小写的)字符都是大写，则返回 True，否则返回 False
`string.join(seq)`	以 string 作为分隔符，将 seq 中所有的元素(的字符串表示)合并为一个新的字符串
`string.ljust(width)`	返回一个原字符串左对齐,并使用空格填充至长度 width 的新字符串
`string.lower()`	转换 string 中所有大写字符为小写.
`string.maketrans(intab, outtab])`	maketrans() 方法用于创建字符映射的转换表，对于接受两个参数的最简单的调用方式，第一个参数是字符串，表示需要转换的字符，第二个参数也是字符串表示转换的目标。
`min(str)`	返回字符串 str 中最小的字母。
`string.partition(str)`	有点像 find()和 split()的结合体,从 str 出现的第一个位置起,把字符串 string 分成一个 3 元素的元组 (string_pre_str,str,string_post_str),如果 string 中不包含str 则 string_pre_str == string.
`string.replace(str1, str2, num=string.count(str1))`	把 string 中的 str1 替换成 str2,如果 num 指定，则替换不超过 num 次.
`string.rfind(str, beg=0,end=len(string) )`	类似于 find()函数，不过是从右边开始查找.
`string.rindex( str, beg=0,end=len(string))`	类似于 index()，不过是从右边开始.
`string.rjust(width)`	返回一个原字符串右对齐,并使用空格填充至长度 width 的新字符串
`string.rpartition(str)`	类似于 partition()函数,不过是从右边开始查找
`string.split(str="", num=string.count(str))`	以 str 为分隔符切片 string，如果 num 有指定值，则仅分隔 num+ 个子字符串
`string.splitlines([keepends])`	按照行('\r', '\r\n', \n')分隔，返回一个包含各行作为元素的列表，如果参数 keepends 为 False，不包含换行符，如果为 True，则保留换行符。
`string.startswith(obj, beg=0,end=len(string))`	检查字符串是否是以 obj 开头，是则返回 True，否则返回 False。如果beg 和 end 指定值，则在指定范围内检查.
`string.strip([obj])`	在 string 上执行 lstrip()和 rstrip()
`string.title()`	返回"标题化"的 string,就是说所有单词都是以大写开始，其余字母均为小写(见 istitle())
`string.translate(str, del="")`	根据 str 给出的表(包含 256 个字符)转换 string 的字符,
`string.upper()`	转换 string 中的小写字母为大写
`string.zfill(width)`	返回长度为 width 的字符串，原字符串 string 右对齐，前面填充0