字符编码
简介
字符是表示现实中的一个符号单元,如数字(0-9), 标点, 英文字母(a-zA-Z), 中文字符(汉字), 控制字符(回车, 换行, 擦除);
ASCII
American Standard Code for Information Interchange,美国信息互换标准代码);
一个字符(8bit);
Unicode
Universal Multiple-Octet Coded Character Set”,简称 UCS, 俗称 “unicode“。
unicode中,一个字符就是两个字节;
每个字符对应的一个编码序号,总共的编码范围(0~2^16, 0-65535)个字符;
UTF-8
UTF(UCS Transfer Format),Unicode的一种编码方式;
变字长编码;
UTF-8就是每次8个位传输数据,而**UTF-16**就是每次16个位;
Unicode符号范围 | UTF-8编码方式 |
---|---|
0000 0000-0000 007F | 0xxxxxxx |
0000 0080-0000 07FF | 110xxxxx 10xxxxxx |
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx |
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |