字符编码

字符编码

简介

  • 字符是表示现实中的一个符号单元,如数字(0-9), 标点, 英文字母(a-zA-Z), 中文字符(汉字), 控制字符(回车, 换行, 擦除);

ASCII

  • American Standard Code for Information Interchange,美国信息互换标准代码);

  • 一个字符(8bit);

Unicode

  • Universal Multiple-Octet Coded Character Set”,简称 UCS, 俗称 “unicode“。

  • unicode中,一个字符就是两个字节;

  • 每个字符对应的一个编码序号,总共的编码范围(0~2^16, 0-65535)个字符;

UTF-8

  • UTF(UCS Transfer Format),Unicode的一种编码方式;

  • 变字长编码;

  • UTF-8就是每次8个位传输数据,而**UTF-16**就是每次16个位;

Unicode符号范围UTF-8编码方式
0000 0000-0000 007F0xxxxxxx
0000 0080-0000 07FF110xxxxx 10xxxxxx
0000 0800-0000 FFFF1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

参考

  1. https://www.zhihu.com/question/23374078
updatedupdated2024-05-152024-05-15