わかり辛い文字コードの話。
説明している際に自分でも混乱するので備忘録として書留る。
UCSとUnicodeは符号化文字集合、要するに文字セット(文字表)の事。
主な違いは策定団体。
UnicodeはUnicodeConsortiumが作成した21ビットの文字集合。
Unicode 3.1など
ISO/IECはUnicodeConsortiumの文字セットを基にしてUCSを標準化したが31ビットまで拡張している。
UCS-4など
文字符号化方式は共にUTFを用いる。
8ビット単位の可変長コード(1〜4バイト)にエンコードするUTF-8等。
書いている内容に色々問題が多いので全訂正。
そのうち訂正記事を書こう。
符号化文字集合と文字符号化方式の混同は避けよう。
自戒を込めて。
コメントする