目次
文字コードとは?
文字コードとはパソコンに文字を扱わせるため、文字をパソコンの内部表現の数値に変換するための対応表、またはその変換のための方式です。
言語毎に様々な文字コードが存在しており、日本語を扱える文字コードに「シフトJIS」、「EUC」、「UTF-8」などがあります。
解説
パソコンで扱う文字にはすべて何かしらの番号が割り振られています。
文字コードは言語毎に様々な種類が存在しています。
ヨーロッパではアクセント記号付きアルファベットなどを表現するため、対応表を拡張しています。
日本でも、アルファベットとカタカナを含む文字コードが1969年に制定されました。
日本語を本格的に扱うにはひらがな、カタカナ、漢字などたくさんの文字が必要でJIS(日本工業規格)でも対応表がいくつか制定されています。
この文字を実際にパソコンで扱う際にいくつかの制約や歴史的な経緯から文字エンコーディングが誕生しました。
文字エンコーディングが異なることが原因でWebではよく文字化けが起きます。
これを防ぐためにHTMLのmeta要素でcharsetパラメーターにエンコーディングを指定します。
charsetとしてUTF-8が指定されることが多いです。
UTF-8は世界中の文字を一つの文字コードで統一的に表現しようというUnicodeという規格の文字エンコーディングとなっています。
Shift_JISやEUC-JPでは日本語の文字しか表現できませんが、UTF-8では日本語、中国語など世界中の文字を取り扱うことができます。
リンク