HTMLを作るときに文字コードは何にするでしょうか?今はほとんどの場合UTF-8だと思われますが、他の文字コードはどれくらい使用されているかを調べてみました。
文字コードって?
文字コードとはコンピュータ上で文字を利用する目的で各文字に割り当てられるバイト表現。もしくは、バイト表現と文字の対応関係のことを指して「文字コード」と呼ぶことも多い。
引用元: ウィキペディア
HTMLにおいてはcharsetで設定するためcharsetと呼ばれることもあります。HTMLで使用される文字コードは次に紹介する3つがほとんどだと思われます。
UTF-8
UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。
引用元: ウィキペディア
現在最も使用されている文字コードで、多言語に対応しています。1文字を表現するのに3バイト以上必要。
Shift_JIS
Shift_JIS(シフトジス)は、コンピュータ上で日本語を含む文字列を表現するために用いられる文字コードの一つ。かつてはベンダーによる独自拡張を含む文字コード群を指した曖昧な名称であったが、現在は標準化文書JIS X 0213の附属書1で規定されている(Shift JIS-2004)。「Shift_JIS」はIANAにおける登録名である。
引用元: ウィキペディア
歴史的に日本語をコンピュータで使用するのによく使われた文字コード。2バイトで1文字を表現する。ベンダーごとに微妙に異なるコード体系を拡張したり、プログラムで使用するには不都合なコードが含まれる(いわゆるダメ文字)があるなど問題点があったがWindowsが標準で採用していたため広く使用されていた。現在はWindowsの機能でもUTF-8に対応しているものが増え、その役割を終えようとしている。
EUC-JP
EUC-JP(Extended UNIX Code Packed Format for Japanese、日本語EUC)はUNIX上で日本語の文字を扱う場合にもっとも多く利用されている文字コード(符号化方式)のひとつである。UNIX以外のOS上で使われることもある。
引用元: ウィキペディア
Shift_JISがWindowsを中心としたクライアント環境で使用されたのに対して、EUC-JPはUNIXでよく使用された日本語対応の文字コード。サーバ環境でよく使用されたがこちらもUTF-8への移行が進んでいると見て間違いない。
調査対象
調査の対象は上場企業約3600社のトップページです。上場企業トップページのURLはPathfinderGateさんのデータを参照させていただきました。やや情報が古いため、アクセスできないページがあったりして全数調査はできていないことと、2017年現在の上場企業のデータとは差異があることをご承知おきください。
調査方法
上場企業約3600社のトップページにアクセスしcharsetを調査しています。
一部、charsetが取得できないものやアクセス不能なページ、他のページにリダイレクトするページなどがありましたが、そのようなページはNoneとして表示しています。
調査結果データ
| charset | 件数 | 割合 |
|---|---|---|
| UTF-8 | 2920 | 81.09% |
| Shift_JIS | 536 | 14.88% |
| None | 92 | 2.55% |
| EUC-JP | 40 | 1.11% |
| x-sjis | 9 | 0.25% |
| iso-8859-1 | 2 | 0.06% |
| windows-1252 | 1 | 0.03% |
| us-ascii | 1 | 0.03% |
やはりUTF-8が多い結果となりましたが、意外にもShift_JISを採用しているところが約15%もありました。携帯電話(スマホではなくガラケー)に対応するためなのか、随分前に作成したままなのか理由は掴みきれていません。
次は業種ごとにUTF-8の採用率を見てみます。
業種別UTF-8採用状況
| 業種 | UTF-8採用率 |
|---|---|
| ゴム | 84.21% |
| サービス | 86.98% |
| その他金融 | 88.24% |
| その他製造 | 84.68% |
| パルプ・紙 | 65.38% |
| 医薬品 | 79.37% |
| 卸売 | 77.68% |
| 化学 | 77.88% |
| 機械 | 80.26% |
| 金属製品 | 76.92% |
| 銀行 | 74.47% |
| 建設 | 78.65% |
| 鉱業 | 100.00% |
| 小売 | 83.63% |
| 証券、商品先物取引 | 80.00% |
| 情報・通信 | 88.24% |
| 食品 | 77.10% |
| 水産・農林 | 90.00% |
| 精密機器 | 76.47% |
| 石油・石炭製品 | 69.23% |
| 繊維 | 74.07% |
| 倉庫・運輸関連 | 71.79% |
| 鉄鋼 | 85.42% |
| 電気機器 | 78.36% |
| 電力・ガス | 70.83% |
| 非鉄金属 | 80.00% |
| 不動産 | 85.96% |
| 保険 | 91.67% |
| 輸送用機器 | 78.00% |
| 窯業 | 72.13% |
| 陸運・海運・空運 | 80.72% |

一般ユーザ向けの業種がややUTF-8の採用率が良いようです。過去からのアクセシビリティを重視する業種はShift_JISがまだ残っているというところでしょうか。
まとめ
現状のHTMLの文字コードについてシェアを調べてみたところ、UTF-8のシェアは80%をやや上回る採用率でした。今後新しく作成するサイトは特別な理由がない限りはUTF-8でよいと判断して良さそうです。
