HTMLを作るときに文字コードは何にするでしょうか?今はほとんどの場合UTF-8だと思われますが、他の文字コードはどれくらい使用されているかを調べてみました。

文字コードって?

文字コードとはコンピュータ上で文字を利用する目的で各文字に割り当てられるバイト表現。もしくは、バイト表現と文字の対応関係のことを指して「文字コード」と呼ぶことも多い。

引用元: ウィキペディア

HTMLにおいてはcharsetで設定するためcharsetと呼ばれることもあります。HTMLで使用される文字コードは次に紹介する3つがほとんどだと思われます。

UTF-8

UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。

引用元: ウィキペディア

現在最も使用されている文字コードで、多言語に対応しています。1文字を表現するのに3バイト以上必要。

Shift_JIS

Shift_JIS(シフトジス)は、コンピュータ上で日本語を含む文字列を表現するために用いられる文字コードの一つ。かつてはベンダーによる独自拡張を含む文字コード群を指した曖昧な名称であったが、現在は標準化文書JIS X 0213の附属書1で規定されている(Shift JIS-2004)。「Shift_JIS」はIANAにおける登録名である。

引用元: ウィキペディア

歴史的に日本語をコンピュータで使用するのによく使われた文字コード。2バイトで1文字を表現する。ベンダーごとに微妙に異なるコード体系を拡張したり、プログラムで使用するには不都合なコードが含まれる(いわゆるダメ文字)があるなど問題点があったがWindowsが標準で採用していたため広く使用されていた。現在はWindowsの機能でもUTF-8に対応しているものが増え、その役割を終えようとしている。

EUC-JP

EUC-JP(Extended UNIX Code Packed Format for Japanese、日本語EUC)はUNIX上で日本語の文字を扱う場合にもっとも多く利用されている文字コード(符号化方式)のひとつである。UNIX以外のOS上で使われることもある。

引用元: ウィキペディア

Shift_JISがWindowsを中心としたクライアント環境で使用されたのに対して、EUC-JPはUNIXでよく使用された日本語対応の文字コード。サーバ環境でよく使用されたがこちらもUTF-8への移行が進んでいると見て間違いない。

調査対象

調査の対象は上場企業約3600社のトップページです。上場企業トップページのURLはPathfinderGateさんのデータを参照させていただきました。やや情報が古いため、アクセスできないページがあったりして全数調査はできていないことと、2017年現在の上場企業のデータとは差異があることをご承知おきください。

調査方法

上場企業約3600社のトップページにアクセスしcharsetを調査しています。
一部、charsetが取得できないものやアクセス不能なページ、他のページにリダイレクトするページなどがありましたが、そのようなページはNoneとして表示しています。

調査結果データ

charset件数割合
UTF-8292081.09%
Shift_JIS53614.88%
None922.55%
EUC-JP401.11%
x-sjis90.25%
iso-8859-120.06%
windows-125210.03%
us-ascii10.03%

HTMLの文字コードシェア調査

やはりUTF-8が多い結果となりましたが、意外にもShift_JISを採用しているところが約15%もありました。携帯電話(スマホではなくガラケー)に対応するためなのか、随分前に作成したままなのか理由は掴みきれていません。
次は業種ごとにUTF-8の採用率を見てみます。

業種別UTF-8採用状況

業種UTF-8採用率
ゴム84.21%
サービス86.98%
その他金融88.24%
その他製造84.68%
パルプ・紙65.38%
医薬品79.37%
卸売77.68%
化学77.88%
機械80.26%
金属製品76.92%
銀行74.47%
建設78.65%
鉱業100.00%
小売83.63%
証券、商品先物取引80.00%
情報・通信88.24%
食品77.10%
水産・農林90.00%
精密機器76.47%
石油・石炭製品69.23%
繊維74.07%
倉庫・運輸関連71.79%
鉄鋼85.42%
電気機器78.36%
電力・ガス70.83%
非鉄金属80.00%
不動産85.96%
保険91.67%
輸送用機器78.00%
窯業72.13%
陸運・海運・空運80.72%

HTMLの文字コードシェア調査(業種別)
HTMLの文字コードシェア調査(業種別)

一般ユーザ向けの業種がややUTF-8の採用率が良いようです。過去からのアクセシビリティを重視する業種はShift_JISがまだ残っているというところでしょうか。

まとめ

現状のHTMLの文字コードについてシェアを調べてみたところ、UTF-8のシェアは80%をやや上回る採用率でした。今後新しく作成するサイトは特別な理由がない限りはUTF-8でよいと判断して良さそうです。