XML文字コードとは？文字化けを防ぐエンコーディングの基礎知識

XMLファイルを開いたら、日本語が「�」や「???」といった謎の文字に化けていた経験はありませんか？

これは文字コード（エンコーディング）の設定が間違っているために起こる現象です。

「文字コード？難しそう…」と思うかもしれませんが、基本を押さえれば誰でも正しく扱えるようになります。

今回は、XMLにおける文字コードの基礎から、文字化けを防ぐ方法まで、初心者の方にも分かりやすく解説していきますね。

XMLとは何か？
1. データを保存・交換するためのフォーマット
2. 様々な場面で使われる
文字コード（エンコーディング）とは
XMLでの文字コード指定
主要な文字コード
BOM（バイトオーダーマーク）について
文字化けの原因と対処法
実践的な設定方法
1. テキストエディタでの保存
2. プログラムでのXML生成
文字コードの確認方法
よくある質問
まとめ：UTF-8を使えば安心

XMLとは何か？

データを保存・交換するためのフォーマット

XML（Extensible Markup Language）は、データを構造的に記述するための言語です。

HTMLに似た形式ですが、HTMLが「見た目」を定義するのに対し、XMLは「データの意味」を定義します。

XMLの例：

<?xml version="1.0" encoding="UTF-8"?>
<book>
  <title>プログラミング入門</title>
  <author>山田太郎</author>
  <price>2500</price>
</book>

タグで囲むことで、どの情報が何を意味するのかが明確になります。

様々な場面で使われる

XMLは以下のような場面で活用されています：

Webサービス：APIでのデータ送受信
設定ファイル：アプリケーションの設定
データベース：データのエクスポート・インポート
オフィス文書：WordやExcelの内部形式
RSS/Atom：ブログのフィード配信

パソコンやスマートフォンの中では、見えないところでXMLが大活躍しているんです。

文字コード（エンコーディング）とは

コンピューターが文字を理解する仕組み

コンピューターは本来、0と1の数字（バイナリ）しか理解できません。

私たちが使う「あ」「A」「漢」といった文字を、コンピューターが扱える数字に変換する必要があります。

この変換ルールが文字コード（エンコーディング）です。

文字コードの例

同じ「あ」という文字でも、文字コードによって異なる数値になります：

UTF-8の場合：
「あ」→ E3 81 82（16進数）

Shift_JISの場合：
「あ」→ 82 A0（16進数）

送信側と受信側で異なる文字コードを使うと、正しく表示されなくなります。これが文字化けの原因です。

文字化けの仕組み

例：

送信者がUTF-8で「こんにちは」を保存
受信者がShift_JISとして開く
数値の解釈が違うため、全く別の文字に見える
「�」や「縺薙ｓ縺ｫ縺｡縺ｯ」のような表示になる

暗号を解読するための「辞書」が違う状態、と考えると分かりやすいですね。

XMLでの文字コード指定

XML宣言で明示する

XMLファイルの先頭には、XML宣言を記述します。

ここで文字コードを指定することで、正しく文字を解釈できるようになります。

基本形式：

<?xml version="1.0" encoding="文字コード名"?>

UTF-8の場合：

<?xml version="1.0" encoding="UTF-8"?>
<root>
  <message>こんにちは</message>
</root>

Shift_JISの場合：

<?xml version="1.0" encoding="Shift_JIS"?>
<root>
  <message>こんにちは</message>
</root>

encoding属性の役割

encoding属性は、このXMLファイルがどの文字コードで保存されているかを宣言します。

重要なポイント：

ファイルの実際の保存形式と一致させる必要がある
宣言と実際の文字コードが違うと文字化けする
省略した場合はUTF-8またはUTF-16と見なされる

大文字・小文字の違い

文字コード名は、大文字・小文字を区別しません。

以下はすべて同じ意味です：

encoding="UTF-8"
encoding="utf-8"
encoding="Utf-8"

ただし、慣例として大文字（UTF-8）が最も一般的に使われています。

主要な文字コード

UTF-8

UTF-8（ユーティーエフエイト）は、現在最も広く使われている文字コードです。

特徴：

世界中のほぼすべての文字に対応
英数字は1バイト、日本語は3バイト
Web標準として推奨されている
ファイルサイズが比較的小さい
BOM（後述）なしが一般的

推奨度：★★★★★
迷ったら、UTF-8を選んでおけば間違いありません。

使用例：

<?xml version="1.0" encoding="UTF-8"?>
<items>
  <item>りんご</item>
  <item>Apple</item>
  <item>蘋果</item>
</items>

UTF-16

UTF-16（ユーティーエフシックスティーン）は、すべての文字を2バイトまたは4バイトで表現します。

特徴：

日本語や中国語などは2バイトで表現
英数字も2バイト（UTF-8より大きくなる）
WindowsやJavaの内部処理で使用
BOMが必要な場合が多い

推奨度：★★★☆☆
特定のシステムとの互換性が必要な場合に使用します。

使用例：

<?xml version="1.0" encoding="UTF-16"?>
<data>
  <value>データ</value>
</data>

Shift_JIS

Shift_JIS（シフトジス）は、日本で長年使われてきた文字コードです。

特徴：

日本語に特化
Windows環境で標準的に使用されてきた
古いシステムとの互換性がある
一部の文字（「表」「能」など）で問題が起きることがある
環境依存文字に弱い

推奨度：★★☆☆☆
既存システムとの互換性が必要な場合のみ使用。新規開発では非推奨です。

使用例：

<?xml version="1.0" encoding="Shift_JIS"?>
<menu>
  <item>和食</item>
</menu>

EUC-JP

EUC-JP（イーユーシージェーピー）は、UNIX/Linux環境で使われてきた日本語文字コードです。

特徴：

日本語に特化
Linux環境で使用されてきた
現在はUTF-8に置き換わりつつある

推奨度：★☆☆☆☆
レガシーシステムとの互換性が必要な場合のみ。

ISO-8859-1（Latin-1）

ISO-8859-1は、西ヨーロッパ言語用の文字コードです。

特徴：

英語、フランス語、ドイツ語などに対応
日本語は使えない
1バイトで表現

推奨度：☆☆☆☆☆（日本語では使用不可）

BOM（バイトオーダーマーク）について

ファイルの先頭に付く「目印」

BOM（Byte Order Mark）は、テキストファイルの先頭に付けられる特殊なバイト列です。

文字コードの種類を識別するための「目印」として機能します。

BOMの有無による違い

UTF-8 BOMあり：

ファイルの先頭に「EF BB BF」というバイト列が付く
Windowsのメモ帳で保存すると自動的に付く
一部のプログラムで問題を起こすことがある

UTF-8 BOMなし：

余計なバイト列がない
Web開発やLinux環境で推奨される
XMLでは基本的にBOMなしを使用

XMLでのBOM使用

XMLでは、BOMなしのUTF-8が推奨されています。

BOMがあると、XMLパーサーによってはエラーを起こす可能性があります。

推奨：

<?xml version="1.0" encoding="UTF-8"?>

（BOMなしで保存）

文字化けの原因と対処法

原因1：宣言と実際の保存形式の不一致

問題のあるパターン：

XML宣言では「UTF-8」と書いている
しかし実際にはShift_JISで保存されている

対処法：
テキストエディタで保存する際、エンコーディングを確認してから保存します。

原因2：XML宣言の欠落

XML宣言がない場合、パーサーはUTF-8と推測します。

対処法：
必ずXML宣言を記述しましょう。

<?xml version="1.0" encoding="UTF-8"?>

原因3：エディタの自動変換

一部のエディタは、ファイルを開いた際に勝手に文字コードを変換してしまいます。

対処法：

文字コードを固定できるエディタを使用
保存時に必ずエンコーディングを確認
Visual Studio Code、Sublime Text、Atomなど、エンコーディングを明示的に指定できるエディタが推奨

原因4：Webサーバーの設定

サーバーからXMLファイルを配信する際、HTTPヘッダーで文字コードを指定することがあります。

対処法：
サーバーの設定を確認し、XML宣言と一致させます。

.htaccess（Apacheの場合）：

AddType "application/xml; charset=UTF-8" .xml

原因5：プログラムでの読み込み

プログラムでXMLを読み込む際、文字コードを明示的に指定しないとエラーが発生することがあります。

Python の例：

# 正しい方法
with open('data.xml', 'r', encoding='utf-8') as f:
    content = f.read()

Java の例：

// 正しい方法
DocumentBuilder builder = factory.newDocumentBuilder();
Document doc = builder.parse(new InputSource(
    new InputStreamReader(
        new FileInputStream("data.xml"), 
        StandardCharsets.UTF_8
    )
));

実践的な設定方法

テキストエディタでの保存

Visual Studio Code：

ファイルを開く
右下の文字コード表示部分をクリック
「エンコード付きで保存」を選択
「UTF-8」を選択
保存

Notepad++：

メニューバーから「エンコード」を選択
「UTF-8（BOMなし）」を選択
保存

サクラエディタ：

メニューバーから「ファイル」→「名前を付けて保存」
「文字コードセット」で「UTF-8」を選択
保存

プログラムでのXML生成

Python（ElementTree）：

import xml.etree.ElementTree as ET

root = ET.Element('root')
message = ET.SubElement(root, 'message')
message.text = 'こんにちは'

tree = ET.ElementTree(root)
tree.write('output.xml', encoding='utf-8', xml_declaration=True)

PHP：

<?php
$dom = new DOMDocument('1.0', 'UTF-8');
$root = $dom->createElement('root');
$dom->appendChild($root);

$message = $dom->createElement('message', 'こんにちは');
$root->appendChild($message);

$dom->save('output.xml');
?>

Java：

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
Document doc = builder.newDocument();

Element root = doc.createElement("root");
doc.appendChild(root);

Element message = doc.createElement("message");
message.setTextContent("こんにちは");
root.appendChild(message);

TransformerFactory transformerFactory = TransformerFactory.newInstance();
Transformer transformer = transformerFactory.newTransformer();
transformer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
transformer.setOutputProperty(OutputKeys.INDENT, "yes");

DOMSource source = new DOMSource(doc);
StreamResult result = new StreamResult(new File("output.xml"));
transformer.transform(source, result);

文字コードの確認方法

コマンドラインでの確認

Linuxの場合：

file -i ファイル名.xml

結果例：

data.xml: application/xml; charset=utf-8

Windows PowerShellの場合：

Get-Content ファイル名.xml -Encoding UTF8

テキストエディタでの確認

多くのエディタは、画面下部に現在の文字コードを表示します。

確認箇所：

Visual Studio Code：右下のステータスバー
Notepad++：右下のステータスバー
サクラエディタ：右下のステータスバー

Webブラウザでの確認

ブラウザでXMLファイルを開いた場合：

右クリック
「ページのソースを表示」または「検証」
HTTPヘッダーや文字コード情報を確認

よくある質問

UTF-8とUTF-8 BOMはどう違う？

UTF-8（BOMなし）：

純粋なUTF-8
Web標準として推奨
XMLでも推奨

UTF-8 BOM：

ファイル先頭に3バイトの目印が付く
Windowsメモ帳のデフォルト
一部のシステムで問題を起こす可能性

迷ったら、BOMなしのUTF-8を選びましょう。

XML宣言を省略できる？

技術的には省略可能ですが、推奨されません。

省略すると、パーサーはUTF-8と推測しますが、明示的に書いた方が安全です。

推奨：

<?xml version="1.0" encoding="UTF-8"?>

日本語ファイル名は使える？

UTF-8であれば、ファイル名に日本語を使用できます。

ただし、システムによっては問題が起きる可能性があるため、英数字のファイル名が推奨されます。

複数の文字コードが混在できる？

できません。

一つのXMLファイル内では、単一の文字コードを使用する必要があります。

まとめ：UTF-8を使えば安心

XML文字コードは、文字化けを防ぐために正しく理解しておくべき重要な概念です。

この記事のポイント：

XMLはデータを構造的に記述する言語
文字コードは文字を数値に変換するルール
XML宣言でencodingを明示する
UTF-8がWeb標準で最も推奨される
Shift_JISやEUC-JPは古いシステム向け
BOMなしのUTF-8が理想的
宣言と実際の保存形式を一致させる
エディタで保存時にエンコーディングを確認
プログラムでも文字コードを明示的に指定

最も安全な選択：

<?xml version="1.0" encoding="UTF-8"?>

このXML宣言を記述し、実際にUTF-8（BOMなし）で保存すれば、ほとんどの環境で正しく動作します。

文字化けに悩まされることなく、快適にXMLファイルを扱えるようになりますよ！

XMLとは何か？

データを保存・交換するためのフォーマット

様々な場面で使われる

文字コード（エンコーディング）とは

コンピューターが文字を理解する仕組み

文字コードの例

文字化けの仕組み

XMLでの文字コード指定

XML宣言で明示する

encoding属性の役割

大文字・小文字の違い

主要な文字コード

UTF-8

UTF-16

Shift_JIS

EUC-JP

ISO-8859-1（Latin-1）

BOM（バイトオーダーマーク）について

ファイルの先頭に付く「目印」

BOMの有無による違い

XMLでのBOM使用

文字化けの原因と対処法

原因1：宣言と実際の保存形式の不一致

原因2：XML宣言の欠落

原因3：エディタの自動変換

原因4：Webサーバーの設定

原因5：プログラムでの読み込み

実践的な設定方法

テキストエディタでの保存

プログラムでのXML生成

文字コードの確認方法

コマンドラインでの確認

テキストエディタでの確認

Webブラウザでの確認

よくある質問

UTF-8とUTF-8 BOMはどう違う？

XML宣言を省略できる？

日本語ファイル名は使える？

複数の文字コードが混在できる？

まとめ：UTF-8を使えば安心

Youtube

カテゴリー別人気記事