[Date Prev] [Date Index] [Date Next]
[Thread Prev] [Thread Index] [Thread Next]

[xyzzy:01705] Re: UTF-8 について



おはようございます。やまぐち@あわぐもです。

<199901280243.LAA07429@xxxxxxxxxxxxxxxx> の、
   "[xyzzy:01703] Re: UTF-8 について" において、
   "Masahito Henmi <henmi@xxxxxxxxxxxxx>"さんは書きました:

> 向学のために教えてください。BOMって何なんですか?

バイト・オーダー・マークです。おおざっぱに説明すると、世の中の
コンピュータにはリトルエンディアンとビッグエンディアンというものが
あって、それがどっちが判定するためのもの、とでも思ってください。

> > | #RFCは付けない派だけど、付ける派もあるようで。
> 
> 意味がわかりません。

確かに。RFCは知ってますか?。インターネットのお約束を集めたものですが、
ここでのUTF-8の規定は、上で書いたBOMを付けないことになってます。
しかし、世の中これが全てではないようで、別のところではBOMがあっても
よいんだか、必須だか、みたいです。まあ、私も門外漢なんで、今は亡き
XML-j ML(XML-users MLに統合されました)での、富士ゼロックスの村田さんの
発言を2つ引用しておきます。

一つめは私がRFCしか見てなかったのでBOMを付けないのが普通と書いたら、別の
人から付けるのが普通と認識してたけどなぜ?と聞かれたものに村田さんが回答
したものです。

§http://osiris.dkuug.dk/JTC1/SC2/WG2/docs/N1396.docはBOMありという気分で、
§RFC2279ではBOMなしという気分。人によっても意見が違います。いま議論して
§ます。

また、その後の後日談的に投稿されたのがこちらです。

§UTF-16をIANAに登録のためにRFCを作成して明確化しておこうという作業が
§進行しつつあります。現在のドラフトは次のところにあります。
§ftp://ftp.ietf.org/internet-drafts/draft-hoffman-utf16-00.txt
§ただし、これも改訂中です。
§
§BOMはテキスト本体を構成する文字であり、UTF-8に変換したときもBOMは
§そのまま保たれるべきであるという結論になる可能性があります。これは、
§多くの実装に影響を与えますし、XMLも直さないといけません ;-(

この投稿は、ToolManがUTF-16を中心にすることにした、という投稿への返答
でした。

> > 付けてどうしようというのでしょう?(^^;

頭読んだだけで文字コードが判別できる、とか(笑)。まあ、規格の奇麗さ
とか、そういう方向の話のような。ちなみに、上の文書はどちらも未見。

--
山口佳成【をゐなり】  E-Mail:yoshiaki@xxxxxxxxxxx
(YAMAGUCHI,Yoshiaki) NIFTY SERVE:GCD02060 ICQ UIN:5231160
PGP Fingerprint:85 97 59 54 31 EC 79 31 1F DA D5 49 65 40 84 0D

Index Home