ชุดอักขระ HTML
ในการแสดงหน้า HTML อย่างถูกต้อง เบราว์เซอร์ต้องรู้ว่าชุดอักขระใด (การเข้ารหัส) ที่จะใช้:
ตัวอย่าง
<meta charset="UTF-8">
ชุดอักขระ HTML
ข้อกำหนด HTML5 สนับสนุนให้นักพัฒนาเว็บใช้ชุดอักขระ UTF-8!
นี่ไม่ใช่กรณีเสมอไป การเข้ารหัสอักขระสำหรับเว็บยุคแรกคือ ASCII
ต่อมา จาก HTML 2.0 ถึง HTML 4.01 ISO-8859-1 ถือเป็นชุดอักขระมาตรฐาน
ด้วย XML และ HTML5 ในที่สุด UTF-8 ก็มาถึงและแก้ไขปัญหาการเข้ารหัสอักขระได้มากมาย
จุดเริ่มต้น: ASCII
ข้อมูลคอมพิวเตอร์ถูกจัดเก็บเป็นรหัสไบนารี (01000101) ในระบบอิเล็กทรอนิกส์
เพื่อสร้างมาตรฐานการจัดเก็บข้อความ American Standard Code for Information Interchange (ASCII) ได้ถูกสร้างขึ้น โดยกำหนดเลขฐานสองที่ไม่ซ้ำกันสำหรับอักขระที่จัดเก็บได้แต่ละตัวเพื่อรองรับตัวเลขตั้งแต่ 0-9 ตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก (az, AZ) และอักขระพิเศษ เช่น ! $ + - ( ) @ < > , .
เนื่องจาก ASCII ใช้อักขระ 7 บิตจึงสามารถแสดงอักขระได้เพียง 128 ตัวเท่านั้น
จุดอ่อนที่ใหญ่ที่สุดของ ASCII คือไม่รวมตัวอักษรที่ไม่ใช่ภาษาอังกฤษ
ASCII ยังคงใช้อยู่ในปัจจุบัน โดยเฉพาะในระบบคอมพิวเตอร์เมนเฟรมขนาดใหญ่
โปรดศึกษาข้อมูลอ้างอิง ASCII ฉบับสมบูรณ์เพื่อให้เข้าใจมากขึ้น
ใน Windows: Windows-1252
Windows-1252 เป็นชุดอักขระเริ่มต้นใน Windows จนถึง Windows 95
เป็นส่วนขยายของ ASCII พร้อมอักขระสากลที่เพิ่มเข้ามา
ใช้ไบต์เต็ม (8 บิต) เพื่อแสดงอักขระที่แตกต่างกัน 256 ตัว
เนื่องจาก Windows-1252 เป็นค่าเริ่มต้นใน Windows เบราว์เซอร์ทั้งหมดจึงรองรับ
หากต้องการดูให้ละเอียด ยิ่งขึ้น โปรดศึกษา: The Complete Windows-1252 Reference
ใน HTML 4: ISO-8859-1
ชุดอักขระที่ใช้บ่อยที่สุดใน HTML 4 คือ ISO-8859-1
ISO-8859-1 เป็นส่วนขยายของ ASCII โดยมีอักขระสากลเพิ่มเติม
ตัวอย่าง
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">
ใน HTML 4 สามารถระบุชุดอักขระที่แตกต่างจาก ISO-8859-1 ในแท็ก <meta>:
ตัวอย่าง
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
โปรเซสเซอร์ HTML 4 ทั้งหมดยังรองรับ UTF-8:
ตัวอย่าง
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
เมื่อเบราว์เซอร์ตรวจพบ ISO-8859-1 โดยปกติแล้วจะมีค่าเริ่มต้นเป็น Windows-1252 เนื่องจาก Windows-1252 มีอักขระสากลมากกว่า 32 ตัว
หากต้องการดูให้ละเอียดยิ่งขึ้น โปรดศึกษา: The Complete ISO-8859-1 Reference
ใน HTML5: Unicode UTF-8
ข้อกำหนด HTML5 สนับสนุนให้นักพัฒนาเว็บใช้ชุดอักขระ UTF-8
ตัวอย่าง
<meta charset="UTF-8">
ชุดอักขระที่แตกต่างจาก UTF-8 สามารถระบุได้ในแท็ก <meta>:
ตัวอย่าง
<meta charset="ISO-8859-1">
Unicode Consortium ได้พัฒนามาตรฐาน UTF-8 และ UTF-16 เนื่องจากชุดอักขระ ISO-8859 มีจำกัด และไม่รองรับสภาพแวดล้อมหลายภาษา
Unicode Standard ครอบคลุม (เกือบ) อักขระ เครื่องหมายวรรคตอน และสัญลักษณ์ทั้งหมดในโลก
ตัวประมวลผล HTML5 และ XML ทั้งหมดรองรับ UTF-8, UTF-16, Windows-1252 และ ISO-8859
เพื่อความ ชัดเจนยิ่งขึ้น โปรดศึกษา: The Complete Unicode Reference