ชุดอักขระHTML

ชุดอักขระ HTML HTML ASCII HTML WIN-1252 HTML ISO-8859 สัญลักษณ์ HTML HTML UTF-8

HTML UTF-8

ภาษาละตินพื้นฐาน อาหารเสริมละติน ละตินขยาย A ภาษาละติน Extended B ตัวดัดแปลง เครื่องหมายกำกับเสียง กรีกและคอปติก Cyrillic Basic อาหารเสริมซีริลลิก

สัญลักษณ์HTML

เครื่องหมายวรรคตอนทั่วไป สัญลักษณ์สกุลเงิน สัญลักษณ์เหมือนตัวอักษร ลูกศร ตัวดำเนินการคณิตศาสตร์ ภาพวาดกล่อง บล็อกองค์ประกอบ รูปทรงเรขาคณิต สัญลักษณ์เบ็ดเตล็ด Dingbats อิโมจิ อีโมจิ รอยยิ้ม อิโมจิ สีผิว

เอนทิตีHTML

เอนทิตี HTML4 เอนทิตี HTML5 A เอนทิตี HTML5 B เอนทิตี HTML5 C เอนทิตี HTML5 D เอนทิตี HTML5 E เอนทิตี HTML5 F เอนทิตี HTML5 G เอนทิตี HTML5 H เอนทิตี HTML5 ฉัน เอนทิตี HTML5 J เอนทิตี HTML5 K เอนทิตี HTML5 L เอนทิตี HTML5 M เอนทิตี HTML5 N เอนทิตี HTML5 O เอนทิตี HTML5 P เอนทิตี HTML5 Q เอนทิตี HTML5 R เอนทิตี HTML5 S เอนทิตี HTML5 T เอนทิตี HTML5 U เอนทิตี HTML5 V เอนทิตี HTML5 W เอนทิตี HTML5 X เอนทิตี HTML5 Y เอนทิตี HTML5 Z

ชุดอักขระ HTML


ในการแสดงหน้า HTML อย่างถูกต้อง เบราว์เซอร์ต้องรู้ว่าชุดอักขระใด (การเข้ารหัส) ที่จะใช้:

ตัวอย่าง

<meta charset="UTF-8">

ชุดอักขระ HTML

ข้อกำหนด HTML5 สนับสนุนให้นักพัฒนาเว็บใช้ชุดอักขระ UTF-8!

นี่ไม่ใช่กรณีเสมอไป การเข้ารหัสอักขระสำหรับเว็บยุคแรกคือ ASCII

ต่อมา จาก HTML 2.0 ถึง HTML 4.01 ISO-8859-1 ถือเป็นชุดอักขระมาตรฐาน

ด้วย XML และ HTML5 ในที่สุด UTF-8 ก็มาถึงและแก้ไขปัญหาการเข้ารหัสอักขระได้มากมาย


จุดเริ่มต้น: ASCII

ข้อมูลคอมพิวเตอร์ถูกจัดเก็บเป็นรหัสไบนารี (01000101) ในระบบอิเล็กทรอนิกส์

เพื่อสร้างมาตรฐานการจัดเก็บข้อความ American Standard Code for Information Interchange (ASCII) ได้ถูกสร้างขึ้น โดยกำหนดเลขฐานสองที่ไม่ซ้ำกันสำหรับอักขระที่จัดเก็บได้แต่ละตัวเพื่อรองรับตัวเลขตั้งแต่ 0-9 ตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก (az, AZ) และอักขระพิเศษ เช่น ! $ + - ( ) @ < > , .

เนื่องจาก ASCII ใช้อักขระ 7 บิตจึงสามารถแสดงอักขระได้เพียง 128 ตัวเท่านั้น

จุดอ่อนที่ใหญ่ที่สุดของ ASCII คือไม่รวมตัวอักษรที่ไม่ใช่ภาษาอังกฤษ

ASCII ยังคงใช้อยู่ในปัจจุบัน โดยเฉพาะในระบบคอมพิวเตอร์เมนเฟรมขนาดใหญ่

โปรดศึกษาข้อมูลอ้างอิง ASCII ฉบับสมบูรณ์เพื่อให้เข้าใจมากขึ้น


ใน Windows: Windows-1252

Windows-1252 เป็นชุดอักขระเริ่มต้นใน Windows จนถึง Windows 95

เป็นส่วนขยายของ ASCII พร้อมอักขระสากลที่เพิ่มเข้ามา

ใช้ไบต์เต็ม (8 บิต) เพื่อแสดงอักขระที่แตกต่างกัน 256 ตัว

เนื่องจาก Windows-1252 เป็นค่าเริ่มต้นใน Windows เบราว์เซอร์ทั้งหมดจึงรองรับ

หากต้องการดูให้ละเอียด ยิ่งขึ้น โปรดศึกษา: The Complete Windows-1252 Reference



ใน HTML 4: ISO-8859-1

ชุดอักขระที่ใช้บ่อยที่สุดใน HTML 4 คือ ISO-8859-1

ISO-8859-1 เป็นส่วนขยายของ ASCII โดยมีอักขระสากลเพิ่มเติม

ตัวอย่าง

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

ใน HTML 4 สามารถระบุชุดอักขระที่แตกต่างจาก ISO-8859-1 ในแท็ก <meta>:

ตัวอย่าง

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

โปรเซสเซอร์ HTML 4 ทั้งหมดยังรองรับ UTF-8:

ตัวอย่าง

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

เมื่อเบราว์เซอร์ตรวจพบ ISO-8859-1 โดยปกติแล้วจะมีค่าเริ่มต้นเป็น Windows-1252 เนื่องจาก Windows-1252 มีอักขระสากลมากกว่า 32 ตัว

หากต้องการดูให้ละเอียดยิ่งขึ้น โปรดศึกษา: The Complete ISO-8859-1 Reference


ใน HTML5: Unicode UTF-8

ข้อกำหนด HTML5 สนับสนุนให้นักพัฒนาเว็บใช้ชุดอักขระ UTF-8

ตัวอย่าง

<meta charset="UTF-8">

ชุดอักขระที่แตกต่างจาก UTF-8 สามารถระบุได้ในแท็ก <meta>:

ตัวอย่าง

<meta charset="ISO-8859-1">

Unicode Consortium ได้พัฒนามาตรฐาน UTF-8 และ UTF-16 เนื่องจากชุดอักขระ ISO-8859 มีจำกัด และไม่รองรับสภาพแวดล้อมหลายภาษา

Unicode Standard ครอบคลุม (เกือบ) อักขระ เครื่องหมายวรรคตอน และสัญลักษณ์ทั้งหมดในโลก

ตัวประมวลผล HTML5 และ XML ทั้งหมดรองรับ UTF-8, UTF-16, Windows-1252 และ ISO-8859

เพื่อความ ชัดเจนยิ่งขึ้น โปรดศึกษา: The Complete Unicode Reference