Thực thể ký tự trong XML

Chương này khái quát cho bạn về khái niệm Thực thể ký tự - Character Entity. trong XML. Trước khi tìm hiểu về thực thể ký tự, chúng ta cần hiểu về khái niệm thực thể (Entity) là gì.

Theo W3 Consortium định nghĩa thực thể là như sau:

Thực thể (Entity) của tài liệu đóng vai trò như là phần gốc của cây thực thể (Entity Tree) và là điểm bắt đầu cho một XML Processor.

Tức là, các thực thể là Placeholder trong XML. Chúng có thể được khai báo trong phần Document Prolog hoặc trong một DTD. Có các loại thực thể khác nhau và chương này trình bày cho bạn về Character Entity.

Cả XML và HTML đều có một số biểu tượng được dành riêng, các biểu tượng này không thể được sử dụng như là nội dung trong XML code. Ví dụ, < và > được sử dụng cho các thẻ mở và thẻ đóng trong XML. Để hiển thị hai ký tự đặc biệt này, các thực thể ký tự được sử dụng.

Có một số ký tự hoặc biểu tượng đặc biệt mà không có sẵn để bạn có thể gõ một cách trực tiếp từ bàn phiems. Các thực thể ký tự cũng có thể được sử dụng để hiển thị các ký tự/biểu tượng này.

Các loại thực thể ký tự trong XML

Có 3 loại thực thể ký tự trong XML:

  • Thực thể ký tự được định nghĩa trước
  • Thực thể ký tự dạng số
  • Thực thể ký tự được đặt tên

Thực thể ký tự được định nghĩa trước trong XML

Chúng được giới thiệu để tránh tính lưỡng nghĩa trong khi sử dụng các biểu tượng này. Ví dụ như ký tự nhỏ hơn ( < ) và ký tự lớn hơn ( > ). Về cơ bản, các thực thể ký tự được sử dụng để giới hạn các thẻ trong XML. Dưới đây là danh sách các thực thể ký tự được định nghĩa trước trong XML. Chúng có thể được sử dụng để biểu diễn các ký tự mà không gặp phải tính lưỡng nghĩa.

  • Dấu và: &
  • Trích dẫn đơn: '
  • Dấu lớn hơn: >
  • Dấu nhỏ hơn: <
  • Trích dẫn kép: "

Các thực thể ký tự dạng số trong XML

Các thực thể ký tự dạng số được sử dụng để tham chiếu tới một thực thể ký tự. Các tham chiếu số có thể là số thập phân hoặc thập lục phân. Thực ra thì có hàng nghìn tham chiếu số có sẵn và việc nhớ chúng là thực sự khó. Các thực thể số này tham chiếu tới ký tự bằng biểu diễn số của ký tự đó trong bộ mã hóa ký tự Unicode.

Cú pháp chung cho tham chiếu thập phân là:

 decimal number ;

Cú pháp chung cho tham chiếu thập lục phân là:


 Hexadecimal number ;

Bảng sau liệt kê một số thực thể ký tự được định nghĩa trước với giá trị số của chúng:

Tên thực thểKý tựTham chiếu thập phânTham chiếu thập lục phân
quot"""
amp&&&
apos'''
lt<<<
gt>>>

Thực thể ký tự gọi tên trong XML

Để nhớ các ký tự số là khá khó khăn, thì loại thực thể ký tự thường hay sử dụng nhất là thực thể ký tự gọi tên. Ở đây, mỗi thực thể được chỉ định với một tên:

Ví dụ:

  • 'Aacute' biểu diễn ký tự chữ hoa .
  • 'ugrave' biểu diễn ký tự chữ thường 

Bình luận