Bài 6: Bảng mã Unicode và bộ gõ tiếng Việt

Nội dung bài giảng Bài 6: Bảng mã Unicode và bộ gõ tiếng Việt sau đây sẽ giúp các bạn tìm hiểu về giới thiệu về Bảng mã Unicode, bộ gõ Unikey, bộ gõ Vietkey. Mời các bạn cùng tham khảo!

Tóm tắt lý thuyết

1. Giới thiệu về Bảng mã Unicode

  • Về cơ bản, máy tính chỉ xử lí dừ liệu dạng số. Các chữ và kí tự được lưu trữ bang cách quy định một con số cho mỗi kí tự. Có rất nhiều bộ mã khác nhau được sử dụng để quy định những con số này. Chẳng hạn như bảng mã chuẩn ASCII (American Standard Code for Information Interchange - Mã chuẩn Hoa Kỳ trong trao đổi thông tin), và bảng mã ASCII mở rộng. Bảng mã ASCII sử dụng 7 bit để mã hoá, cho phép mã hoá tối đa 128 (= 27) mã kí tự và bảng mã ASCII mở rộng có thể mã hoá được 256 (= 28) mã kí tự bàng cách sử dụng 8 bit để mã hoá. Với số lượng 256 mã, bảng mã ASCII mở rộng vần chưa đủ chỗ cho các kí tự quốc tế, do lượng kí tự trong các ngôn ngữ tượng hình (Trung Quốc, Thái Lan, Nhật Bản, Ả Rập, Do Thái,...) quá nhiều. Vì vậy, người ta đã phát minh ra bảng mã chuẩn quốc tế Unicode 16 bit dùng làm bảng mã chuẩn duy nhất cho tất cả các ngôn ngữ khác nhau trên thế giới.
  • Bộ mã Unicode được phát triển bởi Liên đoàn Unicode. Liên đoàn Unicode là một tổ chức phi lợi nhuận bao gồm rất nhiều thành viên, trong đó có cả những công ty đa quốc gia lớn như Microsoft Adobe Systems, IBM, Novell, Sun Microsystems, Symantic, Google,... Kể từ phiên bản đẩu tiên ra đời năm 1991, bộ mã Unicode dần được hoàn thiện qua nhiều phiên bản, phiên bản mới nhất hiện nay là 6.1 (năm 2012).
  • Thiết kế ban đầu của Unicode chỉ là mở rộng không gian 8 bit của bộ mã ASCII lên thành 16 bit, do đó mã hoá được số mã tối đa là 216 (= 65536). Thực tế đòi hỏi cần có nhiều mã kí tự hơn, do đó Unicode đưa ra cấu trúc bổ trí các điểm mã theo không gian gọi là mặt phẳng. Không gian mã của Unicode gồm 17 mặt phẳng, mỗi mặt phang có thể chứa tới 65536 kí tự. Trong đó, mặt phẳng đầu tiên được gọi là mặt phang đa ngữ cơ bản, là nơi đa số các kí hiệu cơ bản được gắn mã, và chỉ có 63488 mã sẵn có. Các mặt phẳng còn lại được gọi là các mặt phẳng bổ sung. Hiện tại đã có 110000 kí tự được gán mã trong phiên bản mới nhất 6.1 của bộ mã Unicode.

Tuy nhiên, hầu hết các máy tính hiện nay vẫn còn sử dụng bộ mã ASCII. Chúng chỉ có khả năng nhận ra các mã nhỏ hơn 256 và phần lớn các phần mềm hiện nay chỉ hỗ trợ các dữ liệu 8 bit, nên người ta đã phải dề ra nhiều cơ chế dùng Unicode. Tuỳ thuộc vào khả năng lưu trữ, sự tương thích với các chương trình nguồn, sự tương tác với các hệ thống khác, và sự hỗ trợ của hệ thống máy tính mà mỗi người có thể chọn một cơ chế sử dụng bộ mã Unicode phù hợp. Cơ chế ở đây là định dạng chuyển đổi Unicode (UTF-Unicode Transformation Format), và các cơ chế chuyển đổi phổ biến là: UTF-8, UTF-18, UTF-32.

  • UTF-8: Mỗi kí tự sẽ được mã hoá thành 1, 2, 3 hay 4 chuỗi 8 bit để tương thích với bộ mã ASCII.
  • UTF-16: Mỗi kí tự được biểu diễn bởi 1 hay 2 chuỗi 16 bit.
  • UTF-32: Mồi kí tự được biểu dien bởi một chuỗi bit cổ định có chiều dài 32 bit. 

Để soạn thảo các kí tự trong máy tính, bên cạnh việc chọn bộ mã, người sử dựng cũng cần phải lựa chọn loại font chữ thích hợp để hiển thị kí tự theo dịnh dạng mong muốn. Font chữ là một tập hợp hoàn chỉnh các chữ cái, các dấu câu, các con số, các kí tự đặc biệt,... theo một kiểu định dạng, hình dạng, kích cỡ phù hợp và có thể phân biệt nhau.

Font Unicode: cung cấp các cấu hình cùa các kí tự trong bảng mã Unicode, số lượng font Unicode khá nhiều; một số font Unicode được cài đặt sẵn vào các hệ điều hành. Người sử dụng cũng có thể’tải về các font Unicode (đa số là miễn phí) trên các website và cài đặt thêm vào máy tính.

Đe soạn thảo văn bản tiếng Việt, có thể sừ dụng rất nhiều bàng mã khác nhau, trong đó có ba bảng mã phổ biến nhất là: Unicode, TCVN3 và VNI. TCVN3 là bảng mã theo tiêu chuẩn cũ của Việt Nam, các font chữ trong bảng mã này có tên bắt đầu bàng chữ .Vn. Ví dụ .VnTime. VNI là bảng mã do công ty VNI (Việt Nam International) sở hữu bản quyền, các , font chữ trong bảng mã VNI có tên bắt đầu bằng VNI, ví dụ, VNI-Times.

Các font chừ TCVN3 và VNI có bộ kí tự hạn chế, chỉ phù hợp cho sử dụng để soạn thảo văn bản tiếng Việt. Hạn chế của việc soạn thảo bằng font TCVN3 hoặc VNI là khi gửi văn bản sang một máy tính không cài các font này thì không thể đọc được văn bản dó. Các văn bản hiện nay thường được soạn thào băng cách sử dụng font Unicode đê khăc phục hạn chế này, do đó nhiều font chữ Unicode đã được cài đặt sẵn trong các hệ điều hành ở các máy tính. 

Để soạn thảo văn bản tiếng Việt, cần phải sử dụng bộ gõ tiếng Việt. Bộ gõ tiếng Việt là một loại phần mềm hỗ trợ soạn thảo văn bản tiếng Việt trên máy tính, thường cần có các font chữ cho phép soạn thảo tiếng Việt cài đặt sẵn trong máy tính. Một số bộ gõ tiếng Việt phổ biến như Vietkey, Unikey, WINVNKEY, MVIET, VietUNI,....

Có nhiều cách gõ dấu thanh trên máy tính khác nhau, có 3 kiểu phổ biến nhất là VIQR, VNI và TELEX.

Bảng 1.2. Phân biệt các kiểu gõ dấu tiếng Việt trong các bộ gõ tiếng Việt

Kiểu Dấu sắc Dấu huyền Dấu hỏi Dấu ngã Dấu nặng Dấu mũ Chữ ư Chữ ơ Dấu ă Chứ đ
VIQR ' ` ? ~ . ^ + + ( đ
VNI 1 2 3 4 5 6 7 7 8 d9
TELEX s f r x j aa, ee, oo uw, w, [ ow, ] aw dd

 

Trong các kiểu gõ trên thì TELEX là kiểu gõ phổ biến với người Việt Nam, thậm chí người ta mặc định kiểu gõ tiếng Việt trên máy tính là TELEX.

Trong các bộ gõ tiếng Việt, ta cũng thường bắt gặp hai khái niệm Unicode tô hợp và Unicode dựng sẵn. Đây là hai dạng khác nhau của một chuẩn chung do tổ chức Unicode quv định. Hai dạng này hoàn toàn tương thích với nhau, có thể dùng lẫn lộn. Thông thường, người Việt Nam hay dùng Unicode dựng sẵn hơn là Unicode tổ hợp. Trong Unikey, Unicode dựng sẵn được viết gọn là Unicode, Unicode tổ hợp được viết là Composed Unicode.

2. Bộ gõ Unikey

Bộ gõ Unikey do Phạm Kim Long, Đại học Kĩ thuật Praha sáng chế. Unikey là phần mềm miễn phí, mã nguồn mở, có thể download tại địa chỉ http://unikey.com.vn. Unikey có kích thước nhỏ gọn, dề dùng, dỗ cài đặt, không yêu cầu thêm bất cứ thư viện nào khác, và có thể chạy mà không cần cài đặt. Unikey hỗ trợ:

  • Các bảng mã: Unicode tồ họp, Unicode dựng sẵn, UTF-8 Literal, NCR Decimal, NCR Hexadecimal, TCVN3(ABC), VNI, BK HCMl, BK HCM2, Vietware-X, Vietware-F, VIQR, VPS, VISCII, Windows 1258 code page (chuẩn tiếng Việt của Microsoft).
  • Ba phương pháp gõ thông dụng nhất: TELEX, VNI, VIQR.
  • Khả năng chuyển đổi giữa các bảng mã tiếng Việt

Tất cả các phiên bản của Window 32 bit: WINDOWS 9X/ME, WINDOWS 2000, WINDOWS XP, WINDOWS NT, Windows Server 2003, Windows Server 2008, WindowsVista.

Hướng dẫn sử dụng bộ gõ Unikey

Phần mềm unikey không cần cài đặt. Thực hiện tải bộ cài unikey từ trang web unikey.com.vn, sau đó sao chép vào một thu mục của máy tính, giải nén tệp tải về, sẽ thấy có tệp UnikeyNT.exe (hoặc unikey.exe với một số phiên bản của Unikey cho Windows). Người sử dụng kích hoạt vào tệp UnikeyNT.exe (Unikey.exe) này để mở phần mềm. Để tiện cho việc sử dụng, có thể tạo một shortcut của file UnikeyNT.exe ra ngoài Desktop.

Sau khi khởi động chưong trình Unikey sẽ thấy xuất hiện biểu tượng (icon) chữ V (hay E) màu đỏ ở bên phải của thanh công cụ taskbar.

Hình 1.28 Biểu tượng v à menu popup của phần mềm Unikey

Tác dụng của biểu tưọng

  • Hiển thị trạng thái hiện thời của bàn phím. Biểu tượng chữ [V]/(Vietnam) là bật chế độ gõ tiếng Việt, chữ [E]/(English) là chế độ gõ tiếng Anh.
  • Nhấp chuột trái lên biểu tượng: bật tắt tiếng Việt.
  • Nhấp chuột phải lên biểu tượng: hiển thị thực đon lệnh của chương trình Unikey.
  • Nhấp đúp chuột trái lên biểu tượng: bật hộp thoại của Unikey.

Unikey trang bị hai ngôn ngữ giao diện là tiếng Anh và tiếng Việt. Hộp thoại của ưnikey có hai chế độ. Chế độ mở rộng cho phép thiết đặt tất cả các thông số hoạt động của unikey, chế độ thu hẹp cho phép cài đặt các thông số hay sử dụng nhất.

Hình 1.29. Chế độ mở rộng và thu hẹp của giao diện phần mềm Unikey

3. Bộ gõ Vietkey

Bộ gõ Vietkey do Đặng Minh Tuấn sáng chế. Các thông tin chính thức về Vietkey được công bố trên trang web chính thức http://www.vietkeysoft.com hoặc http://www.vietkey.net. Vietkey là bộ gõ được ra đời từ rất sớm, phiên bản 1.0 phát hành năm 1993. Đây là một trong những bộ gõ tiếng Việt 32-Bit đầu tiên và được hồ trợ Unicode. Vietkey có nhiều tính năng ưu việt như:

  • Nhỏ gọn, chỉ cần tệp duy nhất. Chạy trên tất cả các môi trường Windows 32-Bit, bao gồm: Windows 95/98, Windows NT, Windows 2000, Windows XP. Đối với MS Pocket PC cần phải có phiên bản khác là Vietkey CE. Ngoài ra, nó còn hỗ trợ gõ nhiều ngôn ngữ phổ thông: Việt, Nga, Anh, Pháp, Đức,...
  • Hỗ trợ các bảng mã tiếng Việt phổ thông: ABC, VNI,... Unicode/TCVN 6909:2001. Riêng với Uncode, hỗ trợ các biểu diễn UTF-8, UCS2 (cho các môi trường Web), C-Style: Unicode cho môi trường lập trình C, C++.
  • Hỗ trợ nhiều kiểu gõ thông dụng ở Việt Nam cũng như ở nước ngoài: TELEX, VNI, VIQR.
  • Và nhiều tính năng khác gần tương tự như Unikey.

Hướng dẫn sử dụng Vietkey:

Bộ cài phần mềm Vietkey được download dễ dàng tại http://www.vietkeysoft.com/. Việc cài đặt phần mềm rất đơn giản, chỉ cần bật file cài đặt và chọn nút cài đặt, chương trình sẽ tự động dược cài đặt chỉ trong vài giây.

Hình 1.30. Giao diện cài đặt chương trình Vietkey

Sau khi cài đặt, file chạy của phần mềm Vietkey sẽ xuất hiện trên màn hình nền desktop . Chương trình Vietkey sau khi khởi động sẽ có biểu tượng ở góc phải của thanh công cụ với hai trạng thái  là cho phép gõ tiếng Việt, là đặt chế độ gõ tiếng Anh.

Các chế dộ lựa chọn thao tác cơ bản của Vietkey cũng tương tự Ưnikey như: sử dụng biểu tượng rút gọn, chọn ngôn ngữ hiển thị (tiếng Anh, tiếng Việt), chọn kiểu gõ (TELEX, VNI, VIQR,...), chọn bảng mã Unicode,...

Dưới đây là giao diện làm việc cơ bản của Vietkey:

Hình 1.31. Giao diện làm việc cơ bản của phần mềm Vietkey

Tham khảo thêm

Bình luận

Có Thể Bạn Quan Tâm ?