Tiếng việt có bao nhiêu từ
Trong nghiên cứu này, chúng tôi sử dụng 2 kho ngữ liệu tiếng Việt (tên là VTB và VCor) do Trung tâm Ngôn ngữ học Tính toán – ĐH Khoa học Tự nhiên – Tp.HCM (viết tắt là thanglon39.com)<1> cung cấp. Ngữ liệu này được thu thập từ các trang báo điện tử (www.tuoitreonline, www.vnexpress.net,…) trong giai đoạn từ năm 2000 trở lại đây. Các ngữ liệu này đã được chuẩn hóa về mã (utf-8), dạng XML trong đó có các thẻ (tag) để đánh dấu từng câu (SEG id), từng đoạn (PARA), từng tập tin (DOC docid), ngôn ngữ (Language) và lĩnh vực (Domain). Ngữ liệu VTB đã được chú thích (annotate) thủ công với nhãn ranh giới từ tiếng Việt, nhãn từ loại (POS) và nhãn thực thể có tên (Named Entity). Còn ngữ liệu VCor chỉ được chú thích tự động nhãn ranh giới từ (do kích thước quá lớn). Xin xem hình 1 minh họa bên dưới:
Nguyên_nhân/Nn/O là/Vc/O bão/Nn/O số/Nn/O 10/An/O đang/R/O chịu/Vv/O ảnh_hưởng/Nn/O bởi/Cp/O hệ_thống/Nn/O trục/Nn/O rãnh/Nn/O cao/Aa/O và/Cp/O sự/Nc/O lôi_kéo/Vv/O từ/Cm/O siêu__bão/Nn/TRM_B Melor/Nr/TRM_I ở/Cm/O ngoài/Cm/O khơi/Nn/O Philippines/Nr/LOC_B ./PU/O Theo/Vv/O ông/Nn/TTL_B Bùi_Minh_Tăng/Nr/PER_B -/PU/O giám_đốc/Nn/DES_B Trung_tâm/Nn/ORG_B Dự_báo/Vv/ORG_I khí_tượng/Nn/ORG_I thuỷ_văn/Nn/ORG_I trung_ương/Aa/ORG_I ,/PU/O bão/Nn/O số/Nn/O 10/An/O có/Ve/O hướng/Nn/O di_chuyển/Vv/O và/Cp/O diễn_biến/Vv/O rất/R/O phức_tạp/Aa/O ,/PU/O có_thể/Aa/O thay_đổi/Vv/O so/Vv/O với/Cp/O nhận_định/Nn/O ban_đầu/Nn/O ./PU/O
VCor: id=’00001’> Chính_sách của Nhà_nước là đầu_tư xây_dựng nhà chung_cư bán cho người có thu_nhập thấp , nhưng rốt_cục lại không được quản_lý tốt |
Hình 1. Ngữ liệu VTB và VCor của thanglon39.com
VTB có 201.594 câu, 5.501.225 lượt từ, độ dài trung bình mỗi câu là 27,3 từ và tổng số các từ/chuỗi (token) khác nhau là 118.455. Ngữ liệu VCor có 17.095.994 câu (42 lĩnh vực), gồm 346.454.533 từ và 443.301.776 chữ (tiếng/âm tiết), trung bình mỗi câu có khoảng 20 từ, mỗi từ có 1,28 âm tiết và mỗi âm tiết dài 3,27 con chữ. Các âm tiết của từ đa tiết được nối với nhau bằng 1 dấu gạch dưới (vd: nguyên_nhân) và các cụm từ phái sinh được nối với nhau bằng 2 dấu gạch dưới (vd: siêu__bão). Khái niệm “Từ” ở đây là “từ từ điển” (theo từ điển tiếng Việt <2>). Nhãn từ loại và nhãn thực thể có tên kế thừa từ công trình <3>.
Bạn đang xem: Tiếng việt có bao nhiêu từ
Từ kho VCor, chúng ta có thể thống kê để rút ra từ điển tần số tiếng và từ điển tần số từ. Từ VTB chúng ta thống kê rút ra tần suất từ theo từ loại của chúng. Dưới đây là một số kết quả thống kê được từ kho VCor và VTB:
1.1. Thống kê tần suất âm tiết tiếng Việt trong VCor:
Trong kho ngữ liệu VCor, các âm tiết xuất hiện với tần suất khác nhau. Tần suất được tính bằng công thức f = –lg (n/N) với n là số lần xuất hiện của âm tiết và N là tổng số âm tiết trong ngữ liệu VCor. Ví dụ: trong 100 triệu âm tiết, âm tiết “và” xuất hiện 1 triệu lần thì f sẽ là –lg(10exp6/10exp8) = 2. Nếu con số này càng nhỏ (nhỏ nhất là 0), có nghĩa là âm tiết đó xuất hiện càng nhiều và ngược lại (lớn nhất là 8, nếu âm tiết đó chỉ xuất hiện 1 lần).
Stt | Âm tiết | f | n |
1 | và | 1,921 | 5.317.402 |
2 | của | 1,923 | 5.292.970 |
3 | có | 1,946 | 5.019.951 |
4 | là | 2,029 | 4.146.670 |
5 | một | 2,056 | 3.896.722 |
6 | các | 2,060 | 3.860.997 |
7 | không | 2,082 | 3.670.282 |
8 | được | 2,105 | 3.480.964 |
9 | trong | 2,119 | 3.370.540 |
10 | cho | 2,139 | 3.218.841 |
Bảng 1. Tần suất âm tiết trong VCor.
Theo đó, 1% các âm tiết phổ biến nhất (khoảng 70 âm tiết) chiếm hơn 30% số lượt âm tiết xuất hiện trong VCor. 10% các âm tiết phổ biến nhất (khoảng 700 âm tiết) chiếm hơn 80% số lượt âm tiết xuất hiện trong VCor.
Hình 2. Tần suất âm tiết trong VCor.
1.2. Thống kê tần suất từ tiếng Việt trong VCor:
Trong ngữ liệu thực tế VCor, ta thấy các từ xuất hiện nhiều nhất chính là các hư từ, rồi mới đến các thực từ như “người, ở, tôi, năm, làm, ông, anh, việc, …”.
Stt | Từ | f | n |
1 | và | 1,820 | 5.243.802 |
2 | của | 1,822 | 5.219.708 |
3 | có | 1,956 | 3.833.948 |
4 | các | 1,959 | 3.807.556 |
5 | là | 1,968 | 3.729.463 |
6 | một | 1,986 | 3.578.049 |
7 | được | 2,012 | 3.370.127 |
8 | không | 2,031 | 3.225.865 |
9 | trong | 2,043 | 3.137.952 |
10 | cho | 2,050 | 3.087.779 |
Bảng 2a. Thống kê tần suất từ trong VCor.
Theo đó, 1% các từ phổ biến nhất (khoảng 330 từ) lại chiếm hơn 55% số lượt từ xuất hiện trong VCor. 10% các từ phổ biến nhất (khoảng 3.300 từ) chiếm hơn 90% số lượt từ sử dụng trong VCor.
Stt | Từ | f | n |
.. | … | .. |
|
14 | người | 2,160 | 2.396.880 |
15 | ở | 2,210 | 2.136.221 |
20 | tôi | 2,314 | 1.681.304 |
31 | năm | 2,401 | 1.376.088 |
32 | làm | 2,423 | 1.308.116 |
33 | ông | 2,436 | 1.269.540 |
36 | anh | 2,464 | 1.190.272 |
44 | việc | 2,530 | 1.022.460 |
55 | nước | 2,611 | 848.489 |
60 | có thể | 2,660 | 757.960 |
Bảng 2b. Thống kê tần suất từ trong VCor
Hình 3. Thống kê tần suất xuất hiện của từ tiếng Việt trong VCor.
So sánh bảng 1 và 2, ta thấy trong VCor số lượng từ “và” xuất hiện (5.243.802 lần) ít hơn số lượng tiếng “và” (5.317.402 lần) vì tiếng “và” có thể xuất hiện trong nhiều đơn vị khác nữa ngoài từ “và”, như: “tù và”, “chà và”,…Tương tự cho các trường hợp còn lại.
1.3. Thống kê tần suất từ tiếng Việt trong VTB:
Trong ngữ liệu VTB, ta có thể thống kê tần suất của từ xuất hiện theo từ loại của chúng.
Stt | Từ | POS | f | n |
1 | của | Cm | 1,820 | 77.936 |
2 | và | Cp | 1,822 | 77.360 |
3 | các | Nq | 1,956 | 57.144 |
4 | có | Ve | 1,959 | 53.614 |
5 | là | Vc | 1,968 | 52.207 |
6 | trong | Cm | 1,986 | 49.867 |
7 | một | Nq | 2,012 | 47.037 |
8 | đã | R | 2,031 | 45.503 |
9 | những | Nq | 2,043 | 43.878 |
10 | không | R | 2,050 | 42.888 |
Bảng 3. Thống kê tần suất từ trong VTB.
Xem thêm: Túi Mật Gấu Khô Giá Bao Nhiêu Tiền 1Cc, Mật Gấu Giá Bao Nhiêu
Ví dụ: từ “tốt” xuất hiện 3.624 lần với tư cách là “tính từ” (tốt đẹp) và 2 lần với tư cách là danh từ (con tốt). Tương tự cho hệ từ “là” xuất hiện cao hơn nhiều so với từ loại động từ, kết từ, trợ từ của nó.
Stt | Từ | POS | f | n |
3.775 | của | Nn | 4,6789 | 115 |
368 | và | M | 3,4268 | 2.059 |
20.793 | và | Vv | 6,1384 | 4 |
39.212 | các | Vv | 6,7405 | 1 |
3.224 | có | M | 4,5731 | 147 |
103 | có | R | 2,9803 | 5.756 |
19.385 | là | Vv | 6,0415 | 5 |
5.290 | là | Cs | 4,9209 | 66 |
143 | là | Cp | 3,0857 | 4.516 |
1.749 | là | M | 4,1842 | 360 |
186 | tốt | Aa | 3,1813 | 3.624 |
25.154 | tốt | Nn | 6,4394 | 2 |
Bảng 4. Thống kê tần suất từ trong VTB
Trong đó: Cm: giới từ; Cp: liên từ; Nq: số từ, Ve: động từ tồn tại; Vc: hệ từ; R: trạng từ; Nn: danh từ, Vv: động từ, Aa: tính từ, M: trợ từ.
2. ỨNG DỤNG TRONG GIẢNG DẠY TIẾNG VIỆT
Từ hai kho ngữ liệu VCor và VTB và các kết quả thống kê của nó, chúng ta có thể khai thác để phục vụ cho việc giảng dạy tiếng Việt như sau:
2.1. Xác định vốn từ vựng cơ bản
Trong giảng dạy tiếng, phần từ vựng – ngữ âm chắc chắn phải được thực hiện đầu tiên. Riêng đối với tiếng Việt là thứ tiếng đơn lập, đơn tiết tính và là thứ tiếng ghi âm vị, nên âm tiết sẽ là đơn vị cơ bản cần xem xét khi giảng dạy tiếng Việt.
2.1.1. Xây dựng vốn âm tiết cơ bản:
Chúng ta cần xác định vốn âm tiết cơ bản phù hợp với người học dựa vào cấu trúc (từ dễ phát âm đến khó) và độ thông dụng của âm tiết. Từ kết quả thống kê ở phần 1.1, ta đã rút ra được danh sách 700 âm tiết thông dụng nhất trong tiếng Việt (chiếm 80% lượt âm tiết xuất hiện trong thực tế). Dựa vào danh sách này, ta xây dựng được vốn âm tiết phù hợp cho người học theo trình độ để họ có thể nghe, nói, đọc, viết nhanh chóng tiếng Việt (nhưng chưa hiểu nghĩa).
2.1.2. Xây dựng vốn từ cơ bản:
Tương tự, chúng ta cần xác định vốn từ cơ bản phù hợp với người học dựa vào độ thông dụng của từ. Từ kết quả thống kê ở phần 1.2, ta đã rút ra được danh sách 3.300 từ thông dụng nhất trong tiếng Việt (chiếm hơn 90% lượt từ xuất hiện trong văn bản). Dựa vào danh sách này, chúng ta xây dựng được vốn từ phù hợp cho người học theo trình độ để họ có thể đọc hiểu được văn bản tiếng Việt. Tuy nhiên, tiếng Việt chúng ta có nhiều từ (đơn tiết) đồng âm, nên để xác định được nghĩa của từ, trong đa số các trường hợp ta có thể dựa vào từ loại. Ví dụ: “tốt” (danh từ/tính từ); “tôi” (đại từ/động từ); … Vì vậy, để chọn nghĩa thông dụng cho phù hợp với trình độ người học, ta cần sử dụng danh sách 1.3 đã rút ra được để xây dựng được vốn từ phù hợp cho mỗi trình độ. Ví dụ: trình độ thấp sẽ học từ “tốt” với từ loại tính từ, từ “tôi” với từ loại đại từ.
2.1.3. Xây dựng giáo trình/từ điển theo trình độ:
Từ những kết quả trên, chúng ta có thể xây dựng được giáo trình chứa những từ thông dụng. Tập từ cơ bản này cũng sẽ được dùng để giải thích/định nghĩa những từ khó hơn trong phần từ vựng của giáo trình hay trong từ điển tiếng Việt giải thích. Đây là điều mà từ điển Oxford OALD8 <4> đã áp dụng khi giải thích mọi mục từ chỉ qua 3.000 từ cơ bản. Ví dụ:
Với cách thức này, ta có thể tránh được việc định nghĩa/giải thích một từ trung bình bằng một từ khó hơn mà ta hay gặp trong các từ điển giải thích tiếng Việt. Ví dụ: từ “đường” (sugar) trong từ điển tiếng Việt định nghĩa là “một chất kết tinh có vị ngọt”<2>.
2.2. Quan sát cách dùng từ
Việc học từ vựng không thể tách rời khỏi ngữ cảnh, vì vậy, chúng ta có thể sử dụng ngữ liệu VCor và VTB để học viên quan sát cách dùng từ trong ngữ cảnh thực tế như sau:
2.2.1. Tìm theo hình thái từ:
Do đặc thù của tiếng Việt, nên khi chúng ta sử dụng các công cụ tìm kiếm, thống kê ngôn ngữ của tiếng Anh, chúng ta sẽ không thể xác định đúng được hình thái của chuỗi đang tìm (vì trong công cụ tiếng Anh, mỗi tiếng sẽ được xem từ). Còn trong ngữ liệu VCor, do có gán nhãn hình thái từ, nên việc tìm kiếm tiếng Việt sẽ hiệu quả hơn. Ví dụ ta muốn tìm từ “tin”: máy sẽ tìm ra từ “tin” nằm độc lập (như: “tin điều đó…”, “tin mới nhận”), hoặc từ “tin” trong ngữ: “nhắn tin”, “tin sốt dẻo”, …; chứ máy không bị nhầm lẫn với hình vị “tin” trong các từ “tin mừng”, “tin tức”, “thông tin” hay á-hình vị “tin” trong “căn-tin”, … Tương tự, khi tìm từ “quan tài”, máy sẽ không nhầm với cụm “quan tài” trong câu “một ông quan tài giỏi”.
2.2.2. Khảo sát theo từ loại:
Chúng ta có thể tìm kiếm từ theo từ loại của nó, ví dụ: tìm động từ “tin”: máy sẽ tìm ra đúng động từ “tin” nằm độc lập trong các trường hợp như: “chúng ta tin rằng…”; hoặc tìm danh từ “tin” trong các ngữ: “nhắn tin”, “tin sốt dẻo”, …; Tương tự cho việc tìm tính từ “tốt” thì máy sẽ không nhầm lẫn với danh từ “tốt”.
2.2.3. Khảo sát cách dùng từ qua chuỗi đồng hiện (concordance):
Một từ có thể có nhiều nghĩa khác nhau, nghĩa cụ thể của từ phụ thuộc vào ngữ cảnh của từ (context). Chính vì vậy, khi xem xét nghĩa/cách dùng của một từ nào đó, ta cần xem xét ngữ cảnh tương ứng của nó. Ví dụ: cách chọn âm tiết “máy” thì chương trình sẽ hiện ra tất cả các câu có chứa âm tiết “máy” để học viên thấy được (hình 4) hay từ “sử dụng” (hình 5).
2.2.4. Khảo sát chuỗi ngôn từ (collocation):
Trong thực tế, người nước ngoài rất khó hiểu/khó nhớ những cụm từ mà người Việt dùng chung với nhau, chẳng hạn: đỏ lòm/lè, tím ngắt/lè; gà trống/đực, dê đực/trống; súc miệng/mồm, … Chính vì vậy, với VCor, qua việc khảo sát trực quan các chuỗi ngôn từ này, sẽ giúp người học biết cách dùng từ thích hợp trong ngữ cảnh thích hợp, biết được tính từ nào sẽ dùng với danh từ nào, động từ nào dùng với danh từ nào, trạng từ nào đi với động từ nào, …

Hình 4. Tìm kiếm theo âm tiết

Hình 5. Tìm kiếm theo từ
KẾT LUẬNBằng cách khai thác ngữ liệu tiếng Việt, chúng ta có thể xác định được vốn âm tiết và vốn từ cơ bản (theo từ loại thông dụng) để ứng dụng trong việc xây dựng bộ giáo trình, bộ từ vựng phù hợp cho từng cấp độ của người học tiếng Việt. Ngoài ra, qua việc quan sát cách dùng trong thực tế từ kho ngữ liệu này, học viên sẽ tự “nghiệm” ra cách dùng từ, các quy luật của tiếng Việt, nắm bắt được những tri thức ngôn ngữ mà các cách tiếp cận truyền thống khó có thể thể bao quát hết được. Nếu kho ngữ liệu tiếng Việt này được đầu tư để tăng cường số lượng, chủng loại và gán thêm nhiều tri thức ngôn ngữ nữa thì hiệu quả khai thác càng tăng gấp bội.
TÀI LIỆU THAM KHẢO
<1>. https://www.thanglon39.com/resources/.
<2>. Viện Ngôn ngữ học (Hoàng Phê chủ biên), “Từ điển tiếng Việt”, NXB Đà Nẳng, 1980.
<3>. Đinh Điền, “Xây dựng và khai thác ngữ liệu song ngữ Anh-Việt điện tử”, luận án tiến sĩ ngôn ngữ học so sánh, ĐH Khoa học Xã hội & Nhân văn, ĐHQG Tp. HCM, 3/2005.
<4>. A.S.Hornby, “Oxford Advanced Learner’s Dictionary 8th edition with Vietnamese translation” (Đinh Điền chủ biên dịch), NXB Trẻ Tp.HCM, 2014.
Xem thêm: Sinh Mổ Lần 2 Vào Tuần Bao Nhiêu ? Sinh Mổ Lần 2 Nên Mổ Ở Tuần Bao Nhiêu
———————————————-
(*) Nội dung bài viết này được trích từ công trình: Đinh Điền, Hồ Xuân Vinh, “Ứng dụng Kho Ngữ liệu trong việc day tiếng Việt cho người nước ngoài”, hội thảo quốc tế Giảng dạy, Nghiên cứu Việt Nam học và tiếng Việt, 1/2016, Bình Châu, Bà Rịa – Vũng Tàu, tr. 172-180.