Tiếng Việt Có Bao Nhiêu Từ

  -  

Trong phân tích này, Shop chúng tôi áp dụng 2 kho ngữ liệu tiếng Việt (thương hiệu là VTB cùng VCor) do Trung trung ương Ngôn ngữ học tập Tính toán – ĐH Khoa học tập Tự nhiên – Tp.Hồ Chí Minh (viết tắt là thanglon39.com)<1> cung cấp. Ngữ liệu này được tích lũy từ các trang báo điện tử (www.tuoitreonline, www.vnexpress.net,…) vào tiến trình từ thời điểm năm 2000 quay trở lại phía trên. Các ngữ liệu này đã làm được chuẩn chỉnh hóa về mã (utf-8), dạng XML trong các số đó bao gồm những thẻ (tag) để đánh dấu từng câu (SEG id), từng đoạn (PARA), từng tập tin (DOC docid), ngữ điệu (Language) cùng nghành (Domain). Ngữ liệu VTB đã có được chú thích (annotate) thủ công bằng tay cùng với nhãn nhãi ranh giới từ bỏ giờ Việt, nhãn tự một số loại (POS) và nhãn thực thể mang tên (Named Entity). Còn ngữ liệu VCor chỉ được chú thích auto nhãn rạng rỡ giới trường đoản cú (do size quá lớn). Xin coi hình 1 minc họa bên dưới:

Nguyên_nhân/Nn/O là/Vc/O bão/Nn/O số/Nn/O 10/An/O đang/R/O chịu/Vv/O ảnh_hưởng/Nn/O bởi/Cp/O hệ_thống/Nn/O trục/Nn/O rãnh/Nn/O cao/Aa/O và/Cp/O sự/Nc/O lôi_kéo/Vv/O từ/Cm/O siêu__bão/Nn/TRM_B Melor/Nr/TRM_I ở/Cm/O ngoài/Cm/O khơi/Nn/O Philippines/Nr/LOC_B ./PU/O

Theo/Vv/O ông/Nn/TTL_B Bùi_Minh_Tăng/Nr/PER_B -/PU/O giám_đốc/Nn/DES_B Trung_tâm/Nn/ORG_B Dự_báo/Vv/ORG_I khí_tượng/Nn/ORG_I thuỷ_văn/Nn/ORG_I trung_ương/Aa/ORG_I ,/PU/O bão/Nn/O số/Nn/O 10/An/O có/Ve/O hướng/Nn/O di_chuyển/Vv/O và/Cp/O diễn_biến/Vv/O rất/R/O phức_tạp/Aa/O ,/PU/O có_thể/Aa/O thay_đổi/Vv/O so/Vv/O với/Cp/O nhận_định/Nn/O ban_đầu/Nn/O ./PU/O

VCor:

id=’00001’> Chính_sách của Nhà_nước là đầu_tứ xây_dựng nhà chung_cư xuất bán cho người dân có thu_nhập thấp , tuy nhiên rốt_cục lại ko được quản_lý tốt

Hình 1. Ngữ liệu VTB cùng VCor của thanglon39.com

VTB có 201.594 câu, 5.501.225 lượt từ bỏ, độ nhiều năm vừa đủ từng câu là 27,3 từ bỏ và tổng số các từ/chuỗi (token) khác nhau là 118.455. Ngữ liệu VCor gồm 17.095.994 câu (42 lĩnh vực), gồm 346.454.533 từ và 443.301.776 chữ (tiếng/âm tiết), vừa phải mỗi câu có khoảng đôi mươi tự, mỗi từ có một,28 âm máu cùng từng âm máu dài 3,27 con chữ. Các âm tiết của tự đa huyết được nối với nhau bằng 1 vệt gạch ốp dưới (vd: nguyên_nhân) cùng những nhiều từ bỏ phái sinc được nối với nhau bởi 2 vệt gạch bên dưới (vd: siêu__bão). Khái niệm “Từ” sinh sống đây là “rảnh rỗi điển” (theo từ bỏ điển tiếng Việt <2>). Nhãn trường đoản cú nhiều loại cùng nhãn thực thể có tên kế thừa tự công trình xây dựng <3>.

Bạn đang xem: Tiếng việt có bao nhiêu từ

1. THỐNG KÊ TRÊN KHO NGỮ LIỆU TIẾNG VIỆT

Từ kho VCor, chúng ta cũng có thể thống kê để đúc kết trường đoản cú điển tần số tiếng với từ bỏ điển tần số từ bỏ. Từ VTB chúng ta những thống kê đúc rút tần suất tự theo từ một số loại của chúng. Dưới đấy là một vài kết quả thống kê lại được tự kho VCor cùng VTB:

1.1. Thống kê gia tốc âm tiết giờ đồng hồ Việt vào VCor:

Trong kho ngữ liệu VCor, những âm máu lộ diện cùng với tần suất khác biệt. Tần suất được tính bởi công thức f = –lg (n/N) với n là chu kỳ lộ diện của âm ngày tiết với N là tổng cộng âm ngày tiết trong ngữ liệu VCor. Ví dụ: vào 100 triệu âm tiết, âm máu “và” lộ diện 1 triệu lần thì f sẽ là –lg(10exp6/10exp8) = 2. Nếu con số này càng nhỏ (bé dại tuyệt nhất là 0), Tức là âm tiết đó xuất hiện càng những và ngược lại (lớn số 1 là 8, trường hợp âm huyết kia chỉ lộ diện 1 lần).


Stt

Âm tiết

f

n

1

1,921

5.317.402

2

của

1,923

5.292.970

3

1,946

5.019.951

4

2,029

4.146.670

5

một

2,056

3.896.722

6

các

2,060

3.860.997

7

không

2,082

3.670.282

8

được

2,105

3.480.964

9

trong

2,119

3.370.540

10

cho

2,139

3.218.841

Bảng 1. Tần suất âm máu trong VCor.

Theo đó, 1% các âm ngày tiết thông dụng tốt nhất (khoảng tầm 70 âm tiết) chiếm phần hơn 30% số lượt âm máu lộ diện vào VCor. 10% những âm huyết phổ cập tuyệt nhất (khoảng 700 âm tiết) chiếm phần rộng 80% số lượt âm ngày tiết lộ diện vào VCor.

Hình 2. Tần suất âm tiết trong VCor.


1.2. Thống kê tần suất từ tiếng Việt vào VCor:

Trong ngữ liệu thực tế VCor, ta thấy những trường đoản cú lộ diện những nhất chính là các lỗi từ bỏ, rồi mới mang đến những thực từ nhỏng “tín đồ, sinh hoạt, tôi, năm, có tác dụng, ông, anh, việc, …”.


Stt

Từ

f

n

1

1,820

5.243.802

2

của

1,822

5.219.708

3

1,956

3.833.948

4

các

1,959

3.807.556

5

1,968

3.729.463

6

một

1,986

3.578.049

7

được

2,012

3.370.127

8

không

2,031

3.225.865

9

trong

2,043

3.137.952

10

cho

2,050

3.087.779


Bảng 2a. Thống kê tần suất từ bỏ trong VCor.

Theo kia, 1% những từ thịnh hành duy nhất (khoảng 330 từ) lại chiếm phần rộng 55% số lượt trường đoản cú xuất hiện vào VCor. 10% các tự thông dụng nhất (khoảng 3.300 từ) chiếm phần rộng 90% số lượt trường đoản cú áp dụng vào VCor.


Stt

Từ

f

n

..

..

 

14

người

2,160

2.396.880

15

2,210

2.136.221

20

tôi

2,314

1.681.304

31

năm

2,401

1.376.088

32

làm

2,423

1.308.116

33

ông

2,436

1.269.540

36

anh

2,464

1.190.272

44

việc

2,530

1.022.460

55

nước

2,611

848.489

60

tất cả thể

2,660

757.960


Bảng 2b. Thống kê tần suất tự vào VCor

Hình 3. Thống kê gia tốc mở ra của tự giờ đồng hồ Việt vào VCor.


So sánh bảng 1 cùng 2, ta thấy trong VCor con số trường đoản cú “và” mở ra (5.243.802 lần) ít hơn số lượng tiếng “và” (5.317.402 lần) do giờ đồng hồ “và” có thể lộ diện trong vô số đơn vị chức năng khác nữa quanh đó trường đoản cú “và”, như: “tầy và”, “chà và”,…Tương từ cho các ngôi trường đúng theo còn lại.

1.3. Thống kê gia tốc trường đoản cú giờ đồng hồ Việt vào VTB:

Trong ngữ liệu VTB, ta hoàn toàn có thể thống kê gia tốc của tự xuất hiện theo từ nhiều loại của chúng.


Stt

Từ

POS

f

n

1

của

Cm

1,820

77.936

2

Cp

1,822

77.360

3

các

Nq

1,956

57.144

4

Ve

1,959

53.614

5

Vc

1,968

52.207

6

trong

Cm

1,986

49.867

7

một

Nq

2,012

47.037

8

đã

R

2,031

45.503

9

những

Nq

2,043

43.878

10

không

R

2,050

42.888


Bảng 3. Thống kê tần suất từ vào VTB.

Xem thêm: Túi Mật Gấu Khô Giá Bao Nhiêu Tiền 1Cc, Mật Gấu Giá Bao Nhiêu

Ví dụ: tự “tốt” lộ diện 3.624 lần cùng với bốn bí quyết là “tính từ” (tốt đẹp) và 2 lần cùng với tư cách là danh trường đoản cú (nhỏ tốt). Tương trường đoản cú mang đến hệ từ bỏ “là” lộ diện cao hơn nữa những đối với tự loại đụng tự, kết từ, trợ tự của chính nó.


Stt

Từ

POS

f

n

3.775

của

Nn

4,6789

115

368

M

3,4268

2.059

đôi mươi.793

Vv

6,1384

4

39.212

các

Vv

6,7405

1

3.224

M

4,5731

147

103

R

2,9803

5.756

19.385

Vv

6,0415

5

5.290

Cs

4,9209

66

143

Cp

3,0857

4.516

1.749

M

4,1842

360

186

tốt

Aa

3,1813

3.624

25.154

tốt

Nn

6,4394

2


Bảng 4. Thống kê tần suất từ trong VTB

Trong đó: Cm: giới từ; Cp: liên từ; Nq: số trường đoản cú, Ve: rượu cồn tự tồn tại; Vc: hệ từ; R: trạng từ; Nn: danh từ bỏ, Vv: động trường đoản cú, Aa: tính tự, M: trợ tự.


2. ỨNG DỤNG TRONG GIẢNG DẠY TIẾNG VIỆT

Từ nhì kho ngữ liệu VCor cùng VTB và những hiệu quả thống kê lại của nó, chúng ta có thể khai quật nhằm Ship hàng mang đến Việc huấn luyện và giảng dạy tiếng Việt nhỏng sau:

2.1. Xác định vốn trường đoản cú vựng cơ bản

Trong đào tạo và huấn luyện tiếng, phần tự vựng – ngữ âm chắc chắn rằng buộc phải được thực hiện đầu tiên. Riêng đối với giờ đồng hồ Việt là thiết bị giờ 1-1 lập, đối kháng huyết tính và là máy tiếng thu thanh vị, nên âm ngày tiết sẽ là đơn vị cơ bạn dạng cần cẩn thận Khi huấn luyện và giảng dạy tiếng Việt.

2.1.1. Xây dựng vốn âm tiết cơ bản:

Chúng ta yêu cầu xác định vốn âm huyết cơ phiên bản cân xứng với người học tập phụ thuộc kết cấu (trường đoản cú dễ phát âm mang lại khó) cùng độ phổ biến của âm tiết. Từ hiệu quả những thống kê tại đoạn 1.1, ta vẫn đúc rút được list 700 âm ngày tiết phổ biến tốt nhất trong tiếng Việt (chỉ chiếm 80% lượt âm máu lộ diện vào thực tế). Dựa vào list này, ta thi công được vốn âm tiết cân xứng cho tất cả những người học theo chuyên môn để chúng ta hoàn toàn có thể nghe, nói, đọc, viết hối hả giờ Việt (tuy thế không biết nghĩa).

2.1.2. Xây dựng vốn từ bỏ cơ bản:

Tương từ, họ buộc phải xác định vốn tự cơ bản tương xứng với những người học phụ thuộc độ phổ cập của tự. Từ tác dụng những thống kê ở trong phần 1.2, ta đang đúc rút được list 3.300 từ bỏ thịnh hành nhất vào giờ đồng hồ Việt (chiếm hơn 90% lượt trường đoản cú xuất hiện vào văn bản). Dựa vào danh sách này, họ xuất bản được vốn từ bỏ tương xứng cho người học theo trình độ chuyên môn để bọn họ rất có thể phát âm đọc được văn uống bạn dạng giờ Việt. Tuy nhiên, giờ Việt họ có không ít tự (đơn tiết) đồng âm, đề nghị nhằm xác minh được nghĩa của từ bỏ, vào đa phần những trường hòa hợp ta có thể phụ thuộc vào từ bỏ một số loại. Ví dụ: “tốt” (danh từ/tính từ); “tôi” (đại từ/đụng từ); … Vì vậy, để chọn nghĩa phổ biến mang lại tương xứng với chuyên môn người học tập, ta đề nghị sử dụng list 1.3 đang đúc kết được nhằm xây đắp được vốn trường đoản cú cân xứng cho từng chuyên môn. Ví dụ: trình độ chuyên môn rẻ vẫn học tập từ “tốt” với từ loại tính từ, tự “tôi” cùng với từ loại đại trường đoản cú.

2.1.3. Xây dựng giáo trình/từ điển theo trình độ:

Từ phần lớn kết quả bên trên, bạn cũng có thể gây ra được giáo trình đựng hầu như từ bỏ thường dùng. Tập từ cơ bạn dạng này cũng sẽ được dùng để giải thích/khái niệm các trường đoản cú nặng nề rộng trong phần tự vựng của giáo trình tuyệt trong tự điển tiếng Việt lý giải. Đây là điều nhưng mà tự điển Oxford OALD8 <4> đã áp dụng Lúc phân tích và lý giải số đông mục từ bỏ chỉ qua 3.000 trường đoản cú cơ bản. Ví dụ:

Với cách thức này, ta có thể tránh khỏi câu hỏi định nghĩa/giải thích một tự mức độ vừa phải bằng một từ khó khăn rộng cơ mà ta hay gặp mặt trong các từ điển lý giải giờ đồng hồ Việt. Ví dụ: từ bỏ “đường” (sugar) trong từ bỏ điển tiếng Việt định nghĩa là “một chất kết tinh gồm vị ngọt”<2>.

2.2. Quan gần cạnh bí quyết cần sử dụng từ

Việc học trường đoản cú vựng chẳng thể tách bóc rời ra khỏi ngữ cảnh, vì vậy, chúng ta cũng có thể áp dụng ngữ liệu VCor và VTB nhằm học viên quan lại ngay cạnh biện pháp dùng từ vào ngữ chình họa thực tiễn như sau:

2.2.1. Tìm theo như hình thái từ:

Do đặc thù của giờ đồng hồ Việt, nên lúc họ thực hiện các lao lý tra cứu kiếm, những thống kê ngôn ngữ của tiếng Anh, bọn họ sẽ không thể xác minh đúng được hình hài của chuỗi vẫn tìm (vày trong hình thức giờ đồng hồ Anh, từng tiếng sẽ được xem từ). Còn trong ngữ liệu VCor, vì gồm gán nhãn hình hài tự, cần việc tìm kiếm kiếm tiếng Việt vẫn hiệu quả rộng. lấy một ví dụ ta mong mỏi tra cứu từ bỏ “tin”: trang bị sẽ tìm thấy tự “tin” ở chủ quyền (như: “tin điều đó…”, “tin bắt đầu nhận”), hoặc từ bỏ “tin” trong ngữ: “nhắn tin”, “tin nóng dẻo”, …; chứ đọng thứ không xẩy ra nhầm lẫn cùng với hình vị “tin” trong những trường đoản cú “tin mừng”, “tin tức”, “thông tin” giỏi á-hình vị “tin” vào “căn-tin”, … Tương trường đoản cú, Khi kiếm tìm từ “quan liêu tài”, thứ sẽ không còn nhầm cùng với cụm “quan tài” trong câu “một ông thùng giỏi”.

2.2.2. Khảo ngay cạnh theo trường đoản cú loại:

Chúng ta hoàn toàn có thể tìm kiếm tìm trường đoản cú theo từ bỏ các loại của chính nó, ví dụ: tìm động từ bỏ “tin”: vật dụng đã tìm ra đúng đụng từ “tin” nằm chủ quyền trong các trường phù hợp như: “chúng ta tin rằng…”; hoặc kiếm tìm danh tự “tin” trong các ngữ: “nhắn tin”, “tin nóng dẻo”, …; Tương từ bỏ mang lại việc đào bới tìm kiếm tính từ bỏ “tốt” thì sản phẩm công nghệ sẽ không còn lầm lẫn cùng với danh trường đoản cú “tốt”.

2.2.3. Khảo cạnh bên giải pháp dùng trường đoản cú qua chuỗi đồng hiện (concordance):

Một từ bỏ rất có thể có nhiều nghĩa không giống nhau, nghĩa rõ ràng của tự phụ thuộc vào vào ngữ cảnh của tự (context). Chính vì vậy, lúc xem xét nghĩa/biện pháp dùng của một từ như thế nào kia, ta buộc phải để mắt tới ngữ cảnh tương ứng của nó. Ví dụ: phương pháp lựa chọn âm ngày tiết “máy” thì chương trình đang hiển thị toàn bộ những câu có chứa âm ngày tiết “máy” để học tập viên thấy được (hình 4) tuyệt trường đoản cú “sử dụng” (hình 5).

2.2.4. Khảo liền kề chuỗi ngôn từ (collocation):

Trong thực tiễn, fan quốc tế hết sức cực nhọc hiểu/cạnh tranh ghi nhớ đa số các từ nhưng mà tín đồ Việt dùng bình thường với nhau, chẳng hạn: đỏ lòm/ltrần, tím ngắt/lè; con kê trống/đực, dê đực/trống; súc miệng/mồm, … Chính vày vậy, cùng với VCor, qua câu hỏi điều tra trực quan tiền các chuỗi ngôn từ này, để giúp đỡ tín đồ học biết cách dùng từ thích hợp trong ngữ chình ảnh phù hợp, biết được tính từ nào đang sử dụng cùng với danh từ như thế nào, cồn từ nào cần sử dụng cùng với danh từ bỏ nào, trạng tự nào đi cùng với hễ từ làm sao, …

 

*

Hình 4. Tìm kiếm theo âm tiết

*

Hình 5. Tìm kiếm theo từ

KẾT LUẬN

Bằng giải pháp khai quật ngữ liệu tiếng Việt, bạn cũng có thể khẳng định được vốn âm ngày tiết cùng vốn từ cơ bạn dạng (theo tự loại thông dụng) để ứng dụng vào vấn đề xây dừng bộ giáo trình, bộ từ vựng phù hợp đến từng cấp độ của tín đồ học tập tiếng Việt. Bên cạnh đó, qua vấn đề quan tiền tiếp giáp bí quyết cần sử dụng vào thực tiễn từ bỏ kho ngữ liệu này, học viên đang tự “nghiệm” ra phương pháp cần sử dụng từ bỏ, những quy chế độ của giờ đồng hồ Việt, thâu tóm được đầy đủ tri thức ngôn ngữ nhưng mà những biện pháp tiếp cận truyền thống khó rất có thể thể bao hàm hết được. Nếu kho ngữ liệu giờ Việt này được đầu tư chi tiêu để tăng cường số lượng, chủng loại và gán thêm những tri thức ngôn ngữ nữa thì hiệu quả khai thác càng tăng gấp bội.

TÀI LIỆU THAM KHẢO

<1>. https://www.thanglon39.com/resources/.

<2>. Viện Ngôn ngữ học tập (Hoàng Phê công ty biên), “Từ điển giờ Việt”, NXB Đà Nẳng, 1980.

<3>. Đinh Điền, “Xây dựng với khai quật ngữ liệu tuy vậy ngữ Anh-Việt năng lượng điện tử”, luận án tiến sỹ ngôn từ học tập đối chiếu, ĐH Khoa học tập Xã hội và Nhân vnạp năng lượng, ĐHQG Tp. Hồ Chí Minh, 3/2005.

<4>. A.S.Hornby, “Oxford Advanced Learner’s Dictionary 8th edition with Vietnamese translation” (Đinc Điền chủ biên dịch), NXB Tthấp Tp.TP HCM, năm trước.

Xem thêm: Sinh Mổ Lần 2 Vào Tuần Bao Nhiêu ? Sinh Mổ Lần 2 Nên Mổ Ở Tuần Bao Nhiêu

 ———————————————-

(*) Nội dung nội dung bài viết này được trích trường đoản cú công trình: Đinch Điền, Hồ Xuân Vinh, “Ứng dụng Kho Ngữ liệu trong câu hỏi day tiếng Việt cho những người nước ngoài”, hội thảo nước ngoài Giảng dạy dỗ, Nghiên cứu giúp nước ta học tập cùng tiếng Việt, 1/năm nhâm thìn, Bình Châu, Bà Rịa – Vũng Tàu, tr. 172-180.