Bài 2: Mô hình xác suất của tổng thể và mẫu


Mời các bạn cùng tham khảo nội dung bài giảng Bài 2: Mô hình xác suất của tổng thể và mẫu sau đây để tìm hiểu về đại lượng ngẫu nhiên gốc và phân phối gốc, các tham số của đại lượng ngẫu nhiên gốc, mẫu ngẫu nhiên, phương pháp mô tả số liệu mẫu.

Tóm tắt lý thuyết

Ta có thể dùng công cụ toán học để mô tả và khái quát các khái niệm: tổng thể, dấu hiệu nghiên cứu và mẫu đã nêu ở phần trên. Tức là xây dựng mô hình toán học của chúng.

1. Đại lượng ngẫu nhiên gốc và phân phối gốc

Từ bảng ta thấy có thể mô hình hóa dấu hiệu X* bằng một đại lượng ngẫu nhiên.

Thật vậy, nếu lấy ngẫu nhiên từ tổng thể ra một phần tử và gọi X là giá trị của dấu hiệu X* đo được trên phần tử lấy ra đó thì X là đại lượng ngẫu nhiên có phân phối xác suất như sau:

X x1 x2 .... xi .... xk
P p1 p2 .... pi .... pk

Bảng 6.5

Như vậy dấu hiệu mà ta nghiên cứu (X*) được mô hình hóa bởi đại lượng ngẫu nhiên X. Phân phối xác suất của X được gọi là phân phối gốc. Từ bảng ta thấy có thể mô hình hoá dấu hiệu X bằng một đại lượng ngẫu nhiên.

2. Các tham số của đại lượng ngẫu nhiên gốc

Kỳ vọng toán: Với phân phối xác suất (6.5) của X. Theo định nghĩa, kỳ vọng toán của X sẽ là:

\(E(X) = \sum\limits_{i = 1}^k {{x_i}{p_i}} \)

So sánh ta thấy trung bình của tổng thể chính là kỳ vọng toán của đại lượng ngẫu nhiên X.

Phương sai: Theo định nghĩa của phương sai ta có:

\(V{\rm{ar}}(X) = {\sum\limits_{i = 1}^k {\left[ {{x_i} - E(X)} \right]} ^2}{p_i}\)

Nhưng \(E(X) = \mu \). Do đó:

\(V{\rm{ar}}(X) = {\sum\limits_{i = 1}^k {\left( {{x_i} - \mu } \right)} ^2}{p_i}\)

So sánh ta thấy phương sai của đại lượng ngẫu nhiên X chính là phương sai của tổng thể: \(V{\rm{ar}}(X) = {\sigma ^2}\)

3. Mẫu ngẫu nhiên

Giả sử lấy ra n phần tử từ tổng thể, tạo nên một mẫu có kích thước n theo phương pháp có hoàn lại. Gọi Xi là giá trị của giá trị của dấu hiệu X* đo được phần tử thứ i (i= 1,2..... n). Vì các phần tử được lấy ra theo phương thức có lặp nên X1, X2, . . , Xn là các đại lượng ngẫu nhiên độc lập, có phân phối xác suất giống với phân phối xác suất của X.

Vậy n phần tử thuộc mẫu, nếu gạt bỏ các hình thức cụ thể, được mô tả bằng n đại lượng ngẫu nhiên: X1, X2,. . ., Xn. Do đó ta có thể khái quát để định nghĩa mẫu ngẫu nhiên như sau:

Cho đại lượng ngẫu nhiên X với phân phối xác suất nào đó. Một mẫu ngẫu nhiên kích thước n được thành lập từ đại lượng ngẫu nhiên X là n đại lượng ngẫu nhiên độc lập, có cùng phân phối xác suất với đại lượng ngẫu nhiên X.

Ký hiệu mẫu ngẫu nhiên kích thước n được xây dựng từ đại lượng ngẫu nhiên X là: Wx = (X1, X2,.... Xn)

Thực hiện một phép thử đối với mẫu ngẫu nhiên Wx, tức là thực hiện một phép thử đối với mỗi thành phần (Xi) của mẫu. (trong thực tế thường là lấy ra n phần tử cụ thể từ tổng thể). Giả sử Xi nhận giá trị xi (i = 1, 2, .... n). Các giá trị x1, x2, . . . ., xn tạo thành một giá trị của mẫu ngẫu nhiên, hay còn được gọi là một mẫu cụ thể. Ký hiệu là Wx = (x1, x2, .. ., xn)

Thí dụ 1: Kết quả thi môn toán của một lớp gồm 50 sinh viên như sau:

Điểm thi 4 5 6 7 9
Số sinh viên có điểm tương ứng 8 15 13 9 5

Bảng 6.6

Gọi X là điểm thi môn toán của một sinh viên chọn ngẫu nhiên trong danh sách của lớp thì X là đại lượng ngẫu nhiên có phân phối xác suất như sau:

X 4 5 6 7 9
P 0,16 0,3 0,26 0,18 0,1

Bảng 6.7

Ta coi 50 sinh viên của lớp này là một tổng thể (kích thước của tổng thể N = 50). Từ lớp này ta lấy một mẫu gồm 5 học sinh. Gọi \({X_i}(i = \overline {1,5} )\) là điểm thi môn toán của sinh viên thứ i được lấy vào mẫu. Vậy ta có mẫu ngẫu nhiên kích thước n = 5 được xây dựng từ đại lượng ngẫu nhiên X:

\(W_X = (X_1,X_2, X_3, X_4, X_5)\)

Thực hiện một phép thử đối với mẫu ngẫu nhiên này, tức chọn ngẫu nhiên (có hoàn lại) 5 sinh viên của lớp. Giả sử điểm thi của sinh viên thứ nhất là 5; của sinh viên thứ hai là 9; của sinh viên thứ ba là 5; của sinh viên thứ tư là 7 và của sinh viên thứ năm là 4, thì ta có một mẫu cụ thể là:

\(W_X = (5, 9, 5, 7,4)\)

Thực hiện một phép thử khác đối với WX (tức chọn 5 sinh viên khác của lớp) ta lại được một mẫu cụ thể khác, chẳng hạn:

\(W_X = (4, 7, 9, 9, 5)\)

Nếu kích thước mẫu lớn, việc trình bày một cách cụ thể kết quả quan sát như trên là không thuận tiện. Trong trường hợp này ta sử dụng các khái niệm: giá trị của dấu hiệu X* (xi); tần suất của xi (pi) đã nêu ở phần trên để trình bày mẫu cụ thể dưới dạng bảng.

Để phân biệt với các ký hiệu của tổng thể. Đối với mẫu ta dùng các ký hiệu sau đây:

ni: Tần số của xi;       \({f_i} = \frac{{n{}_i}}{n}\): Tần suất của xi

Thí dụ 2: Từ bảng (6.4) ta thấy thu nhập của công nhân ngành cao su có thể mô hình hoá bởi đại lượng ngẫu nhiên X với bảng phân phối xác suất như sau:

X 2,5 3,5 4,5 5,5 6,5 7,5 9
P 0,10 0,14 0,30 0,24 0,11 0,06 0,05

Bảng 6.8

Trong thực tế ta thường chưa biết được bảng này (vì muốn có được bảng đó ta phải điều tra về thu nhập của toàn bộ 500.000 công nhân ngành cao su). Vì vậy người ta dự định điều ưa về thu nhập của 500 công nhân được chọn trong số 500.000 công nhân của toàn ngành một cách ngẫu nhiên, có hoàn lại.

Gọi Xi là “Thu nhập của công nhân thứ i được đưa vào mẫu” \((i = \overline {1,500} )\). Như vậy ta có 500 đại lượng ngẫu nhiên: X1, X2,..., X500, độc lập, có cùng phân phối xác suất với X. Tức ta có mẫu ngẫu nhiên:

WX = (X1,X2,...,X500)

được xây dựng từ đại lượng ngẫu nhiên gốc X.

Thực hiện một phép thử đối với mẫu WX, tức điều ưa thu nhập của 500 công nhân cụ thể. Giả sử kết quả điều ưa cho ở bảng sau:

xi 2,5 3,5 4,5 5,5 6,5 7,5 8,5
ni 50 75 105 160 60 40 10

Bảng 6.9

Như vậy, bảng trên là một mẫu cụ thể (kích thước mẫu n = 500) được chọn từ tổng thể có kích thước N = 500.000

Nếu điều ưa thu nhập của 500 công nhân khác ta lại có một mẫu cụ thể khác (một giá trị khác) của mẫu ngẫu nhiên WX

Như vậy, mẫu ngẫu nhiên có thể phản ánh được kết quả điều ưa thực nghiệm. Bởi vì các kết quả này được coi là một giá trị của nó. Tức là khái quát được thực nghiệm. Quan hệ giữa mẫu ngẫu nhiên và mẫu cụ thể (hay một giá trị của nó) tương tự như quan hệ giữa đại lượng ngẫu nhiên và một giá trị có thể nhận của nó.

4. Phương pháp mô tả số liệu mẫu

Mô tả mẫu bằng bảng phân phối tần số thực nghiệm:

xi x1 x2 .... xk
ni n1 n2 .... nk

Bảng 6.10

Đối với bảng trên, ta luôn có: \(\sum\limits_{i = 1}^k {{n_i}} = n\)

Mô tả mẫu bằng bảng phân phối tần suất thực nghiệm:

xi x1 x2 .... xk
fi f1 f2 .... fk

Bảng 6.11

Trong đó: \({f_i} = \frac{{{n_i}}}{n}\). Đối với bảng trên, ta luôn có: \(\sum\limits_{i = 1}^k {{f_i} = 1} \)

Để mô tả số liệu mẫu một cách rõ ràng hơn, cho phép ta đưa ra những nhận xét sơ bộ ban đầu về tổng thể, người ta còn xây dựng các loại đồ thị khác nhau của phân phối thực nghiệm.

  • Đa giác tần số: Là một đường gãy khúc nối các điểm (x1, n2), (x2,n2),..,(xk, nk).
  • Đa giác tần suất: Là một đường gãy khúc nối các điểm (x1, f1), (x2, f2),..., (xk, fk)

Thí dụ: Vẽ đa giác tần suất của phân phối thực nghiệm sau:

xi 1 3 5 7
fi 0,1 0,3 0,4 0,2

Đa giác tần suất có dạng:

Hình 6.12

Đa giác tần suất thường được dùng để mô tả các số liệu mẫu theo thời gian.

  • Biểu đồ tần số: Khi dấu hiệu nghiên cứu có phân phối liên tục, thì khoảng chứa các giá trị quan sát của mẫu được chia thành một số khoảng có chiều dài bằng h và ứng với mỗi khoảng ta tính số quan sát thuộc khoảng này, tức là tính tần số (ni) tương ứng với từng khoảng. Biểu đồ tần số là biểu đồ dạng bậc thang tạo nên bởi nhiều hình chữ nhật có đáy bằng h và chiều cao bằng \(\frac{{{n_i}}}{h}\). Lúc đó diện tích hình chữ nhât sẽ bằng: \(h.\frac{{{n_i}}}{h} = {n_i}\). Vậy diện tích của tất cả các hình chữ nhật sẽ bằng kích thước mẫu n.

Tương tự, biểu đồ tần suất là biểu đồ dạng bậc thang tạo nên bởi nhiều hình chữ nhật có đáy bằng h và có chiều cao là \(\frac{{{f_i}}}{h}\). Lúc đó diện tích của hình chữ nhật thứ i sẽ bằng: \(h.\frac{{{f_i}}}{h} = {f_i}\). Vây diên tích của tất cả các hình chữ nhật sẽ bằng 1.

Thí dụ: Vẽ biểu đồ tần suất của phân phối thực nghiệm cho ở bảng sau:

xi - xi + 1 ni \(\frac{{{n_i}}}{h}\)

5-10

10-15

15-20

20-25

4

6

16

36

0,8

1,2

3,2

7,2

 

xi - xi + 1 ni \(\frac{{{n_i}}}{h}\)

25-30

30-35

35-40

24

10

4

4,8

2,0

0,8

Biểu đồ tần suất có dạng như sau:

Hình 6.13

Biểu đồ hình bánh xe: Đối với các dấu hiệu định tính thì người ta thường mô tả số liệu mẫu bằng biểu đồ hình bánh xe. Đó là một hình tròn được chia thành các phần tương ứng với tỷ lệ các bộ phận trong mẫu.

Thí dụ: Điều tra ngẫu nhiên 100 khách hàng của một doanh nghiệp thì thấy khách hàng được phân chia theo tỷ lệ sau về tầng lớp xã hội: (bảng 6.14)

Tầng lớp xã hội Số khách hàng Tỷ lệ

Công nhân

Nông dân

Thương nhân

Trí thức

35

40

15

10

0,35

0,40

0,15

0,10

Tổng số 100 1,00

Biểu đồ hình bánh xe phản ánh cơ cấu của 100 khách hành như sau:

Hình 6.15

Đồ thị phân phối mẫu có thể vẽ dễ dàng nếu ta sử dụng các phần mềm thống kê như Excel, SPSS,