Bài 3: Các tham số đặc trưng của mẫu


Nội dung bài giảng Bài 3: Các tham số đặc trưng của mẫu sau đây sẽ giúp các bạn tìm hiểu về trung bình mẫu, phương sai mẫu, độ lệch chuẩn mẫu, tỷ lệ mẫu.

Tóm tắt lý thuyết

Khi nghiên cứu mẫu, người ta thường quan tâm đến các tham số đặc trưng sau đây:

1. Trung bình mẫu

Định nghĩa: Cho mẫu ngẫu nhiên kích thước n, được xây dựng từ đại lượng ngẫu nhiên \(W_X = (X_1, X_2,..., X_n).\)

Trung bình mẫu ngẫu nhiên (ký hiệu là \(\overline X \)) được định nghĩa:

\(\overline X = \frac{1}{n}\sum\limits_{i = 1}^n {{X_i}} \)

Do X1, X2,...Xn là các đại lượng ngẫu nhiên, theo định nghĩa trên thì \(\overline X \) là hàm của n đại lượng ngẫu nhiên X1, X2,...Xn nên \(\overline X \) cũng là một đại lượng ngẫu nhiên.

Nếu có mẫu cụ thể: WX = (X1, X2,..., Xn) thì ta sẽ tính được giá trị của \(\overline X \) (ký hiệu là \(\overline x \)).

\(\overline x \) được tính theo công thức:

\(\overline x = \frac{1}{n}\sum\limits_{i = 1}^n {{x_i}} \)

Như vậy \(\overline x \) là một giá trị của \(\overline X \), đồng thời là trung bình của mẫu cụ thể \(W_X=(X_1,X_2,...,X_n)\)

Tính chất: Nếu đại lượng ngẫu nhiên gốc X có kỳ vọng toán: \(E(X) = \mu \)

và phương sai: \(V{\rm{ar}}(X) = {\sigma ^2}\)

thì: \(E(\overline X ) = \mu \) và \(V{\rm{ar}}(\overline X ) = {\sigma ^2}/n\)

Thật vậy, theo tính chất của kỳ vọng toán, ta có: 

\(E\left( {\overline X } \right) = E\left( {\frac{1}{n}\sum\limits_{i = 1}^n {{X_i}} } \right) = \frac{1}{n}\sum\limits_{i = 1}^n {E\left( {{X_i}} \right)} = \frac{1}{n}.n.\mu = \mu \)

Để ý rằng các đại lượng ngẫu nhiên Xi độc lập, có cùng phân phối xác suất với đại lượng ngẫu nhiên gốc X.

Theo tính chất của phương sai thì:

\(V{\rm{ar}}\left( {\overline X } \right) = V{\rm{ar}}\left( {\frac{1}{n}\sum\limits_{i = 1}^n {{X_i}} } \right) = \frac{1}{{{n^2}}}\sum\limits_{i = 1}^n {V{\rm{ar}}\left( {{X_i}} \right)} = \frac{1}{{{n^2}}}.n.{\sigma ^2} = \frac{{{\sigma ^2}}}{n}\)

Như vậy, bất kể qui luật phân phối xác suất của đại lượng ngẫu nhiên gốc như thế nào, thống kê \({\overline X }\) cũng có kỳ vọng toán bằng kỳ vọng của đại lượng ngẫu nhiên gốc \([E(X)=E({\overline X })]\). Còn phương sai của \({\overline X }\) nhỏ hơn phương sai của đại lượng ngẫu nhiên gốc n lần. Nghĩa là các giá trị có thể có của \({\overline X }\) ổn định quanh kỳ vọng hơn các giá trị có thể có của X.

Nếu lấy căn bậc hai của \(var({\overline X })\) thì ta sẽ được độ lệch chuẩn \(\sigma (\bar X)\) phản ánh sai số ước lượng do đó người ta thường gọi nó là sai số chuẩn, ký hiệu là \(se({\overline X })\). Vậy:

\(se(\bar X) = \sigma (\bar X) = \sqrt {v{\rm{ar}}(\bar X)} = \frac{\sigma }{{\sqrt n }}\)

Ở trên ta luôn giả thiết rằng mẫu được rút ra từ tổng thể theo phương thức có hoàn lại. Nếu kích thước tổng thể là vô hạn hoặc kích thước tổng thể là hữu hạn nhưng n > 0,1N thì có thể lấy mẫu không hoàn lại mà không ảnh hưởng đến kết quả. Trường hợp n < 0,1N thì đối với các công thức trên phải sử dụng hệ so điều chỉnh do mẫu là không lặp. Khi đó ta có:

\(v{\rm{ar}}\left( {\overline X } \right) = \frac{{N - n}}{{N - 1}}.\frac{{{\sigma ^2}}}{n}\) và \(se\left( {\overline X } \right) = \sqrt {\frac{{N - n}}{{N - 1}}.\frac{{{\sigma ^2}}}{n}} \)

Thí dụ: Xem tổng thể là tập hợp gồm 5 công ty A, B, C, D, E với lợi nhuận (tỷ đồng/năm) lần lượt là: 29, 31, 32, 33, 36. Lấy mẫu ngẫu nhiên kích thước n = 4 từ tổng thể này. Tính kỳ vọng toán và phương sai của trung bình mẫu ngẫu nhiên trong hai trường hợp:

a- Chọn mẫu có lặp; b- Chọn mẫu không lặp.

Giải:

Trường hợp chọn mẫu có lặp:

Gọi X là lợi nhuận của một công ty chọn ngẫu nhiên từ tổng thể gồm 5 công ty A, B, C, D, E. Phân phối xác suất của X như sau:

X 29 31 32 33 36
P 0,2 0,2 0,2 0,2 0,2

Từ bảng phân phối xác suất của đại lượng ngẫu nhiên X, ta tính được:

\(E(X) = 0,2(29 + 31 + 32 + 33 + 36) = 32,2\)

\(Var(X) = 0,2(29^2 + 31^2 + 32^2 + 33^2 + 36^2) - (32,2)^2 = 5,36\)

Vậy:

\(E ({\overline X }) = E(X) = 32,2; \,\,\, var({\overline X }) = 5,36/4 = 1,34\)

Trường hợp chọn mẫu không lặp:

Có \(C_5^4 = 5\) cách chọn mẫu. Các trường hợp có thể xảy ra, giá trị trung bình mẫu (X) có thể nhận và các xác suất tương ứng được cho ở bảng sau:

Công ty được chọn vào mẫu Mẫu cụ thể Giá trị của  \(\overline X \)  Xác suất tương ứng
A,B,C,D WX=(29,31,32,33) 31,25 0,2
A,B,C,E WX=(29,31,32,36) 32 0,2
A,C,D,E WX=(29,32,32,36) 32,5 0,2
A,B,D,E WX=(29,31,33,36) 32,25 0,2
B,C,D,E WX=(31,32,33,36) 33 0,2

Từ kết quả của bảng trên, ta tính được:

\(E(\overline X ) = 0,2(31,25 + 32 + 32,5 + 32,25 + 33) = 32,2\)

\(Var(\overline X ) = 0,2[(31,25)^2 + (32)^2 + (32,5)^2 + (32,25)^2 + (33)^2] - (32,2)^2 = 0,335\)

ta cũng có thể tìm được kết quả trên bằng cách áp dụng công thức:

\(v{\rm{ar}}\left( {\overline X } \right) = \frac{{N - n}}{{N - 1}}.\frac{{{\sigma ^2}}}{n} = \left( {\frac{{5 - 4}}{{5 - 1}}} \right).\frac{{5,36}}{4} = 0,335\)

Phân phối xác suất của \({\overline X }\)

Phân phối xác suất của trung bình mẫu phụ thuộc vào phân phối xác suất của đại lượng ngẫu nhiên gốc. Người ta đã chứng minh được rằng: Nếu X có

phân phối chuẩn \(N(\mu ;{\sigma ^2})\) thì \(\overline X \) có phân phối chuẩn \(N(\mu ;{\sigma ^2/n})\)

2. Phương sai mẫu

Định nghĩa: Cho mẫu ngẫu nhiên WX = (X1, X2..... Xn)

Phương sai của nó (ký hiệu là S2) được định nghĩa:

\({S^2} = \frac{1}{{n - 1}}\sum\limits_{i = 1}^n {{{({X_i} - \overline X )}^2}} \)

Trong đó \(\overline X \) là trung bình của mẫu ngẫu nhiên.

Chú ý: Theo định nghĩa trên, ta thấy phương sai mẫu ngẫu nhiên là hàm của n đại lượng ngẫu nhiên X1, X2, . . . , Xn nên S2 cũng là một đại lượng ngẫu nhiên.

Nếu có mẫu cụ thể: WX = (x1, x2,..., xn) thì S2 sẽ nhận giá trị:

\({S^2} = \frac{1}{{n - 1}}\sum\limits_{i = 1}^n {{{({x_i} - \overline x )}^2}} \)

s2 gọi là phương sai của mẫu cụ thể.

Tính chất của S2

Do S2 là đại lượng ngẫu nhiên nên ta có thể tính E(S2).

Giả sử: \(E(X) = \mu ;\,\,V{\rm{ar}}(X) = {\sigma ^2}\)

Tacó: 

\(\begin{array}{l} {({X_i} - \overline X )^2} = {\left[ {\left( {{X_i} - \mu } \right) - \left( {\overline X - \mu } \right)} \right]^2}\\ = {\left( {{X_i} - \mu } \right)^2} - 2\left( {\overline X - \mu } \right).\left( {{X_i} - \mu } \right) + {\left( {\overline X - \mu } \right)^2} \end{array}\)

Do đó:

\(\frac{1}{n}{\sum\limits_{i = 1}^n {\left( {{X_i} - \overline X } \right)} ^2} = \frac{1}{n}{\sum\limits_{i = 1}^n {\left( {{X_i} - \mu } \right)} ^2} - 2\left( {\overline X - \mu } \right).\frac{1}{n}\sum\limits_{i = 1}^n {\left( {{X_i} - \mu } \right)} + {\left( {\overline X - \mu } \right)^2}\)

Vì: \(\frac{1}{n}\sum\limits_{i = 1}^n {\left( {{X_i} - \mu } \right)} = \frac{1}{n}\sum\limits_{i = 1}^n {{X_i} - \mu = } \overline X - \mu \)

Nên: \(2\left( {\overline X - \mu } \right).\frac{1}{n}\sum\limits_{i = 1}^n {\left( {{X_i} - \mu } \right)} = 2{\left( {\overline X - \mu } \right)^2}\)

Do đó: 

\(\frac{1}{n}{\sum\limits_{i = 1}^n {\left( {{X_i} - \overline X } \right)} ^2} = \frac{1}{n}{\sum\limits_{i = 1}^n {\left( {{X_i} - \mu } \right)} ^2} - {\left( {\overline X - \mu } \right)^2}\)

\(E({S^2}) = E\left[ {\frac{1}{{n - 1}}\sum\limits_{i = 1}^n {{{\left( {{X_i} - \overline X } \right)}^2}} } \right] = E\left\{ {\frac{n}{{n - 1}}\left[ {\frac{1}{{n - 1}}\sum\limits_{i = 1}^n {{{\left( {{X_i} - \overline X } \right)}^2}} } \right]} \right\}\)

\(= \frac{n}{{n - 1}}E\left[ {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{X_i} - \mu } \right)}^2} - {{\left( {\overline X - \mu } \right)}^2}} } \right]\)

\(= \frac{n}{{n - 1}}\left\{ {\frac{1}{n}\sum\limits_{i = 1}^n {E{{\left( {{X_i} - \mu } \right)}^2} - E\left[ {{{\left( {\overline X - \mu } \right)}^2}} \right]} } \right\}\)

Vì:

\(E({X_i}) = \mu (\forall i)\) nên \(E{({X_i} - \mu )^2} = V{\rm{ar}}({X_i}) = V{\rm{ar}}(X) = {\sigma ^2}\)

\(E(\overline X ) = \mu\) nên \(E\left[ {{{\left( {\overline X - \mu } \right)}^2}} \right] = V{\rm{ar}}\left( {\overline X } \right) = {\sigma ^2}/n\)

Do đó:

\(E({S^2}) = \frac{n}{{n - 1}}\left( {\frac{1}{n}.n.{\sigma ^2} - \frac{{{\sigma ^2}}}{n}} \right) = \frac{n}{{n - 1}}\left( {\frac{{n - 1}}{n}{\sigma ^2}} \right) = {\sigma ^2}\)

Như vậy, kỳ vọng toán của phương sai mẫu bằng phương sai của đại lượng ngẫu nhiên gốc X.

Định lý 1:

Giả sử \(X \sim N\left( {\mu ,{\sigma ^2}} \right)\) và Wx = (X1, X2, .... Xn) là mẫu ngẫu nhiên kích thước n được thành lập từ X. Khi đó:

  • \(\sum\limits_{i = 1}^n {\frac{{{{\left( {{X_i} - \mu } \right)}^2}}}{{{\sigma ^2}}}} \sim {\chi ^2}(n)\)
  • \(\frac{{(n - 1){S^2}}}{{{\sigma ^2}}} \sim {\chi ^2}(n - 1)\)

Định lý 2:

\(X \sim N\left( {\mu ,{\sigma ^2}} \right)\) thì \(\frac{{\overline X - \mu }}{{S/\sqrt n }} \sim T(n - 1)\)

Thí dụ: Quan sát số con ưong một gia đình ở một khu đô thị mới. Gọi X là số con trong một hộ gia đình. Cho biết bảng phân phối xác suất của X như sau:

X 0 1 2
P 0,2 0,3 0,5

Từ bảng phân phối xác suất của X ta dễ dàng tính được \(E(X) = \mu = 1,3\) và \(Var(X) - \sigma ^2= 0,61\)

Gọi Wx = (X1, X2) là mẫu ngẫu nhiên 2 chiều được thành lập từ X. Các đại lượng ngẫu nhiên X1, X2 độc lập, có phân phối xác suất giống X.

Đối với mẫu này, ta có phương sai mẫu:

\({S^2} = \frac{1}{{2 - 1}}\left[ {{{\left( {{X_1} - \overline X } \right)}^2} + {{({X_2} - \overline X )}^2}} \right]\)

Bảng sau đây liệt kê các giá trị của S2 và các xác suất tương ứng.

Mẫu cụ thể Giá trị của S2 Xác suất tương ứng
WX = (0; 0) 0 0,04
WX = (0; 1) 0,5 0,06
WX = (0; 2) 2 0,1
WX = (1; 0) 0,5 0,06
WX = (1; 1) 0 0,09
WX = (1; 2) 0,5 0,15
WX = (2; 0) 2 0,1
WX = (2; 1) 0,5 0,15
WX = (2; 2) 0 0,25

Trong bảng trên, các xác suất tương ứng được tính như sau:

\(P(X_1 = 0, X_2 = 0) = P(X_1 = 0)P(X_2 = 0) = 0,2 x 0,2 = 0,04 \)

\(P(X_1 = 0, X_2 = 1) = P(X_1 = 0)P(X_2 = 1) = 0,2 x 0,3 = 0,06\)

....

Bảng phân phối xác suất của S2:

S2 0 0,5 2
P 0,38 0,42 0,2

Vậy: E(S2) = 0 x 0,38 + 0,5 x 0,42 + 2 x 0,2 = 0,61 = \({\sigma ^2}\)

3. Độ lệch chuẩn mẫu

Độ lệch chuẩn của mẫu ngẫu nhiên (ký hiệu là S) là căn bậc hai của phương sai mẫu: \(S = \sqrt {{S^2}} \)

Nếu có mẫu cụ thể thì độ lệch chuẩn của mẫu cụ thể này là một giá trị của S (ký hiệu là s): \(s = \sqrt {{s^2}} \)

4. Tỷ lệ mẫu

Từ một tổng thể gồm N phần tử, trong đó có M phần tử có tính chất A. Ta lấy ngẫu nhiên n phần tử vào mẫu (lấy theo phương thức có hoàn lại). Gọi Xi (i = 1,2, .... n) là số phần tử có tính chất A trong lần lấy phần tử thứ i vào mẫu. Xi (i = 1, 2,..., n) là các đại lượng ngẫu nhiên chỉ có thể nhận một trong hai giá trị: Xi nhận giá trị 0 nếu phần tử thứ i lấy vào mẫu không có tính chất A; Xi nhận giá trị 1 nếu phần tử thứ i lấy vào mẫu có tính chất A.

Tỷ lệ mẫu ngẫu nhiên (ký hiệu F) được định nghĩa như sau:

\(F = \frac{1}{n}\sum\limits_{i = 1}^n {{X_i}} \)

Trong đó nA là tổng số phần tử có tính chất A có trong mẫu cụ thể; n là kích thước mẫu.

Như vậy f là giá trị của F và cũng là tỷ lệ các phần tử có tính chất A của mẫu cụ thể.