Bài 8: Kiểm định giả thiết về phân phối xác suất của đại lượng ngẫu nhiên


Mời các bạn cùng tham khảo nội dung bài giảng Bài 8: Kiểm định giả thiết về phân phối xác suất của đại lượng ngẫu nhiên sau đây để tìm hiểu về  phân phối xác suất của đại lượng ngẫu nhiên với các ví dụ minh họa.

Tóm tắt lý thuyết

Giả sử ta chưa biết phân phối xác suất của một đại lượng ngẫu nhiên X, cần kiểm định giả thiết:

H0: X có phân phối xác suất nào đó đã cho;

(Chú ý: Bảng phân phối xác suất của đại lượng ngẫu nhiên rời rạc cũng là phân phối xác suất của đại lượng ngẫu nhiên)

H1: X không có phân phối xác suất như giả thiết H0;

Ký hiệu: Pi = P(X = Xi) hoặc \({P_i} = P({x_i} \le X \le {x_{i + 1}})\,\,\,(i = \overline {1,k} )\)

Thực hiện n phép thử độc lập đối với đại lượng ngẫu nhiên X. Tần số lý thuyết của biến cố (X = xi) sẽ là n.Pi, tần số thực tế là ni. Hiệu (ni - nPi)2 có thể dùng làm cơ sở để xét xem phân phối của X có phải như giả thiết H0 đã nêu ra hay không.

K. Pearson đã chọn thống kê:

\({\chi ^2} = \sum\limits_{i = 1}^k {\frac{{{{\left( {{n_i} - n{P_i}} \right)}^2}}}{{n{P_i}}}} \)

làm tiêu chuẩn kiểm định.

Với n khá lớn có thể coi \({\chi ^2}\) có phân phối “Chi bình phương” với (k- r -1) bậc tự do. Trong đó r là số cắc tham số chưa biết đối với phân phối xác suất của X theo H0. (các tham số này phải được ước lượng bằng phương pháp hợp lý cực đại).

Miền bác bỏ giả thiết H0 với mức ý nghĩa \(\alpha\) là: \({{\rm{W}}_\alpha } = \left\{ {{\chi ^2}:{\chi ^2} > \chi _\alpha ^2} \right\}\)

Trong đó \({\chi _\alpha ^2}\) là giá trị của đại lượng ngẫu nhiên \({{\chi ^2}}\) với (k- r -1) bậc tự do thoả mãn điều kiện: \(P\left( {{\chi ^2} > \chi _\alpha ^2} \right) = \alpha \)

Ta có thể minh họa miền bác bỏ wa như sau:

Từ đó ta có qui tắc kiểm định sau:

Qui tắc quyết định:

Lấy mẫu kích thước n, từ mẫu này ta có được các giá trị quan sát Xi (i =1, 2,..., k) hoặc các khoảng số (xi; xi+1).

Theo giả thiết H0, ta tính \(P_i=P(X=x_i)\) hoặc \(P_i=P(x_i. Từ đó ta tính: \({\chi ^2} = \sum\limits_{i = 1}^k {\frac{{{{({n_i} - n{P_i})}^2}}}{{n{P_i}}}} \) [ni là tần số thực tế của Xi hoặc của khoảng (Xi; Xi+1)]

Với mức ý nghĩa \(\alpha\), tra bảng phân phối “chi -bình phương” (bậc tự do k-r -1) để tìm giá trị \(\chi _\alpha ^2\) (r là số các tham số chưa biết của phân phối xác suất theo giả thiết H0)

  • Nếu \({\chi ^2} > \chi _\alpha ^2\) thì bác bỏ H0, thừa nhận H1
  • Nếu \({\chi ^2} \le \chi _\alpha ^2\) thì có thể chấp nhận H0.

Từ việc chấp nhận (hay bác bỏ H0) ta suy ra kết luận cuối cùng mà bài toán thực tế đòi hỏi.

Thí dụ: Đo chiều cao của một loại cây trồng có cùng độ tuổi ta thu được bảng số liệu sau:

Chiều cao (cm) xi - xi+1 Số cây có chiều cao tương ứng (ni)

0-3

3-6

6-9

9-12

12-15

15-18

18-21

21-24

24-27

27-30

1

3

4

6

11

10

7

5

2

1

Với mức ý nghĩa \(\alpha=0,05\), có thể coi chiều cao của loại cây này là đại lượng ngẫu nhiên có phân phối chuẩn hay không ?

Giải:

Gọi X là chiều cao của loại cây này. Đặt giả thiết:

H0 : X có phân phối chuẩn

H1: X không có phân phối chuẩn.

Ước lượng hợp lý cực đại của E(X) là \(\overline X \); Ước lượng hợp lý cực đại của Var(X)là: \(\widehat {{S^2}} = \frac{1}{2}{\sum\limits_{i = 1}^n {\left( {{X_i} - \overline X } \right)} ^2}\)

Từ số liệu đã cho ở bảng trên ta tính được: \(\overline x = 15;\,\,\widehat {{s^2}} = \frac{1}{n}\left[ {\sum\limits_{i = 1}^k {{n_i}x_i^2 - n{{\left( {\overline x } \right)}^2}} } \right] = 34,65\)

Nếu H0 đúng thì ta có thể áp dụng công thức tính xác suất đối với đại lượng ngẫu nhiên có phân phối chuẩn với:

E(X) được ước lượng bằng \(\overline x = 15\)

\(\sigma (X)\) được ước lượng bằng:

\({\mkern 1mu} \widehat s = \sqrt {\frac{1}{n}\left[ {\sum\limits_{i = 1}^k {{n_i}x_i^2 - n{{\left( {\bar x} \right)}^2}} } \right]} = \sqrt {34,65} = 5,8864 \approx 5,9\)

Vậy:

\({P_i} = {\rm{ }}P\left( {{x_i} < X < {x_{i + 1}}} \right) = NORMDIST\left( {{x_i} + 1,15,5.9,1} \right) - NORMDIST\left( {{x_i},15,5.9,1} \right)\)

Chú ý: Đối với khoảng thứ nhất (X1, X2) ta mở rộng thành \(\left( { - \infty ;{x_2}} \right)\) và khoảng cuối (Xk, Xk+i) mở rộng thành \(\left( {{x_k}; + \infty } \right)\) để cho hợp của k khoảng này lấp kín trục số thực.

Cụ thể là: khoảng thứ nhất (0; 3) được mở rộng thành \(\left( { - \infty ;3} \right)\). Vì thế khi tính xác suất để X nhận giá trị trong khoảng này ta tính như sau:

\({P_1} = P\left( { - \infty \le X \le 3} \right) = NORMDIST\left( {3,15,5.9,1} \right){\rm{ }} = {\rm{ }}0,020981\)

\({P_2} = P\left( {3 \le X \le 6} \right) = NORMDIST(6,15,5.9,1) - NORMDIST(3,15,5.9,1){\rm{ }} = {\rm{ }}0,042596\)

....

\({P_9} = P\left( {24 \le X \le 27} \right) = NORMDIST\left( {27,15,5.9,1} \right) - NORMDIST\left( {24,15,5.9,1} \right){\rm{ }} = {\rm{ }}0,042596\)

\({P_{10}} = P\left( {27 < X < \infty } \right) = 1 - NORMDIST\left( {27,15,5.9,1} \right) = 0,020981\)

Các kết quả tính toán có thể trĩnh bày dưới dạng bảng như sau:

xi - xi+1 ni Pi nPi (ni - nPi)2/nPi

\( - \infty \) - 3

3 - 6

6 - 9

9 - 12

12-15

15-18

18-21

21-24

24-27

27- \(+ \infty \)

1

3

4

6

11

10

7

5

2

1

0,020981

0,042596

0,091012

0,150971

0,19444

0,19444

0,150971

0,091012

0,042596

0,020981

1,049043

2,129794

4,550604

7,548572

9,721986

9,721986

7,548572

4,550604

2,129794

1,049043

0,002293

0,355555

0,066621

0,317686

0,168003

0,00795

0,039866

0,04438

0,00791

0,002293

Tổng n = 50     1,012556

Với mức ý nghĩa \(\alpha=0,05\) , tra bảng \({\chi ^2}\) với bậc tự do:

\(k-r-1 = 10-2-1 = 7\), ta được: \(\chi _{0,05}^2 = 14,06713\)

Ta thấy \({\chi ^2} = 1,012556 < 14,06713\) nên ta chấp nhận giả thiết H0, tức có thể coi X là đại lượng ngẫu nhiên có phân phối chuẩn.