Bài 2: Phân phối Poisson


Mời các bạn cùng tham khảo nội dung bài giảng Bài 2: Phân phối Poisson sau đây để tìm hiểu về bài toán tổng quát dẫn đến phân phối Poisson, các tham số đặc trưng.

Tóm tắt lý thuyết

1. Bài toán tổng quát dẫn đến phân phối Poisson

Giả sử tiến hành n phép thử độc lập, trong mỗi phép thử chỉ có thể xảy ra một trong hai trường hợp: hoặc biến cố A xảy ra, hoặc A không xảy ra. Xác suất để cho biến cố A xảy ra trong mỗi phép thử đều bằng p, xác suất để A không xảy ra đều bằng q (q = 1 - p). Gọi X là số lần biến cố A xảy ra trong n phép thử thì X có phân phối nhị thức. Trường hợp n lớn, p nhỏ (p < 0,1) và tích \(np = \lambda \) không đổi (thường gặp là np \(\le\) 5) thì ta có công thức xấp xỉ sau đây: 

\({P_k} = P(X = k) = C_n^k{p^k}{q^{n - k}} \approx \frac{{{\lambda ^k}}}{{k!}}{e^{ - \lambda }}\)

Trong đó e là hằng số nêpe:

\(e = \mathop {Lim}\limits_{n \to \infty } {\left( {1 + \frac{1}{n}} \right)^n};e \approx 2,71828\)

Chứng minh:

Thật vậy: Do  \(np = \lambda \Rightarrow p = \frac{\lambda }{n};\,\,\,\,q = 1 - p = 1 - \frac{\lambda }{n}\)

\({P_k} = \frac{{n!}}{{k!(n - k)!}}{\left( {\frac{\lambda }{n}} \right)^k}{\left( {1 - \frac{\lambda }{n}} \right)^{n - k}}\)

\(= \frac{{n(n - 1)...(n - k + 1)}}{{k!}}\frac{{{\lambda ^k}}}{{{n^k}}}{\left( {1 - \frac{\lambda }{n}} \right)^{n - k}}\)

\(= \left( {1 - \frac{1}{n}} \right)\left( {1 - \frac{2}{n}} \right)....\left( {1 - \frac{{k - 1}}{n}} \right)\frac{{{\lambda ^k}}}{{k!}}{\left( {1 - \frac{\lambda }{n}} \right)^{n - k}}\)

Vì; \(\mathop {Lim}\limits_{n \to \infty } {\left( {1 - \frac{\lambda }{n}} \right)^{n - k}} = {e^{ - \lambda }}\)

Nên dễ thấy rằng: \(\mathop {Lim}\limits_{n \to \infty } {P_k} = \frac{{{\lambda _k}}}{{k!}}{e^{ - \lambda }}\)

Như vậy, với n lớn, p nhỏ, tích np = \(\lambda \) không đổi, các xác suất:

Pk = P(X = k) của công thức Bemoulli có thể thay thế bằng công thức Poisson sau đây: \({P_k} = P(X = k) = \frac{{{\lambda ^k}}}{{k!}}{e^{ - \lambda }}\,\,\,(k = 0,1,2,....)\)

Định nghĩa: Đại lượng ngẫu nhiên rời rạc X nhận một trong các giá trị: 0, 1, 2, . . . . với các xác suất tương ứng tính theo công thức (3 8) thì X có phân phối Poisson với tham số \(\lambda \).

X có phân phối Poisson với tham số X được ký hiệu là X ~ P(\(\lambda \))

Thí dụ 1: Xác suất để một máy sản xuất ra phế phẩm là 0,001. Cho máy này sán xuất 2000 sản phẩm. Gọi X là số phế phẩm có trong 2000 sản phẩm do máy sàn xuất thì X ~ B(2000; 0,001) nhưng n = 2000 khá lớn, p = 0,001 rất nhỏ, tích np = 2000 X 0,001 = 2 nên ta có thể coi X ~P(2).

Các giá trị X có thể nhận là: 0, 1, 2, 3,.. . với các xác suất tương ứng được tính như sau:

\(\begin{array}{l} P(X = 0) = \frac{{{2^0}}}{{0!}}{e^{ - 2}} = 0,135335\\ P(X = 1) = \frac{{{2^1}}}{{1!}}{e^{ - 2}} = 0,27067\\ P(X = 2) = \frac{{{2^2}}}{{2!}}{e^{ - 2}} = 0,27067\\ P(X = 3) = \frac{{{2^3}}}{{3!}}{e^{ - 2}} = 0,180447\\ ........ \end{array}\)

Nếu X có phân phối Poisson với tham số \(\lambda \), thì xác suất để X nhận giá trị trong khoảng [k, k+h] trong đó k và h là số nguyên dương tùy ý, được tính theo công thức:

\(P(k \le X \le k + h) = {P_k} + {P_{k + 1}} + .... + {P_{k + h}}\)

Trong đó các xác suất Pk, Pk+1,....., Pk+h tính theo (3.8)

Chú ý: Nếu X ~ P\((\lambda )\) để tính P(X = k) hoặc P(X \(\le\) k) ta có thể dùng hàm POISSON trong Excel

P(X = k) =POISSON(k,\((\lambda )\),0)

P(X \(\le\) k) =POISSON(k,\((\lambda )\),1)

Thí dụ 2: Cho X ~ P(1,5), tính P(X = 5) và P(X \(\le\) 3) Ta có:

P(X = 5) =POISSON(5,1.5,0) =0.01412

P(X \(\le\) 3) = POISSON(3,1.5,1) = 0,934358

Thí dụ: Một máy dệt có 500 ống sợi. Xác suất một ống sợi bị đứt trong khoảng thời gian 1 giờ máy làm việc là 0,004. Tìm xác suất để trong một giờ có không quá 2 ống sợi bị đứt ?

Giải: Nếu coi việc quan sát một ống sợi xem có bị đứt hay không trong khoảng thời gian một giờ là một phép thử. Theo giả thiết, máy dệt có 500 ống sợi nên ta có 500 phép thử độc lập. Xác suất trong mỗi phép thử biến cố A (là biến cố ống sợi bị đứt) xảy ra với xác suất là p = 0,004.

Nếu gọi X là số p ống sợi bị đứt trong khoảng thời gian 1 giờ của máy thì X ~ B(500; 0,004)1

Vì n = 500 khá lớn, p = 0,004 rất nhỏ và tích np = 500 x 0,004 = 2 không đổi nên ta có thể coi X ~ P(2)

Xác suất để có không quá 2 ống sợi bị đứt trong khoảng thời gian 1 giờ là: 

\(P(0 \le X \le 2) = {P_0} + {P_1} + {P_2}\)

\(\begin{array}{l} {P_0} = P(X = 0) = \frac{{{2^0}}}{{0!}}{e^{ - 2}}\\ {P_1} = P(X = 1) = \frac{{{2^1}}}{{1!}}{e^{ - 2}}\\ {P_3} = P(X = 2) = \frac{{{2^2}}}{{2!}}{e^{ - 2}}\\ P(0 \le X \le 2) = (1 + 2 + 2){e^{ - 2}} = 5{(2,71828)^{ - 2}} = 0,6767 \end{array}\)

Chú ý: Nếu tính các xác suất trên bằng hàm POISSON thì: P(X \(\le\) 2) =POISSON(2,2,1) = 0,676676 

Ta cũng có thể tính xác suất mà bài toán yêu cầu bằng hàm BINOMDIST P(X \(\le\) 2) =BINOMDIST(2,500,0.004,1) = 0,676677

2. Các tham số đặc trưng

Có thể chứng minh được rằng: Nếu X ~ P(\(\lambda \)) thì:

E(X) = Var(X) = \(\lambda \)                                (3.10)

\(\lambda -1 \le Mod(X) \le \lambda \)                          (3.11)

Chứng minh: Theo định nghĩa kỳ vọng toán của đại lượng ngẫu nhiên rời rạc, ta có:

\(E(X) = \sum\limits_{k = 0}^\infty {k.{P_k}} = \sum\limits_{k = 1}^\infty {k.{P_k}} = \sum\limits_{k = 1}^\infty {k.\frac{{{\lambda ^k}}}{{k!}}} {e^{ - \lambda }} = \lambda \sum\limits_{k = 0}^\infty {\frac{{{\lambda ^{k - 1}}}}{{(k - 1)!}}{e^{ - \lambda }}} \)

Đặt k’ = k - 1. Ta có:

\(E(X) = \lambda \sum\limits_{k' = 1}^\infty {\frac{{{\lambda ^{k'}}}}{{k!}}} {e^{ - \lambda }}\,\,\,\,\left( {Vì\,\sum\limits_{k = 0}^\infty {\frac{{{\lambda ^k}}}{{k!}}{e^{ - \lambda }} = \sum\limits_{k = 0}^\infty {{P_k} = 1} } } \right)\)

Vậy: \(E(X)=\lambda\)

Ta có: 

\(E({X^2}) = \sum\limits_{k = 0}^\infty {{k^2}} {P_k} = \sum\limits_{k = 0}^\infty {\left[ {k(k - 1) + k} \right]} .{P_k}\)

\( = \sum\limits_{k = 2}^\infty {k(k - 1)\frac{{{\lambda ^k}}}{{k!}}{e^{ - \lambda }} + \sum\limits_{k = 0}^\infty {k.{P_k}} } \)

Vì: \(\sum\limits_{k = 0}^\infty {k.{P_k}} = E(X) = \lambda \)

\(\sum\limits_{k = 2}^\infty {k(} k - 1)\frac{{{\lambda ^k}}}{{k!}}{e^{ - \lambda }} = {\lambda ^2}\sum\limits_{k = 2}^\infty {\frac{{{\lambda ^{k - 2}}}}{{(k - 2)!}}{e^{ - \lambda }}} \)  (*)

Đặt k’ = k - 2 thì (*) có thể viết như sau:

\({\lambda ^2}\sum\limits_{k' = 0}^\infty {\frac{{{\lambda ^{k'}}}}{{k'!}}} {e^{ - \lambda }} = {\lambda ^2}\,\,\left( {Vì\,\sum\limits_{k' = 0}^\infty {\frac{{{\lambda ^k}}}{{k!}}{e^{ - \lambda }} = 1} } \right)\)

Vậy ta có: 

\(\begin{array}{l} E({X^2}) = {\lambda ^2} + \lambda \\ V{\rm{ar}}(X) = E({X^2}) - {\left[ {E(X)} \right]^2} = {\lambda ^2} + \lambda - {\lambda ^2} = \lambda \end{array}\)

Thí dụ: Xác suất một chai rượu bị bể khi vận chuyển là 0,001. Giả sử vận chuyển 4000 chai. Tìm số chai rượu bị bể trung bình và số chai bị bể tin chắc nhất khi vận chuyển.

Giải: Gọi X là số chai rượu bị bể khi vận chuyển 4000 chai. X là đại lượng ngẫu nhiên và X ~ P(\(\lambda\).) với X = n.p = 4000 x 0,001 = 4

Số chai rượu bị bể trung bình khi vận chuyển chính là E(X):  E(X) = \(\lambda\) = 4

Tức có trung bình 4 chai rượu bị bể khi vận chuyển 4000 chai.

Số chai rượu bị bể tin chắc nhất khi vận chuyển 4000 chai chính là Mod(X).

Theo công thức (3.11) ta có: \(3 \le Mod(X) \le 4\)

Vậy: Mod(X) = 3 hoặc Mod(X) = 4

Tức số chai rượu bị bể tin chắc nhất (có khả năng xảy ra nhiều nhất) là 3 chai hoặc 4 chai.