Bài 1: Tổng thể và mẫu


Nội dung bài giảng Bài 1: Tổng thể và mẫu sau đây sẽ giúp các bạn tìm hiểu về tổng thể, khái niệm mẫu.

Tóm tắt lý thuyết

1. Tổng thể

Khi nghiên cứu các vấn đề kinh tế - xã hội, cũng như nhiều vấn đề thuộc các lĩnh vực khác, người ta thường phải khảo sát một hay một số dấu hiệu nào đó. Những thông tin về các dấu hiệu này được thu thập, khảo sát ở nhiều phần tử khác nhau. Tập hợp tất cả các phần tử mà từ các phần tử đó ta có thể thu thập, khảo sát những thông tin về các dấu hiệu ta cần nghiên cứu được gọi là tổng thể (population).

Thí dụ 1: Ta cần nghiên cứu về năng suất lúa ở vùng đồng bằng sông cửu Long, dấu hiệu mà ta cần nghiên cứu là “năng suất lúa” và những thông tin về năng suất lúa được khảo sát ở những thửa ruộng trồng lúa ở vùng này. Trong trường hợp này, tổng thể bao gồm toàn bộ diện tích gieo trồng lúa ở vùng đồng bằng sông Cửu Long.

Thí dụ 2: Ta cần nghiên cứu về thu nhập của những người làm việc trong ngành giáo dục. Dấu hiệu ta cần khảo sát là “thu nhập” và những thông tin về thu nhập được thu thập, được khảo sát ở những người làm việc trong ngành này. Vậy tất cả những người làm việc trong ngành giáo dục được coi là tổng thể.

Đối với tổng thể, ta sử dụng một số khái niệm và ký hiệu sau đây:

  • N: Số phần tử của tổng thể và được gọi là kích thước của tổng thể. Kích thước của tổng thể phụ thuộc vào vấn đề và phạm vi nghiên cứu. 
  • X*: Dấu hiệu ta cần khảo sát, nghiên cứu (trong kinh tế thường gọi là chỉ tiêu). Cần nhấn mạnh rằng: Khi nói nghiên cứu một tổng thể có nghĩa là ta nghiên cứu dấu hiệu X* được thể hiện trên các phần tử của tổng thể.
  • Xi (i = 1,2, k) là các giá trị của dấu hiệu X* đo được ưên các phần tử của tổng thể. xi là những thông tin cần thiết để ta nghiên cứu về dấu hiệu X*, còn các phần tử của tổng thể là những đối tượng mang thông tin.
  • Ni (i = 1, 2,..., k): Tần số của xi - là số phần tử nhận giá trị xi.

Ta luôn luôn có:

\(\sum\limits_{i = 1}^k {{N_i} = N} \)

  • pi (i = 1, 2, . . . , k): Tần suất của xi - là tỷ số giữa tần số của xi và kích thước tổng thể: \({p_i} = \frac{{{N_i}}}{N}\)

Ta luôn luôn có: \(\sum\limits_{i = 1}^k {{p_i}} = 1\)

Giữa xi, Ni và pi luôn luôn có một sự tương ứng. Để biểu diễn sự tương ứng giữa các giá trị xi, các tần số Ni và tần suất pi ta có thể lập bảng cơ cấu của tổng thể theo dấu hiệu X*. Bảng này có dạng:

Giá trị của X* x1 x2 ..... xk
Tần số (Ni) N1 N2 ..... Nk
Tần suất (pi) p1 p2 ..... pk

 

Chú ý: Ta cũng có thể lập bảng cơ cấu của tổng thể dưới dạng cột.

Bảng mô tả một cách đầy đủ những thông tin về dấu hiệu X* nhưng để lập được bảng này ta phải khảo sát toàn bộ N phần tử của tổng thể, điều này rất khó thực hiện và trong thực tế ta cũng khó mà nhớ được những thông tin chi tiết này. Vì vậy, người ta thường tóm tắt bảng trên bằng các số đặc trưng sau đây:

Trung bình của tổng thể

Trung bình của tổng thể (ký hiệu là \(\mu \)), được xác định theo công thức:

\(\mu = \sum\limits_{i = 1}^k {{x_i}} .{p_i}\)

Phương sai của tổng thể

Phương sai của tổng thể (ký hiệu là \({\sigma ^2}\)) được xác định theo công thức:

\({\sigma ^2} = {\sum\limits_{i = 1}^k {\left( {{x_i} - \mu } \right)} ^2}{p_i}\)

Độ lệch chuẩn của tổng thể

Độ lệch chuẩn của tổng thể (ký hiệu là \(\sigma\)) được xác định theo công thức:

\(\sigma = \sqrt {{\sigma ^2}} \)

Tỷ lệ tổng thể

Tỷ lệ tổng thể (ký hiệu là p) được định nghĩa như sau:

Giả sử tổng thể gồm N phần tử, trong đó có M phần tử có tính chất A . Gọi \(p = \frac{M}{N}\) là tỷ lệ các phần tử có tính chất A của tổng thể (hay gọi tắt là tỷ lê N

tổng thể), p cũng chính là xác suâ't lấy được phần tử có tính chất A khi lấy ngẫu nhiên một phần tử từ tổng thể.

Thí dụ: Ngành cao su có 500.000 công nhân. Để nghiên cứu mức sống của họ, người ta khảo sát chỉ tiêu X*:” Thu nhập thực tế của công nhân ngành cao su” và giả sử thu được các số liệu cho ở bảng sau:

Thu nhập X* (triệu đ/tháng) Số công nhân (Ni) Tần suất (pi)

2,5

3,5

4,5

5,5

6,5

7,5

9

50.000

70.000

150.000

120.000

55.000

30.000

25.000

0,10

0,14

0,30

0,24

0,11

0,06

0,05

Tổng 500.000 1,00

Từ bảng 6.5 ta tính được:

Thu nhập trung bình của 3 công nhân ngành cao su (trung bình tổng thể) là:

\(\mu =2,5 \,x\, 0,1 + 3,5\,x \,0 14 + 4,5\,x\, 0,3 + 5,5\,x \,0,24 + 6,5\,x\, 0,11 + 7,5\,x \,0,06 + 9\,x\, 0,05 = 5,025\) triệu đồng/tháng.

Phương sai của thu nhập (phương sai của tổng thể):

\(\begin{array}{*{20}{l}} {{\sigma ^2} = {\rm{ }}{{\left( {2,5 - 5,025} \right)}^2}{\rm{ }}0,1 + {{\left( {3,5 - 5,025} \right)}^2}0,14 + {{\left( {4,5 - 5,025} \right)}^2}0,3 + }\\ { + {{\left( {5,5 - 5,025} \right)}^2}0,24 + {{\left( {6,5 - 5,025} \right)}^2}0,11 + {{\left( {7,5 - 5,025} \right)}^2}0,06 + }\\ { + {{\left( {9 - 5,025} \right)}^2}0,05{\rm{ }} = 2,496875} \end{array}\)

Độ lệch chuẩn của thu nhập (độ lệch chuẩn của tổng thể):

\(\sigma = \sqrt {2,496875} = 1,58015\)

Tỷ lệ công nhân có thu nhập cao của ngành cao su (tỷ lệ tổng thể):

Nếu ta coi những công nhân có mức thu nhập từ 7,5 triệu đồng/tháng trở lên là những người có thu nhập cao thì tỷ lệ công nhân có thu nhập cao của ngành cao su là:

\(p = \frac{{30000 + 25000}}{{500000}} = 0,11\,\,hay\,\,11\% \)

2. Khái niệm mẫu

Để lập bảng cơ cấu của tổng thể để từ đó ta tính được trung bình, phương sai... của tổng thể thì ta cần điều tra toàn bộ N phần tử của tổng thể. Cách làm này trong thực tế sẽ gặp phải những khó khăn sau đây:

  • Phải chịu chi phí lớn về tiền của, thời gian, nhân lực, phương tiện, . . . Chẳng hạn, để thực hiện một cuộc tổng điều ưa dân số người ta phải huy động hàng chục ngàn người tham gia và phải tốn một chi phí rất lớn cho cuộc điều tra.
  • Có nhiều trường hợp khi điều tra sẽ phá hủy đi các phần tử được điều tra. Do vậy về phương diện kinh tế thì không thể điều tra toàn bộ được. Chẳng hạn: để kiểm tra các hộp sữa do một nhà máy sản xuất thì ta không thể mở tất cả các hộp sữa đã sản xuất để kiểm tra được.
  • Có những trường hợp ta không thể xác định được toàn bộ N phần tử của tổng thể. Trường hợp này thường xảy ra trong việc điều tra các vấn đề thuộc về lĩnh vực xã hội học. Chẳng hạn: điều tra những người nghiện ma túy, những trẻ vị thành niên phạm pháp........ Trong các trường hợp đó ta cũng không thể tiến hành điều ưa toàn bộ được vì còn một bộ phận khá lớn phần tử của tổng thể chưa phát hiện được nên không thể xác định được toàn bộ số phần tử của tổng thể.

Vì vậy, từ thế kỷ 17, phương pháp nghiên cứu mẫu đã ra đời, ngày càng phát triển và được sử dụng rộng rãi trong nhiều lĩnh vực. Tư tưởng cơ bản của phương pháp mẫu như sau:

Từ tổng thể ta lấy ra n phần tử và đo lường giá trị của dấu hiệu X* trên chúng, n phần tử này lập nên một mẫu. số phần tử của mẫu (n) được gọi là kích thước mẫu, thông thường kích thước của mẫu nhỏ hơn nhiều so với kích thước của tổng thể. Vì vậy ta có khả năng thực tế để thu thập, xử lý và khai thác thông tin mẫu một cách nhanh chóng, toàn diện hơn. Sử dụng các phương pháp toán học (đặc biệt là lý thuyết xác suất), người ta tiến hành suy rộng kết quả nghiên cứu trên mẫu cho toàn bộ tổng thể, đó là mục đích cuối cùng của phương pháp mẫu.

Để đạt được mục đích trên thì mẫu phải đại diện cho tổng thể. Muốn vậy, khi lấy mẫu phải đảm bảo tính ngẫu nhiên, không chọn mẫu theo một tiêu chuẩn chủ quan đã định trước.

Trong thực tế có nhiều cách lấy mẫu:

Lấy mẫu ngẫu nhiên:

Ta đánh số các phần tử từ 1 đến N (N là số phần tử của tổng thể). Để có một mẫu kích thước n, ta có thể dùng bảng số ngẫu nhiên hoặc dùng cách bốc thăm để lấy cho đủ n phần tử vào mẫu.

Bằng cách này, mỗi phần tử của tổng thể đều có khả năng được chọn vào mẫu như nhau.

Chọn mẫu cơ giới:

Các phần tử của tổng thể được đưa vào mẫu cách nhau một khoảng xác định. Chẳng hạn, trên một dây chuyền sản xuất, cứ sau một khoảng thời gian t nào đó lại lấy ra một sản phẩm để đưa vào mẫu.

Chọn mẫu bằng cách phân lớp:

Ta chia tổng thể thành một số lớp theo một chỉ tiêu phụ nào đó, sao cho các phần tử trong mỗi lớp đồng đều hơn. Sau đó mới lấy ngẫu nhiên từ mỗi lớp một số phần tử để đưa vào mẫu. Cách chọn mẫu này thường được áp dụng khi phạm vi nghiên cứu rộng, số lượng phần tử của tổng thể quá lớn.

Việc lấy mẫu được tiến hành chủ yếu theo 2 phương thức:

  • Lấy mẫu có hoàn lại (có lặp)
    • Phương pháp này được áp dụng khi tập hợp chính có ít phần tử. Theo phương thức này, mỗi lần lấy vào mẫu chi một phần tử. Sau khi đã được nghiên cứu ta trả lại phần tử đó vào tập hợp chính trước khi lấy phần tử tiếp theo.
    • Như vậy, với cách lấy này, một phần tử có thể xuất hiện nhiều lần trong mẫu.
  • Lấy mẫu không hoàn lại (không lặp)
    • Theo cách lấy này, phần tử được lấy ra nghiên cứu sẽ bị loại hẳn ra khỏi tập hợp chính.
    • Việc lựa chọn phương pháp lấy mẫu phụ thuộc vào mục đích, đối tượng nghiên cứu và điều kiện tiến hành.
    • Nhờ các định lý giới hạn của lý thuyết xác suất, người ta đã chứng minh được rằng: Khi số phần tử của tổng thể đủ lớn thì có thể coi hai cách lấy mẫu có lặp và không lặp là như nhau. Trong giáo trình này, để thuận tiện cho việc mô hình hoá ta giả thiết mẫu được thành lập theo phương thức có lặp.