Lý thuyết Bài 4: Các số đặc trưng đo mức độ phân tán của mẫu số liệu – Chân trời
============
1.1. Khoảng biến thiên và khoảng tứ phân vị
– Khoảng biến thiên (R) = Giá trị lớn nhất – Giá trị nhỏ nhất. – Khoảng tứ phân vị: \({\Delta _Q} = {Q_3} – {Q_1}\) |
---|
Ý nghĩa:
– Dùng để đo độ phân tán của toàn bộ mẫu số liệu: Khoảng biến thiên càng lớn thì mẫu số liệu càng phân tán.
– Dùng để đo độ phân tán của một nửa các số liệu có giá trị thuộc đoạn từ \({Q_1}\) đến \({Q_3}\) trong mẫu.
– Không bị ảnh hưởng bởi các giá trị bất thường.
Ví dụ : Hãy tính khoảng biên thiên và khoảng tứ phân vị của mẫu số liệu: 10; 20; 3; 1; 3; 4; 7; 4; 9.
Giải
Xét mẫu số liệu đã sắp xếp là: \(1;3;3;4;4;7;9;10;20\)
+ Khoảng biến thiên của mẫu số liệu là: R = 20 – 1 = 19
+ Cỡ mẫu là n = 9 là số lẻ nên giá tị tứ phân vị thứ hai là: Q2 = 4
+ Tứ phân vị thứ nhất là trung vị của mẫu: 1; 3; 3; 4. Do đó Q1 = 3
+ Tử phân vị thứ ba là trung vị của mẫu: 7; 9; 10; 20. Do đó Q3 = 9,5.
+ Khoảng tứ phân vị của mẫu là: AQ = 9,5 – 3 = 6,5.
Giá trị ngoại lệ: \(x\) là giá trị ngoại lệ nếu \(\left[ \begin{array}{l}x < {Q_1} – 1,5.{\Delta _Q}\\x > {Q_3} + 1,5.{\Delta _Q}\end{array} \right.\)
1.2. Phương sai và độ lệch chuẩn
Cho mẫu số liệu \({x_1},{x_2},{x_3},…,{x_n}\), số trung bình là \(\overline x \) + Phương sai: \({s^2} = \frac{{{{({x_1} – \overline x )}^2} + {{({x_2} – \overline x )}^2} + … + {{({x_n} – \overline x )}^2}}}{n} = \frac{1}{n}({x_1}^2 + {x_2}^2 + … + {x_n}^2) – {\overline x ^2}\) + Độ lệch chuẩn: \(s = \sqrt {{s^2}} \) |
---|
Ý nghĩa: Nếu số liệu càng phân tán thì phương sai và độ lệch chuẩn càng lớn
Chú ý: Phương sai của mẫu số liệu cho dạng bảng tần số:
\({s^2} = \frac{{{m_1}{{({x_1} – \overline x )}^2} + {m_2}{{({x_2} – \overline x )}^2} + … + {m_k}{{({x_k} – \overline x )}^2}}}{n}\)
Với \({m_i}\) là tần số của giá trị \({x_i}\) và \(n = {m_1} + {m_2} + … + {m_k}\)
* Giả sử mẫu số liệu được cho dưới dạng bảng tần số:
Khi đó, công thức tính phương sai trở thành:
\({S^2} = \frac{1}{n}\left[ {{n_1}{{\left( {{x_1} – \overline x } \right)}^2} + {n_2}{{\left( {{x_2} – \overline x } \right)}^2} + … + {n_k}{{\left( {{x_k} – \overline x } \right)}^2}} \right]\)
trong đó n = n1 + n2 +…+ nk
Có thể biến đổi công thức tính phương sai trên thành:
\({S^2} = \frac{1}{n}\left( {{n_1}.x_1^2 + {n_2}.x_2^2 + … + {n_k}.x_k^2} \right) – {\overline x ^2}\).
Ví dụ: Điều tra một số học sinh về số cái bánh chưng mà gia đình mỗi bạn tiêu thụ trong địp Tết Nguyên đán, kết quả được ghi lại ở bảng sau. Hãy tính số trung bình và độ lệch chuẩn của mẫu sô liêu.
Giải
Số trung bình của mẫu số liệu trên là:
\(\overline x = \frac{1}{{40}}\left( {5.6 + 7.7 + 10.8 + 8.9 + 5.10 + 4.11 + 15} \right) = 8,5\).
Phương sai của mẫu số liệu trên là
\({S^2} = \frac{1}{{40}}\left( {{{5.6}^2} + {{7.7}^2} + {{10.8}^2} + {{8.9}^2} + {{5.10}^2} + {{4.11}^2} + {{15}^2}} \right) – 8,{5^2} = 3,25\)
Độ lệch chuẩn của mẫu số liệu là:
\(S = \sqrt {{S^2}} = \sqrt {3,25} \approx 1,80.\)
Câu 1: Hãy tìm khoảng biến thiên và khoảng tứ phân vị của các mẫu số liệu sau:
a) \(10;13;15;2;10;19;2;5;7\)
b) \(15;19;10;5;9;10;1;2;5;15\)
Hướng dẫn giải
a) Xét mẫu số liệu đã sắp xếp là: \(2;2;5;7;10;10;13;15;19\)
Khoảng biến thiên của mẫu số liệu là: \(R = 19 – 2 = 17.\)
Cỡ mẫu là \(n = 9\) là số lẻ nên giá trị tứ phân vị thứ hai là: \({Q_2} = 10.\)
Tứ phân vị thứ nhất là trung vị của mẫu: \(2;2;5;7\). Do đó \({Q_1} = 3,5\)
Tứ phân vị thứ ba là trung vị của mẫu: \(10;13;15;19\). Do đó \({Q_3} = 14\)
Khoảng tứ phân vị của mẫu là: \({\Delta _Q} = 14 – 3,5 = 10,5\)
b) Xét mẫu số liệu đã sắp xếp là: \(1;2;5;5;9;10;10;15;15;19\)
Khoảng biến thiên của mẫu số liệu là: \(R = 19 – 1 = 18.\)
Cỡ mẫu là \(n = 10\) là số chẵn nên giá trị tứ phân vị thứ hai là: \({Q_2} = 9,5.\)
Tứ phân vị thứ nhất là trung vị của mẫu: \(1;2;5;5;9\). Do đó \({Q_1} = 5.\)
Tứ phân vị thứ ba là trung vị của mẫu: \(10;10;15;15;19\). Do đó \({Q_3} = 15\)
Khoảng tứ phân vị của mẫu là: \({\Delta _Q} = 15 – 5 = 10\)
Câu 2: Bảng dưới đây thống kê tổng số giờ nắng trong năm 2019 theo từng tháng được đo bởi hai trạm quan sát khí tượng đặt ở Tuyên Quang và Cà Mau.
Tháng
1
2
3
4
5
6
7
8
9
10
11
12
Tuyên Quang
25
89
72
117
106
177
156
203
227
146
117
145
Cà Mau
180
223
257
245
191
111
141
134
130
122
157
173
a) Hãy tính phương sai và độ lệch chuẩn của dữ liệu từng tỉnh.
b) Nêu nhận xét về sự thay đổi tổng số giờ nắng theo từng tháng ở mỗi tỉnh.
Hướng dẫn giải
+) Tuyên Quang:
Số giờ nắng trung bình \(\overline x = \frac{{25 + 89 + 72 + 117 + 106 + 177 + 156 + 203 + 227 + 146 + 117 + 145}}{{12}} = 131,67\)
Phương sai: \({S^2} = \frac{1}{{12}}\left( {{{25}^2} + {{89}^2} + … + {{145}^2}} \right) – 131,{67^2} \approx 2921,2\)
Độ lệch chuẩn \(S = \sqrt {2921,2} \approx 54\)
+) Cà Mau:
Số giờ nắng trung bình \(\overline x = \frac{{180 + 223 + 257 + 245 + 191 + 111 + 141 + 134 + 130 + 122 + 157 + 173}}{{12}} = 172\)
Phương sai: \({S^2} = \frac{1}{{12}}\left[ {\left( {{{180}^2} + {{223}^2} + … + {{173}^2}} \right) – {{172}^2}} \right] = 2183\)
Độ lệch chuẩn \(S = \sqrt {2183} = 46,7\)
=> Nhận xét: Ở Tuyên Quang tổng số giờ nắng theo từng tháng thay đổi nhiều hơn so với ở Cà Mau.
===========
Chuyên mục: Chương 6: Thống kê
Trả lời