Các đại lượng đo lường khuynh hướng tập trung ppsx

12 3.3K 8
Các đại lượng đo lường khuynh hướng tập trung ppsx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 Chương 4. TÓM TẮT DỮ LIỆU BẰNG CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ 4.1. Các đại lượng đo lường khuynh hướng tập trung 1. Trung bình cộng a. Trường hợp dữ liệu nhận các giá trị rời rạc Trung bình cộng được xác định bằng cách cộng giá trị của các quan sát, sau đó đem chia cho tổng số quan sát.  Trung bình tổng thể Một tổng thể có quan sát, trung bình cộng được xét theo công thức: = ∑ Trong đó là trung bình tổng thể; là giá trị quan sát thứ ; là tổng số quan sát (kích thước của tổng thể). Ví dụ: Số liệu tỷ lệ lãi trên vốn (%) của một công ty ghi nhận qua 10 năm như sau: 5.2 6.0 3.8 4.5 7.4 5.0 5.2 6.5 6.2 6.4 Tỷ lệ lãi vốn trung bình của công ty trong thời kỳ 10 năm được xác định như sau: = 5.2+6.0+ +6.4 10 = 5.62(%) Công thức tính trung bình trên trong trường hợp khảo sát cả tổng thể. Trong thực tế, thường ta không thể hoặc không cần nghiên cứu cả tổng thể.  Trung bình mẫu Một mẫu có quan sát, trung bình mẫu được tính theo công thức = ∑ Trong đó là trung bình mẫu; là giá trị quan sát thứ ; là tổng số quan sát (cỡ mẫu hay kích thước của mẫu). Ví dụ: Số ngày nghỉ trong một năm của một mẫu gồm 16 người được chọn ra từ số nhân viên trong một công ty lớn được ghi nhận như sau: 10 11 12 15 15 18 6 10 14 8 2 7 4 10 6 12 Trung bình mẫu được xác định như sau: 2 = 10+11+ +12 16 = 10(ngày)  Trung bình có trọng số Trung bình có trọng số là trường hợp đặc biệt của trung bình cộng, khi mỗi giá trị xuất hiện nhiều lần. Khi đó trung bình có trọng số được xác định theo công thức: = ∑ ∗ ∑ Trong đó là trung bình có trọng số; là giá trị quan sát thứ ; là trọng số thứ , ∑ = . Ví dụ: Số sản phẩm đạt tiêu chuẩn kỹ thuật trong 60 ngày ở một xưởng ghi nhận được như sau: Sản phẩm đạt tiêu chuẩn kỹ thuật 450 500 600 Số ngày 20 28 12 Sản phẩm đạt tiêu chuẩn kỹ thuật trung bình được xác định theo công thức: = 450+500+600 20+28+12 = 503.3(ngày) b. Trường hợp dữ liệu là các khoảng Trong trường hợp này trung bình cộng được tính một cách xấp xỉ theo công thức = ∑ ∗ ∑ Trong đó là trung bình; là trị số giữa (điểm giữa) của nhóm thứ , được tính bằng cận trên và cận dưới của khoảng đó cộng lại chia 2; là tần số của nhóm thứ , ∑ = . Ví dụ: Trong một đợt sản xuất, người ta chọn ngẫu nhiên 50 sản phẩm và ghi nhận trọng lượng. Sản phẩm được phân nhóm theo trọng lượng như sau: Trọng lượng (gam) Trị số giữa Số sản phẩm 484-490 487 5 490-496 493 10 496-502 499 15 502-508 505 13 508-514 511 7 Tổng 50 Trung bình mẫu xác định theo công thức 3 = 487∗5+493∗10+ +511∗7 50 = 499.84( gam) Nhận xét: Trung bình cộng thường rất nhạy cảm với các giá trị đột biến (giá trị quá lớn hoặc quá nhỏ), do đó giá trị trung bình sẽ kém tiêu biểu khi dãy số xuất hiện các giá trị đột biến. Tuy nhiên, trung bình cộng có thể được sử dụng để so sánh hai hay nhiều tổng thể, như so sánh mức lượng ngày của nhân viên giữa các công ty, so sánh tuổi thọ một loại sản phẩm giữa các nhãn hiệu. 2. Trung vị (Median) a. Trường hợp dữ liệu nhận các giá trị rời rạc Trung vị là giá trị đứng ở vị trí giữa trong một dãy số đã được sắp xếp có thứ tự. Trung vị chia dãy số ra thành hai phần bằng nhau: trước và sau trị số trung vị sẽ có 50% quan sát, ký hiệu . Xác định trung vị:  Trường hợp lẻ: trước hết giá trị của các quan sát sẽ được sắp xếp theo thứ tự lớn dần, trung vị sẽ là giá trị ở vị trí thứ → = ( ) .  Trường hợp chẵn: trường hợp này trung vị rơi vào giữa hai giá trị và , trung vị quy ước là trung bình cộng của hai giá trị đó = . b. Trường hợp dữ liệu là các khoảng Với dữ liệu đã phân nhóm, trung vị được xác định một cách xấp xỉ qua các bước sau: B1. Tính tần số tích lũy. B2. Xác định nhóm chứa , đó là nhóm có tần số tích lũy ≥ . B3. Áp dụng công thức = ( ) + ∗ Trong đó ( ) là giới hạn dưới của nhóm chứa ; là trị số khoảng cách nhóm chứa ; là tần số tích lũy của nhóm đứng trước nhóm chứa ; là tần số của nhóm chứa . Ví dụ: Sử dụng kết quả ví dụ trên ta có 4 Trọng lượng (gam) Số sản phẩm Tần số tích lũy 484-490 5 5 490-496 10 15 496-502 15 30 502-508 13 43 508-514 7 50 Tổng 50 Nhóm chứa là nhóm (496-502), vì nhóm đó có tần số tích lũy bằng 30 > (50+1)/2 Áp dụng công thức ta có = 496+6∗ 50 2 −15 15 = 500(gam ) Nhận xét: Trung vị là trị số duy nhất có thể được xác định trong một dãy số, là đặc trưng đo lường khuynh hướng tập trung không bị ảnh hưởng bởi các giá trị đột biến. Trung vị có thể tính cho các dữ liệu sử dụng các thang đo tỷ lệ, thang đo khoảng và thang đo thứ bậc. 3. Các tứ phân vị, thập phân vị a. Trường hợp dữ liệu nhận các giá trị rời rạc Trong một dãy số đã sắp xếp có thứ tự, các trị số của tứ phân vị sẽ chia dãy số thành bốn phần bằng nhau. Với mẫu có quan sát, gọi , , lần lượt là tứ phân vị đầu tiên, tứ phân vị thứ hai và tứ phân vị thứ ba. Cách xác định các trị số như sau: là giá trị ở vị trí thứ : = ( )/ ; chính là số trung vị; là giá trị ở vị trí thứ ( ) : = ( )/ . Ví dụ: Tỷ lệ lãi của các doanh nghiệp sắp xếp từ nhỏ đến lớn (%) 8.5 9 9.5 10 10.5 12 12.5 Ví dụ: Chúng ta có tập dữ liệu với 8 quan sát như sau 11 12 14 15 16 17 18 21 Xác định giá trị của các tứ phân vị là giá trị ở vị trí thứ = = 2.25 → phải là một giá trị nằm giữa quan sát thứ 2 và quan sát thứ 3 theo tọa độ lệch ¼ gần về phía quan sát thứ hai nên ta xác định giá trị như sau: 5 = 12+0.25∗ ( 14−12 ) = 12.5 là giá trị ở vị trí thứ = =4.5 → phải là một giá trị nằm giữa quan sát thứ 4 và quan sát thứ 5 nên ta xác định giá trị như sau: = 15+16 2 = 15.5 là giá trị ở vị trí thứ ( ) = ( ) = 6.75 → phải là một giá trị nằm giữa quan sát thứ 6 và quan sát thứ 7 theo tọa độ lệch 3/4 gần về phía quan sát thứ sáu nên ta xác định giá trị như sau: = 17+0.75∗ ( 18−17 ) = 17.75 b. Trường hợp dữ liệu là các khoảng Tứ phân vị thứ nhất = ( ) + ∗ Trong đó ( ) là giới hạn dưới của nhóm chứa ; là trị số khoảng cách nhóm chứa ; là tần số tích lũy của nhóm đứng trước nhóm chứa ; là tần số của nhóm chứa . Tứ phân vị thứ ba = ( ) + ∗ Trong đó ( ) là giới hạn dưới của nhóm chứa ; là trị số khoảng cách nhóm chứa ; là tần số tích lũy của nhóm đứng trước nhóm chứa ; là tần số của nhóm chứa . Đồ thị hình hộp là phương pháp mô tả và tổng hợp các số liệu mẫu bằng đồ thị, trên đó phản ánh được cùng một lúc cả các đặc trưng về xu hướng trung tâm cũng như độ phân tán của các giá trị mẫu. Để xây dựng đồ thị hình hộp người ta thường sử dụng các thống kê đặc trưng mẫu là trung vị, các tứ phân vị , và các giá trị và của phân phối mẫu. Nó có dạng như hình sau 6 Đặc biệt khi có nhiều mẫu rút ra từ các tổng thể nghiên cứu mà chúng lại có các thống kê đặc trưng khác nhau thì việc vẽ đồng thời đồ thị hình hộp của các mẫu đó lên cùng một mặt phẳng sẽ cho phép so sánh trực quan các mẫu, từ đó có được có được những nhận xét sơ bộ về sự khác biệt của các tổng thể nghiên cứu tương ứng. Ví dụ: Bảng số liệu về doanh thu Doanh thu (triệu đồng) Cửa hàng ( ) Tần số tích lũy 200-400 8 8 400-500 12 20 500-600 25 45 600-800 25 70 800-1000 9 79 Tổng 79 Tứ phân vị thứ nhất chứa trong tổ có tần số tích lũy bằng = = 20 = 400+100∗ 79 4 −8 12 = 497.92(triệuđồng) Tứ phân vị thứ ba chứa trong tổ có tần số tích lũy bằng ( ) = ( ) = 60 = 600+200∗ 3∗79 4 −45 25 = 714(triệuđồng) Thập phân vị: trong thực tế đôi khi người ta cũng có nhu cầu chia các đơn vị trong dãy số lượng biến thành 10 phần đều nhau và ta có thập phân vị. Cách tính thập phân vị cũng tương tự như cách tính tứ phân vị. Ta có công thức = ( ) + ∗ 10 − = ( ) + ∗ 2∗ 10 − … Tứ phân vị, thập phân vị được sử dụng trong thực tế khi người ta muốn biết mức đạt cao nhất 1/10 hay ¼ số đơn vị xếp từ thấp lên hoặc mức đạt thấp nhất của 1/10 hay ¼ số đơn vị xếp từ cao xuống. 7 4. Số yếu vị (mode) a. Trường hợp dữ liệu nhận các giá trị rời rạc Mode là giá trị xuất hiện nhiều nhất trong một dãy số, ký hiệu là . Ví dụ: Chọn ngẫu nhiên 50 trang của một quyển sách giáo khoa, số lỗi ghi nhận được trên các trang như sau Số lỗi 0 1 2 3 4 Số trang 12 18 8 7 5 Căn cứ vào định nghĩa ta có = 1. b. Trường hợp dữ liệu là các khoảng  Trường hợp số liệu phân nhóm có khoảng cách bằng nhau, trị số của Mode được xác định một cách gần đúng theo công thức = ( ) + ∗ − ( − ) + ( − ) Trong đó ( ) là giới hạn dưới của nhóm chứa ; là trị số khoảng cách nhóm chứa ; , , lần lượt là tần số của nhóm đứng trước, nhóm chứa và nhóm đứng sau nhóm chứa . Ví dụ: Theo ví dụ trên ta có Trọng lượng (gam) Số sản phẩm 484-490 5 490-496 10 496-502 15 502-508 13 508-514 7 Tổng 50 Nhóm chứa Mode là nhóm (496-502) do có tần số lớn nhất, nên được xác định theo công thức = 496+6∗ 15−10 ( 15−10 ) +(15−13) = 500.3(gam)  Trường hợp số liệu phân nhóm có khoảng cách không đều nhau, trị số Mode được xác định vẫn theo công thức ở trên, nhưng việc xác định tổ chứa Mode không căn cứ vào tần số mà căn cứ vào mật độ phân phối (tỷ số giữa các tần số với khoảng cách tổ tương ứng). 8 Ví dụ: Có tài liệu về doanh thu của 79 cửa hàng tháng 5/ 2009 như sau: Doanh thu (triệu đồng) Cửa hàng ( ) Khoảng cách tổ ( ) Mật độ phân phối tổ ( = / ) 200-400 8 200 0.04 400-500 12 100 0.12 500-600 25 100 0.25 600-800 25 200 0.125 800-1000 9 200 0.045 Tổng 79 Theo tài liệu bảng trên, ta xác định Mode ở vào tổ (500-600) vì có mật độ phân phối tổ lớn nhất = 500+100∗ 0.25−0.12 ( 0.25−0.12 ) +(0.25−0.125) = 550.9( triệuđồng) Như vậy đa số các cửa hàng có mức doanh thu trong tháng 5/2009 khoảng 550.9 triệu đồng. Nhận xét: Mode có ưu điểm là không chịu ảnh hưởng của các lượng biến đột xuất, nhưng cũng chính điều này làm cho Mode kém nhạy bén với sự biến thiên của dữ liệu. Trong thực tế, Mode có ứng dụng rõ ràng nhất là để nghiên cứu nhu cầu của thị trường về một loại kích cỡ sản phẩm nào đó như giày dép, nón mũ, quần áo… Mode là giá trị đo lường độ tập trung không bị ảnh hưởng bởi các giá trị đột biến. Mode có thể xác định cho dữ liệu sử dụng các thang đo khác nhau như thang đo định danh, thang đo thứ bậc. Khác với trung bình và trung vị, một tập dữ liệu có thể không xác định được trị số Mode vì không có giá trị nào xuất hiện nhiều nhất; ngược lại, trong một số trường hợp sẽ có hiện tượng nhiều Mode nếu số quan sát có khuynh hướng tập trung vào một vài giá trị. 4.2. Các đặc trưng đo lường khuynh hướng phân tán 1. Khoảng biến thiên Khoảng biến thiên là sai biệt giữa giá trị lớn nhất và giá trị nhỏ nhất = − Trong đó là khoảng biến thiên; là giá trị lớn nhất; là giá trị nhỏ nhất. Khoảng biến thiên tính toán một cách dễ đàng. Tuy nhiên, nhược điểm của số đo này chỉ tùy thuộc vào hai giá trị và vì vậy khoảng biến thiên chưa phản ánh một cách đầy đủ độ phân tán của tất cả các quan sát. 9 Ví dụ: Có hai tổ công nhân, mỗi tố có 5 người với các mức năng suất lao động như sau (Kg) Tổ 1: 200; 250; 300; 350; 400. Tổ 2: 280; 290; 300; 310; 320. Năng suất lao động trung bình của mỗi tổ đều là 300 Kg. Tuy nhiên các mức năng suất lao động trong tổ 1 chênh lệch nhiều hơn so với tổ hai, nên số trung bình của tổ 1 kém đại diện hơn so với tổ hai. Ta có khoảng biến thiên về năng suất lao động = 400−200 = 200(Kg); = 320−280 = 40( Kg) > có nghĩa là các mức năng suất lao động trong tổ 1 biến thiên nhiều hơn trong tổ 2, do đó số trung bình trong tổ 2 đại diện tốt hơn so với tổ 1. 2. Độ trải giữa Độ trải giữa là sai biệt giữa tứ phân vị thứ ba và tứ phân vị đầu tiên, thể hiện độ phân tán của 50% dữ liệu ở giữa của dãy số = − Ví dụ: Có tài liệu về tiền lương của hai tổ công nhân, mỗi tổ có 11 người được cho trong bảng sau (triệu đồng) Tổ 1 0.9 1.2 1.5 1.8 2.1 2.4 2.7 3.0 3.3 3.6 3.9 Tổ 2 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 Tổ 1 có = 3.3−1.5 = 1.8(triệu đồng) Tổ 2 có = 2.7−2.1 = 0.6 (triệu đồng) Độ trải giữa của tổ 1 lớn hơn độ trải giữa của tổ 2, nghĩa là các mức lương trong tổ 1 biến thiên nhiều hơn trong tổ 2. 3. Phương sai Phương sai là số trung bình của bình phương các độ lệch giữa các lượng biến và số trung bình của các lượng biến đó. Phương sai mẫu hiệu chỉnh được sử dụng nhiều nhất trong thống kê suy diễn như ước lượng và kiểm định giả thuyết… Do đó, trong các chương sau khi nói đến phương sai mẫu là ta đề cập đến phương sai mẫu hiệu chỉnh. 10 = ∑ ( − ̅) −1 Hoặc = ∑ ( − ̅) ∗ ∑ −1 4. Độ lệch chuẩn Độ lệch tiêu chuẩn là căn bậc hai của phương sai, thể hiện độ lệch trung bình của tất cả các quan sát so với giá trị trung bình. Đặc trưng này có thể được sử dụng để so sánh độ phân tán của hai hay nhiều tổng thể, trong trường hợp đơn vị tính là giống nhau hoặc giá trị trung bình là bằng nhau. 4.3. Sử dụng kết hợp trung bình và độ lệch tiêu chuẩn 1. Hệ số biến thiên Nếu hai tập dữ liệu có cùng giá trị trung bình, tập dữ liệu nào có độ lệch chuẩn lớn hơn sẽ biến thiên nhiều hơn. Tuy nhiên, nếu hai tập dữ liệu có trị trung bình khác nhau thì không thể kết luận được điều này bằng cách so sánh trực tiếp hai độ lệch chuẩn. Lúc đó hệ số biến thiên được sử dụng để đo lường mức độ biến động tương đối của những tập dữ liệu có trị trung bình khác nhau. Hệ số biến thiên đo lường độ phân tán của dãy số tính một cách tương đối, được xác định bằng cách so sánh độ lệch chuẩn với trung bình số học. Hệ số biến thiên được xác định theo công thức = ∗100% Ví dụ: Trong ngành tài chính, hệ số biến thiên hay được sử dụng để đo mức độ rủi ro tương đối của các danh mục vốn đầu tư. Chẳng hạn, một nhà kinh doanh trên thị trường chứng khoán xem xét hai danh mục đầu tư. Danh mục A bao gồm các khoản đầu tư có lợi nhuận trung bình 16% với độ lệch chuẩn là 4%. Danh mục B bao gồm các khoản đầu tư có lợi nhuận trung bình 9% với độ lệch chuẩn là 3%. Chúng ta có thể tính giá trị cho mỗi danh mục đầu tư như sau = 4 16 ∗100% = 25%; = 3 9 ∗100% = 33%. Mặc dù, danh mục đầu tư B có độ lệch chuẩn bé hơn (khiến ta có cảm giác lợi nhuận ít bị biến động hơn), nhưng thực ra xem xét giá trị lại cho kết luận danh mục B biến thiên nhiều hơn danh mục A. [...]... so sánh hai tập dữ liệu có đơn vị khác nhau vì hệ số biến thiên độc lập với đơn vị đo lường và được tính bằng % 2 Quy tắc thực nghiệm Có khoảng 68% số quan sát của tổng thể hoặc mẫu sẽ tập trung trong phạm vi 1 so với trị trung bình Có khoảng 95% số quan sát của tổng thể hoặc mẫu sẽ tập trung trong phạm vi 2 so với trị trung bình Có khoảng 99.7% số quan sát của tổng thể hoặc mẫu sẽ tập trung trong... trị trung bình Nếu dữ liệu có phân phối hình chuông cân đối, thì có một quy tắc thực nghiệm như sau: Chú ý là với những tập dữ liệu mà phân phối không phải là hình chuông cân đối chúng ta không sử dụng quy tắc thực nghiệm này 3 Chuẩn hóa dữ liệu Khi làm việc với dữ liệu số lượng, sẽ có lúc bạn cần biến đổi chúng thành dữ liệu ở một thang đo chuẩn, chẳng hạn nếu bạn muốn so sánh các đối tượng được đo lường. .. biết độ lệch chuẩn Công thức tính giá trị chuẩn hóa cách xa trung bình một khoảng bằng mấy lần cho dữ liệu mẫu là giá trị dữ liệu gốc; ̅ là trung bình mẫu; là độ lệch chuẩn của mẫu; là điểm số chuẩn hóa cho biết độ lệch chuẩn Trong đó = = ̅ cách xa trung bình một khoảng bằng mấy lần Một giá trị tiến gần đến 0 có nghĩa là quan sát đó ở vị trí rất gần trung bình Một giá trị bằng -1 có nghĩa là quan sát... được đo lường bằng những phương pháp đo hay đơn vị đo khác nhau, việc làm này gọi là chuẩn hóa dữ liệu Giá trị dữ liệu đã chuẩn hóa sẽ cho biết một giá trị quan sát trong tập dữ liệu gốc, lệch khỏi trung bình của nó mấy lần độ lệch chuẩn Điều này thể hiện theo công thức sau đây: Công thức tính giá trị chuẩn hóa cho dữ liệu tổng thể Trong đó là giá trị dữ liệu gốc; là trung bình tổng thể; là độ lệch chuẩn... trung bình Một giá trị bằng -1 có nghĩa là quan sát thực tế đó ở vị trí lệch một độ lệch chuẩn so với trung bình về phía trái; và bằng +1 có nghĩa là quan sát thực tế đó ở vị trí lệch một độ lệch chuẩn so với trung bình về phía phải 4.4 Khảo sát hình dạng phân phối của tập dữ liệu Dựa vào số trung bình, trung vị và Mode, ta có thể biết được hình dáng phân phối của dãy số 1 Phân phối cân đối Phân phối . BẰNG CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ 4.1. Các đại lượng đo lường khuynh hướng tập trung 1. Trung bình cộng a. Trường hợp dữ liệu nhận các giá trị rời rạc Trung bình cộng được xác định bằng cách. xét: Trung vị là trị số duy nhất có thể được xác định trong một dãy số, là đặc trưng đo lường khuynh hướng tập trung không bị ảnh hưởng bởi các giá trị đột biến. Trung vị có thể tính cho các dữ. trị đo lường độ tập trung không bị ảnh hưởng bởi các giá trị đột biến. Mode có thể xác định cho dữ liệu sử dụng các thang đo khác nhau như thang đo định danh, thang đo thứ bậc. Khác với trung

Ngày đăng: 13/08/2014, 08:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan