Chương 2NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT XỬ LÝ SỐ LIỆU QUAN TRẮCGiả pdf

25 26 OPEN (1, FILE = ‘bang1_1.tke’) READ (1, *) READ (1, *) z1, v1 2 READ (1, *) z2, v2 IF (z.GE.z1.AND.z.LE.z2) THEN v = v1+(v2-v1)/(z2-z1)*(z-z1) CLOSE (1) GOTO 1 ELSE z1 = z2 v1 = v2 GOTO 2 ENDIF ENDIF 1 TraB1_1 = v RETURN END Chương 2 NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT XỬ LÝ SỐ LIỆU QUAN TRẮC Giả sử cần nghiên cứu đại lượng ngẫu nhiên X nào đó mà luật phân bố của nó chưa biết trước đích xác, phải xác định quy luật đó từ thí nghiệm hay kiểm tra bằng thực nghiệm giả thuyết về một quy luật nào đó. Khi đó, người ta làm một loạt thí nghiệm với đại lượng ngẫu nhiên X và trong mỗi thí nghiệm (quan trắc), đại lượng X nhận một giá trị nhất định. Tập hợp các số liệu quan trắc của đại lượng được gọi là tập hợp thống kê đơn giản hay chuỗi thống kê đơn giản. Thông thường, tập hợp thống kê đơn giản được trình bày dưới dạng bảng. 2.1. Hàm phân bố thống kê Hàm phân bố thống kê của đại lượng ngẫu nhiên X là tần suất của sự kiện xX < trong chuỗi thống kê đó ( ) ( ) xXPxF <= ∗∗ . (2.1) Để tìm giá trị của hàm phân bố thống kê ứng với x cho trước chỉ cần đếm số quan trắc mà trong đó đại lượng X nhận giá trị nhỏ hơn x và chia cho tổng số quan trắc đã thực hiện n . Hàm phân bố thống kê của đại lượng ngẫu nhiên bất kỳ - rời rạc hay liên tục - sẽ là một hàm bậc thang gián đoạn (hình 2.1). Khi tăng số quan 27 28 trắc n , theo định lý Becnuli, với x bất kỳ tần suất sự kiện xX < tiến dần tới xác suất (hội tụ về xác suất) của sự kiện đó. Do đó, khi tăng n hàm phân bố thống kê )(xF ∗ sẽ tiến tới hàm phân bố thực thụ )(xF của đại lượng ngẫu nhiên X . x F*(x) 1 Hình 2.1. Biểu diễn hàm phân bố thống kê Nếu số quan trắc lớn (cỡ vài trăm quan trắc) tập hợp thống kê đơn giản sẽ cồng kềnh và ít trực quan, người ta phải sơ lược xử lý nó và xây dựng “chuỗi thống kê” dưới dạng bảng như sau: Khoảng trị i I 2 ; xx 1 3 ; xx 2 4 ; xx 3 . . . 1+i ; xx i . . . 1+kk xx ; Tần suất ∗ i p ∗ 1 p ∗ 2 p ∗ 3 p . . . ∗ i p . . . ∗ k p và dựa vào bảng này mà xây dựng tổ chức đồ (histogram) (hình 2.2). Khi tăng số quan trắc tổ chức đồ sẽ là đồ thị của hàm mật độ phân bố đại lượng ngẫu nhiên X . Từ chuỗi thống kê hay tổ chức đồ, có thể nhận được đồ thị gần đúng của hàm phân bố thống kê (hình 2.3). x p Hình 2.2. Tổ chức đồ thống kê x F*(x) 1 Hình 2.3. Đồ thị gần đúng của hàm phân bố thống kê Đối với các phân bố thống kê người ta cũng tính được các đặc trưng bằng số tương tự như với các đặc trưng bằng số của các đại lượng ngẫu nhiên: - Trung bình số học (hay trung bình thống kê) của các giá trị quan trắc của đại lượng ngẫu nhiên: [] n x Xm n i i x ∑ = ∗∗ == 1 M . (2.2) 29 30 - Phương sai thống kê: [] ( ) n mx XD n i xi x ∑ = ∗ ∗∗ − == 1 2 D . (2.3) Khi đã xác định được phân bố thống kê, có thể giải quyết bài toán là trơn, tức chọn đường cong phân bố lý thuyết đều đặn về phương diện nào đó mô tả tốt nhất phân bố thống kê đó. Biểu thức giải tích của đường cong phân bố được chọn phụ thuộc vào một số tham số, do đó, nhiệm vụ là trơn là chọn hợp lý các tham số đó. Một trong những phương pháp chọn hợp lý là phương pháp mômen, theo phương pháp này một số đặc trưng bằng số quan trọng nhất (các mômen) của phân bố lý thuyết được cho bằng các đặc trưng thống kê tương ứng. Thí dụ, nếu muốn mô tả phân bố của đại lượng ngẫu nhiên X bằng phân bố chuẩn () 2 2 2 2 1 σ πσ mx exf − − = )( thì người ta chọn ∗ = x mm và ∗∗ === DD σσ . 2.2. Sự phù hợp của phân bố lý thuyết và phân bố thống kê Giả sử phân bố thống kê đã được là trơn bằng một đường cong lý thuyết )(xf nào đó. Dù đường cong lý thuyết này được chọn tốt thế nào chăng nữa cũng không tránh khỏi những sai khác nào đó. Vậy xuất hiện câu hỏi: những sai khác này là ngẫu nhiên liên quan tới số lượng quan trắc hạn chế hay những sai khác này là đáng kể và liên quan tới việc chọn sai đường cong lý thuyết. Để trả lời câu hỏi này cần “những tiêu chuẩn phù hợp”. Tư tưởng của việc sử dụng các tiêu chuẩ n phù hợp như sau: Trên cơ sở dữ liệu thống kê đã có, cần kiểm tra một giả thuyết H rằng đại lượng ngẫu nhiên X có hàm phân bố )(xF . Để chấp nhận hoặc bác bỏ giả thuyết H , người ta xét đại lượng U đặc trưng cho mức độ bất phù hợp của phân bố lý thuyết và phân bố thống kê. Đại lượng U có thể được chọn theo những cách khác nhau, thí dụ, đó có thể là tổng các bình phương của độ lệch giữa xác suất lý thuyết i p và tần suất tương ứng ∗ i p hay tổng của những bình phương độ lệch đó nhưng với những hệ số tỷ trọng nào đó, hay độ lệch cực đại của hàm phân bố thống kê )(xF ∗ và hàm lý thuyết )(xF Giả sử đại lượng U đã chọn được theo một cách nào đó. Rõ ràng U sẽ là một đại lượng ngẫu nhiên. Quy luật phân bố của nó phụ thuộc vào quy luật phân bố của đại lượng ngẫu nhiên X và vào số lượng quan trắc n . Giả sử quy luật phân bố này đã được biết. Nhờ dữ liệu thống kê thấy rằng đại lượng đặc trưng mức độ sai khác U nhận giá trị u . Sai khác này là do những nguyên nhân ngẫu nhiên hay do có sự khác nhau đáng kể giữa phân bố lý thuyết và thống kê, tức do giả thuyết H sai? Muốn giải đáp câu hỏi này người ta giả thiết rằng giả thuyết H đúng và tính xác suất mà do những nguyên nhân ngẫu nhiên liên quan tới số lượng quan trắc còn thiếu mà đại lượng U không nhỏ hơn giá trị u đã thấy qua quan trắc, tức tính xác suất của sự kiện uU ≥ . Nếu xác suất này rất nhỏ, thì phải bác bỏ giả thuyết H ; nếu xác suất này đáng kể thì người ta công nhận rằng các số liệu quan trắc không mâu thuẫn với giả thuyết H . 2.2.1. Tiêu chuẩn 2 χ Trong một số phương pháp chọn U , quy luật phân bố của U có 31 32 những tính chất rất đơn giản và khi n đủ lớn thực tế nó không phụ thuộc vào hàm )(xF . Tiêu chuẩn 2 χ của Pierson là một trong những tiêu chuẩn phù hợp được ứng dụng nhiều nhất. Giả sử thực hiện n quan trắc độc lập. Kết quả quan trắc được dẫn tới k khoảng giá trị và cho dưới dạng chuỗi thống kê (bảng phân bố tần suất). Đòi hỏi kiểm tra xem những dữ liệu quan trắc này có phù hợp với giả thiết rằng đại lượng ngẫu nhiên X có quy luật phân bố )(xF đã cho không. Biết quy luật phân bố lý thuyết )(xF , có thể tính những xác suất lý thuyết của sự kiện X rơi vào từng khoảng giá trị: k ppp , , , 21 . Bây giờ ta chọn làm mức độ sai khác giữa phân bố lý thuyết và thống kê một tổng như sau () ∑ = ∗ −= k i iii ppCU 1 2 . (2.4) Các hệ số tỷ trọng i C (tỷ trọng của các khoảng giá trị) có ý nghĩa là những độ lệch ứng với những khoảng giá trị khác nhau không nên xem là ngang hàng nhau về mức ý nghĩa, cùng một độ lệch ii pp − ∗ có thể ít đáng kể khi bản thân xác suất i p lớn nhưng rất đáng kể khi i p nhỏ. Pierson đã chứng minh rằng nếu lấy i i p n C = , thì với n lớn, luật phân bố của U có những tính chất rất đơn giản: nó thực tế không phụ thuộc vào hàm )(xF và số quan trắc n , mà chỉ phụ thuộc vào số những khoảng giá trị k , cụ thể khi n tăng quy luật này sẽ dần tới phân bố 2 χ 1 . Vậy ( ) ∑ = ∗ − == k i i ii p pp nU 1 2 2 χ , hoặc, vì n m p i i = ∗ , − i m số lượng các quan trắc trong các khoảng giá trị i , nên ( ) ∑ = − == k i i ii np npm U 1 2 2 χ . (2.5) Phân bố 2 χ phụ thuộc vào tham số r , gọi là số bậc tự do. Số bậc tự do r bằng số các khoảng giá trị k trừ đi số các điều kiện liên hệ mà ∗ i p phải tuân theo (số các điều kiện ràng buộc). Thí dụ về các điều kiện ấy có thể là: 1) ∑ = ∗ = k i i p 1 1 nếu ta đòi hỏi sao cho tổng các tần số thống kê phải bằng đơn vị; 1 Phân bố 2 χ với r bậc tự do là phân bố của tổng các bình phương của r đại lượng ngẫu nhiên độc lập, từng đại lượng trong số chúng tuân theo luật phân bố chuẩn với kỳ vọng toán học bằng không và phương sai bằng đơn vị. Phân bố này được đặc trưng bởi hàm mật độ ⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ < > Γ = −− 00 0 2 2 1 2 1 2 2 u uu r uk ur r r e khi khi )( trong đó ∫ ∞ −− −=Γ 0 1 )( dtet t α α hàm Gamma. 33 34 2) ∑ = ∗ = k i xii mpx 1 ~ nếu ta chọn phân bố lý thuyết sao cho các giá trị trung bình lý thuyết và thống kê phải trùng nhau; 3) ( ) ∑ = ∗∗ =− k i xixi Dpmx 1 2 ~ nếu ngoài ra phương sai lý thuyết và phương sai thống kê cũng phải trùng nhau. Người ta đã lập sẵn các bảng phân bố 2 χ (bảng 2.1 là một trong số các bảng đó). Dùng các bảng này có thể đối với từng giá trị 2 χ và số bậc tự do r tìm được xác suất p của sự kiện: đại lượng phân bố theo quy luật 2 χ vượt quá giá trị này. Phân bố 2 χ cho phép đánh giá mức độ phù hợp của phân bố lý thuyết và thống kê. Giả thiết đại lượng X đúng là phân bố theo quy luật )(xF . Khi đó xác suất p xác định từ bảng này sẽ là xác suất của sự kiện: do những nguyên nhân ngẫu nhiên đơn thuần, sai khác của phân bố lý thuyết và thống kê tính theo biểu thức (2.5) sẽ không nhỏ hơn giá trị 2 χ mà ta thực thấy trong chuỗi quan trắc. Nếu xác suất này rất nhỏ (nhỏ đến mức sự kiện với xác suất như vậy có thể xem như thực tế không khả dĩ), thì phải xem kết quả quan trắc mâu thuẫn với giả thuyết H rằng quy luật phân bố của đại lượng X là )(xF . Cần phải bác bỏ giả thuyết như là một giả thuyết không hiện thực. Nếu xác suất p khá lớn, ta có thể công nhận những khác biệt giữa phân bố lý thuyết và thống kê là không đáng kể, ngẫu nhiên. Giả thuyết H có thể xem là hiện thực hoặc ít ra là không mâu thuẫn với dữ liệu quan trắc. Bảng 2.1. Những giá trị 2 χ phụ thuộc vào r và p p r 0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001 1 0,000 0,001 0,004 0,016 0,064 0,148 0,455 1,074 1,642 2,71 3,84 5,41 6,64 10,83 2 0,020 0,040 0,103 0,211 0,446 0,713 1,386 2,41 3,22 4,60 5,99 7,82 9,21 13,82 3 0,115 0,185 0,352 0,584 1,005 1,424 2,37 3,66 4,64 6,25 7,82 9,84 11,34 16,27 4 0,297 0,429 0,711 1,064 1,649 2,20 3,36 4,88 5,99 7,78 9,49 11,67 13,28 18,46 5 0,554 0,752 1,145 1,610 2,34 3,00 4,35 6,06 7,29 9,24 11,07 13,39 15,09 20,5 6 0,872 1,134 1,635 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 15,03 16,81 22,5 7 1,239 1,564 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 16,62 18,48 24,3 8 1,646 2,03 2,73 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 18,17 20,1 26,1 9 2,09 2,53 3,32 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 19,68 21,7 27,9 10 2,56 3,06 3,94 4,86 6,18 7,27 9,34 11,78 13,44 15,99 18,31 21,2 23,2 29,6 11 3,05 3,61 4,58 5,58 6,99 8,15 10,34 12,90 14,63 17,28 19,68 22,6 24,7 31,3 12 3,57 4,18 5,23 6,30 7,81 9,03 11,34 14,01 15,81 18,55 21,0 24,1 26,2 32,9 13 4,11 4,76 5,89 7,04 8,63 9,93 12,34 15,12 16,98 19,81 22,4 25,5 27,7 34,6 14 4,66 5,37 6,57 7,79 9,47 10,82 13,34 16,22 18,15 21,1 23,7 26,9 29,1 36,1 15 5,23 5,98 7,26 8,35 10,31 11,72 14,34 17,32 19,31 22,3 25,0 28,3 30,6 37,7 16 5,81 6,61 7,96 9,31 11,15 12,62 15,34 18,42 20,5 23,5 26,3 29,6 32,0 39,3 17 6,41 7,26 8,67 10,08 12,00 13,53 16,34 19,51 21,6 24,8 27,6 31,0 33,4 40,8 18 7,02 7,91 9,39 10,86 12,86 14,44 17,34 20,6 22,8 26,0 28,9 32,3 34,8 42,3 19 7,63 8,57 10,11 11,65 13,72 15,35 18,34 21,7 23,9 27,2 30,1 33,7 36,2 43,8 20 8,26 9,24 10,85 12,44 14,58 16,27 19,34 22,8 25,0 28,4 31,4 35,0 37,6 45,3 21 8,90 9,92 11,59 13,24 15,44 17,18 20,3 23,9 26,2 29,6 32,7 36,3 38,9 46,8 22 9,54 10,60 12,34 14,04 16,31 18,10 21,3 24,9 27,3 30,8 33,9 37,7 40,3 48,3 23 10,20 11,29 13,09 14,85 17,19 19,02 22,3 26,0 28,4 32,0 35,2 39,0 41,6 49,7 24 10,86 11,99 13,85 15,66 18,06 19,94 23,3 27,1 29,6 33,2 36,4 40,3 43,0 51,2 25 11,52 12,70 14,61 16,47 18,94 20,9 24,3 28,2 30,7 34,4 37,7 41,7 44,3 52,6 26 12,20 13,41 15,38 17,29 19,82 21,8 25,3 29,2 31,8 35,6 38,9 42,9 45,6 54,1 27 12,88 14,12 16,15 18,11 20,7 22,7 26,3 30,3 32,9 36,7 40,1 44,1 47,0 55,5 28 13,56 14,85 16,93 18,94 21,6 23,6 27,3 31,4 34,0 37,9 41,3 45,4 48,3 56,9 29 14,26 15,57 17,71 19,77 22,5 24,6 28,3 32,5 35,1 39,1 42,6 46,7 49,6 58,3 30 14,95 16,31 18,49 20,6 23,4 25,5 29,3 33,5 36,2 40,3 43,8 48,0 50,9 59,7 35 36 2.2.2. Sơ đồ ứng dụng tiêu chuẩn 2 χ để đánh giá sự phù hợp 1) Xác định độ sai khác 2 χ theo công thức (2.5). 2) Xác định số bậc tự do r như là số khoảng giá trị k trừ đi số liên hệ s : skr − = . 3) Theo r và 2 χ nhờ bảng 2.1 tìm xác suất p của sự kiện: đại lượng có phân bố 2 χ với r bậc tự do vượt quá giá trị 2 χ đã tính được. Nếu p rất nhỏ, giả thuyết bị bác bỏ (trong thực tế nếu p nhỏ hơn 0,1 thì nên kiểm tra lại thí nghiệm); nếu p khá lớn, có thể xem giả thuyết không mâu thuẫn với thực đo. Khi sử dụng tiêu chuẩn 2 χ , không những chỉ tổng số quan trắc n đủ lớn mà cả số quan trắc i m trong từng khoảng giá trị cũng phải đủ lớn. Trong thực tế tính toán, nên có trong mỗi khoảng giá trị không ít hơn 5 − 10 quan trắc, khi số đó ít hơn thì nên nhóm một số khoảng giá trị lại với nhau. Thí dụ: 1) Cho chuỗi thống kê gồm 500 quan trắc đã được nhóm thành các khoảng giá trị và được ghi vào bảng như sau: Khoảng i I −4; −3 −3; −2 −2; −1 −1; 0 i m 6 25 72 133 ∗ i p 0,012 0,050 0,144 0,266 Khoảng i I 0; 1 1; 2 2; 3 3; 4 i m 120 88 46 10 ∗ i p 0,240 0,176 0,092 0,020 2) Là trơn phân bố này bằng quy luật chuẩn 2 2 2 )( 2 1 )( σ πσ mx exf − − = . Tính: trung bình thống kê theo công thức (2.2) được 1680,= ∗ x m , phương sai thống kê theo công thức (2.3) được 0982,= ∗ x D . Chọn các tham số ∗ = x mm và ∗ = x D 2 σ : 1680, = m và 4481, = σ . Biểu thức phân bố chuẩn sẽ là: )448,1(2 )168,0( 2 2 2448,1 1 )( − − = x exf π . Dùng bảng phân bố chuẩn (bảng 1.1) để tính các trị số của hàm )(xf tại các đầu mút của các khoảng giá trị: x −4 −3 −2 −1 0123 4 )( xf 0,004 0,025 0,090 0,199 0,274 0,234 0,124 0,041 0,008 Theo số liệu bảng này dựng tổ chức đồ và đường cong là trơn của nó lên cùng một đồ thị. 3) Kiểm tra sự phù hợp giữa phân bố lý thuyết với phân bố thống kê: Dùng quy luật chuẩn lý thuyết )(xf trên đây, tìm các xác suất rơi vào những khoảng giá trị theo công thức: ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − = ∗ + ∗ σσ φφ mxmx p ii i 1 ; ở đây − +1 , ii xx biên của các khoảng giá trị. Sau đó lập bảng ( 500=n ): Khoảng i I −4; −3 −3; −2 −2; −1 −1; 0 0; 1 1; 2 2; 3 3; 4 i m 6 25 72 133 120 88 46 10 i np 6,2 26,2 71,2 122,2 131,8 90,5 38,2 10,5 37 38 Theo công thức (2.5), tính ( ) 943 8 1 2 2 ,= − = ∑ =i i ii np npm χ . Tính số bậc tự do 8=k , s (số liên hệ) = 3 (ở đây dùng quy luật chuẩn, lấy cả 3 điều kiện). Vậy 538 = −=r . Theo bảng 2.1 tìm được: với 5=r , 943 2 ,= χ thì 560,= p . Xác suất 560, = p không nhỏ. Vậy giả thuyết rằng đại lượng quan trắc có phân bố chuẩn với 1680,=m và 4481, = σ có thể xem là hiện thực. 2.2.3. Tiêu chuẩn phù hợp của Kolmogorov Kolmogorov A. N. đã dùng giá trị cực đại của mô đun hiệu giữa hàm phân bố thống kê )(xF ∗ và hàm phân bố lý thuyết )()( max xFxFD −= ∗ làm mức độ bất phù hợp giữa chúng. Chọn như vậy có lợi là rất dễ tính D và D có quy luật phân bố khá đơn giản. Kolmogorov đã chứng minh được rằng dù đại lượng ngẫu nhiên X có hàm phân bố như thế nào thì khi tăng không ngừng số quan trắc độc lập n , xác suất của bất đẳng thức λ ≥nD sẽ tiến tới giới hạn ∑ ∞ −∞= − −−= k kk eP 22 2 11 λ λ )()( . (2.6) Những giá trị của xác suất )( λ P tính theo công thức (2.6) dẫn trong bảng 2.2. Bảng 2.2. Những giá trị của xác suất )( λ P phụ thuộc vào λ λ )( λ P λ )( λ P λ )( λ P 0,0 1,000 0,7 0,711 1,4 0,040 0,1 1,000 0,8 0,544 1,5 0,022 0,2 1,000 0,9 0,393 1,6 0,012 0,3 1,000 1,0 0,270 1,7 0,006 0,4 0,997 1,1 0,178 1,8 0,003 0,5 0,964 1,2 0,112 1,9 0,002 0,6 0,864 1,3 0,068 2,0 0,001 Sơ đồ sử dụng tiêu chuẩn Kolmogorov: Dựng hàm phân bố thống kê )(xF ∗ và hàm phân bố lý thuyết )( xF , xác định D cực đại. Sau đó xác định đại lượng nD= λ và theo bảng 2.2 tìm xác suất )( λ P . Nếu xác suất )( λ P rất nhỏ thì phải bác bỏ giả thuyết, nếu xác suất )( λ P khá lớn thì có thể xem giả thuyết phù hợp với số liệu quan trắc. Tiêu chuẩn Kolmogorov đơn giản hơn so với tiêu chuẩn 2 χ nên người ta ưa dùng. Nhược điểm: chỉ dùng trong trường hợp hàm )( xF hoàn toàn biết trước từ những lập luận lý thuyết, tức biết trước cả dạng và những tham số trong nó. Trường hợp này ít gặp trong thực tế. Thường từ suy luận lý thuyết ta chỉ biết trước dạng tổng quát của hàm )( xF , còn những tham số bằng số của nó được xác định theo tài liệu thống kê. Trong khi dùng tiêu chuẩn Pierson, điểm này đã được tính đến bằng cách giảm số bậc tự do của phân bố 2 χ . Tiêu chuẩn Kolmogorov không tính đến điều đó. Nếu cứ dùng tiêu chuẩn Kolmogorov trong những trường hợp mà các tham số của phân bố lý thuyết được ước lượng theo số liệu thống kê, thì tiêu chuẩn này sẽ cho những giá trị xác suất )( λ P rõ ràng lớn hơn; vì vậy chúng ta sẽ có thể chấp nhận nhầm giả thuyết. 39 40 2.3. Khái niệm về ước lượng tham số của phân bố Để xác định quy luật phân bố, cần có tài liệu thống kê đủ rộng rãi cỡ vài trăm quan trắc. Nhưng trong thực tế nhiều khi chúng ta chỉ có những tài liệu quan trắc khá hạn chế, cỡ vài chục số đo. Khối lượng tài liệu này không đủ để tìm ra quy luật thống kê, nhưng có thể sử dụng để nhận một vài thông tin về đại lượng ngẫu nhiên, thí dụ, tính một số đặc trưng bằng số quan trọng nhất như kỳ vọng toán học, phương sai, một vài mômen bậc cao hơn. Ta sẽ xét những bài toán về xác định các đặc trưng mà quy luật phân bố phụ thuộc vào chúng, theo một lượng quan trắc hạn chế. Một tham số bất kỳ tính được theo chuỗi quan trắc hạn chế sẽ chứa yếu tố ngẫu nhiên. Giá trị ngẫu nhiên gần đúng này được gọi là ước lượng của tham số. Thí dụ về ước lượng của kỳ vọng toán học là trung bình số học các giá trị quan trắc. Sai số (chênh lệch giữa ước lượng và tham số) sẽ càng lớn nếu số quan trắc càng ít. Cần phải chọn ước lượng sao cho các sai số có thể cực tiểu. Có những đòi hỏi để đảm bảo cho ước lượng, với một ý nghĩa nào đó, có chất lượng. Thí dụ, nếu ta đòi hỏi sao cho ước lượng a ~ khi tăng số quan trắc phải tiến dần tới tham số a thì ước lượng a ~ đó có tính chất vững chắc; nếu ước lượng a ~ không có xu hướng vượt quá a hay nhỏ hơn a một cách hệ thống, thì ước lượng a ~ có tính chất không chệch; nếu ước lượng không chệch a ~ có phương sai so với các ước lượng khác là nhỏ nhất thì ước lượng a ~ có tính chất hữu hiệu. 2.4. Ước lượng của kỳ vọng toán học và phương sai Người ta chứng minh được rằng ước lượng của kỳ vọng toán học mà chúng ta dùng là trung bình số học các giá trị quan trắc * m tính theo công thức (2.2) n x mm n i i ∑ = == 1 * ~ (2.7) là ước lượng vững chắc, không chệch và trong trường hợp đại lượng X phân bố chuẩn là hữu hiệu. Ước lượng của phương sai D là phương sai thống kê * D tính theo công thức (2.3) () n mx D n i i ∑ = ∗ − = 1 2 ~ là vững chắc nhưng không có tính chất không chệch. Vậy nếu dùng * D thay cho D ta sẽ phạm một sai số hệ thống nào đó về phía nhỏ hơn D . Người ta loại trừ độ chệch này bằng cách nhân * D với 1 − n n , tức có công thức của ước lượng của D như sau 1 1 2 − − = ∑ = n mx D n i i ) ~ ( ~ (2.8) hay 1 2 1 2 − ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ −= ∑ = n n m n x D n i i ~ ~ . (2.9) 2.5. Khoảng tin cậy và xác suất tin cậy Kiểu ước lượng như trong mục 2.4 gọi là ước lượng điểm. Nhiều khi 41 42 đòi hỏi không chỉ tìm giá trị bằng số phù hợp của tham số a , mà phải đánh giá độ chính xác và độ tin cậy của nó, phải biết nếu thay tham số a bằng ước lượng điểm a ~ thì có thể dẫn tới những sai số nào và có thể hy vọng rằng những sai số ấy không vượt quá một giới hạn cho trước với mức độ chắc chắn nào. Những bài toán kiểu như vậy đặc biệt cần thiết khi số lượng quan trắc nhỏ, ước lượng điểm a ~ ở mức độ lớn sẽ là ngẫu nhiên và phép thay thế gần đúng a bằng a ~ có thể dẫn tới những sai số nghiêm trọng. Để có khái niệm về độ chính xác và độ tin cậy của ước lượng a ~ , trong toán học thống kê dùng khoảng tin cậy và xác suất tin cậy. Giả sử đối với tham số a đã nhận được ước lượng không chệch a ~ . Bây giờ cần đánh giá sai số có thể có khi dùng ước lượng đó. Ta đặt ra một xác suất đủ lớn β nào đó (thí dụ, 99095090 , ;, ;, = β ) sao cho sự kiện với xác suất β có thể xem là thực tế đáng tin, và tìm một giá trị ε sao cho () βε =<− ~ aaP . (2.10) Khi đó phạm vi của các giá trị sai số khả dĩ xuất hiện khi thay a bằng a ~ sẽ chỉ là ε ± ; những sai số lớn hơn về giá trị tuyệt đối sẽ chỉ xuất hiện với xác suất nhỏ β α − = 1. Viết lại (2.10) thành () β ε ε = + <<− aaaP ~ ~ , (2.11) đẳng thức (2.11) có nghĩa là: với xác suất β , giá trị chưa biết của tham số a nằm trong khoảng ) ~ ; ~ ( ε ε β + −= aaI . (2.12) Ở đây cần chú ý rằng đại lượng a không ngẫu nhiên, mà chính khoảng β I ngẫu nhiên ( a ~ ngẫu nhiên, và ε 2 ngẫu nhiên vì ε được tính theo các số liệu quan trắc). Vì vậy trong trường hợp này nên giải thích đại lượng β là xác suất của sự kiện: khoảng ngẫu nhiên β I phủ lên điểm a trên trục số (hình 2.4). 0 1 a a a ~ 2 a β I Hình 2.4. Biểu diễn khoảng tin cậy Xác suất β gọi là xác suất tin cậy, còn khoảng β I gọi là khoảng tin cậy. Những ranh giới của khoảng β I : ε − = aa ~ 1 và ε + = aa ~ 2 gọi là những ranh giới tin cậy. Ta xét vấn đề tìm các ranh giới tin cậy 1 a và 2 a : Giả sử đối với tham số a có ước lượng không chệch a ~ . Nếu như ta biết trước luật phân bố của đại lượng a ~ , thì bài toán tìm khoảng tin cậy sẽ đơn giản: chỉ cần tìm một giá trị ε sao cho ( ) βε =<− ~ aaP . Khó khăn là ở chỗ luật phân bố của ước lượng a ~ phụ thuộc vào luật phân bố của đại lượng X và do đó, phụ thuộc vào những tham số chưa biết của nó (cụ thể vào chính tham số a ). Để khắc phục khó khăn này, có thể sử dụng một phương pháp gần đúng thô thiển như sau: thay những tham số chưa biết trong biểu thức của ε bằng những ước lượng điểm. Khi số lượng quan trắc khá lớn (khoảng 3020 ÷ ), thì phương pháp này thường cho những kết quả tạm thoả mãn. 43 44 2.5.1. Khoảng tin cậy đối với kỳ vọng toán học Giả sử thực hiện n thí nghiệm độc lập với đại lượng ngẫu nhiên X , các đặc trưng của nó - kỳ vọng toán học m và phương sai D chưa biết. Đối với những tham số này đã nhận được những ước lượng: 1 1 2 1 − − == ∑∑ == n mX D n X m i i n i i ) ~ ( ~ ; ~ . Phải dựng khoảng tin cậy β I ứng với xác suất tin cậy β cho kỳ vọng toán học m của đại lượng X . Khi giải bài toán này ta nhớ lại rằng đại lượng m ~ là tổng của n đại lượng ngẫu nhiên i X độc lập và phân bố như nhau, và do đó, theo định lý tới hạn trung tâm, khi n đủ lớn luật phân bố của nó gần trùng với luật phân bố chuẩn. Trong thực tế, thậm chí với số lượng các số hạng không lớn lắm (khoảng 2010 ÷ ), luật phân bố của tổng có thể xem gần đúng là chuẩn. Vậy ta sẽ xuất phát từ chỗ đại lượng m ~ phân bố theo luật chuẩn. Các đặc trưng của luật này - kỳ vọng toán học và phương sai tuần tự bằng m và nD / . Giả sử đại lượng D đã biết, và ta tìm đại lượng β ε sao cho ( ) βε β =<− ~ mmP . Biến đổi vế trái của đẳng thức trên đây bằng cách dùng các công thức (1.25), (1.26), (1.28) và (1.29): ( ) ( ) . ~ ~ ~~~ ~~~~ 121 − ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ Φ= ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ Φ+− ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ Φ= = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ −Φ− ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ Φ= ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ −− Φ− ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ −+ Φ= =+<<−=<− ∗∗∗ ∗∗∗∗ mmm mmmm mmmm mmmPmmP σ ε σ ε σ ε σ ε σ ε σ ε σ ε εεε βββ ββββ βββ Vậy β σ ε β =− ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ Φ ∗ 12 ~ m , trong đó: − Φ ∗ tích phân xác suất; −= nD m / ~ σ độ lệch bình phương trung bình của ước lượng m ~ . Từ đó ta tìm được giá trị của β ε : ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + Φ= ∗ 2 1 arg ~ β σε β m , (2.13) trong đó ( ) −Φ ∗ xarg hàm ngược của hàm ( ) x ∗ Φ , tức giá trị của đối số mà ứng với nó hàm phân bố chuẩn bằng x . Bảng 2.3. Những trị số β t tương ứng với xác suất tin cậy β β β t β β t β β t β β t 0,80 1,282 0,86 1,475 0,91 1,694 0,97 2,169 0,81 1,310 0,87 1,513 0,92 1,750 0,98 2,325 0,82 1,340 0,88 1,554 0,93 1,810 0,99 2,576 0,83 1,371 0,89 1,597 0,94 1,880 0,9973 3,000 0,84 1,404 0,90 1,643 0,95 1,960 0,999 3,290 0,85 1,439 0,96 2,053 [...]... tính được theo những quan trắc cũ Do đó, số lượng quan trắc lại một lần nữa có thể tăng lên Tuy nhiên, phép xấp xỉ bậc nhất nhận được theo phương pháp vừa mô tả có thể dùng làm kế hoạch tạm thời khi bố trí loạt quan trắc Phụ lục chương 2 A Mã Fortran của thủ tục tra bảng phân bố χ 2 (bảng 2.1) C Cho phép thực hiện hai kiểu tra bảng: thuận và ngược C Tham số nguyên ic = 0 : từ số bậc tự do (n) và xác... suất chưa biết p của sự kiện A theo tần suất p * của nó qua n thí nghiệm độc lập Bây giờ ta xem tần suất của sự kiện A qua n thí nghiệm độc lập là tung bình số học của các giá trị quan trắc của đại lượng X mà đại lượng này trong mỗi thí nghiệm riêng nhận giá trị 1 nếu sự kiện A xảy ra và nhận giá trị 0 nếu sự kiện A không xảy ra: n p* = ∑ Xi i =1 (2.37) n Ta biết rằng kỳ vọng toán học của đại lượng X... đúng một bài toán khác quan trọng trong thực hành: số quan trắc phải bằng bao nhiêu để với xác suất tin cậy β sai số gặp phải khi thay thế xác suất bằng tần suất không vượt quá một giá trị cho trước? Khi giải bài toán như vậy ta cũng có thể sử dụng hình 2.6, chỉ cần dựng lại nó: biểu diễn các giới hạn tin cậy như là các hàm của số lượng 65 Hình 2.7 Đồ thị để xác định số lần quan trắc n theo xác suất... chung với số lượng thí nghiệm hạn chế, các mô men bậc cao xác định với sai số lớn Tuy nhiên, trong thực tế thường là dạng của luật phân bố của đại lượng X được biết trước, chỉ không biết trước các tham số của phân bố đó mà thôi Khi đó có thể biểu diễn μ 4 qua D 47 σD = ~ 2 ~ D n −1 (2.22) Trong một số trường hợp luật phân bố khác, người ta cũng có công thức biểu thị μ 4 qua D Nhưng khi dạng của luật... lượng t β tùy thuộc vào β Nếu có Theo bảng 2.4 với n − 1 = 4 và β = 0,9 tìm được bảng giá trị của tích phân t β = 2,13 , x Ψ ( x) = 2 ∫ S n −1 (t )dt , từ đó 0 ε β = tβ thì có thể tìm được đại lượng t β bằng cách nội suy ngược trong bảng đó Tuy nhiên nên lập trước bảng giá trị t β (bảng 2.4) Trong bảng này dẫn được t β theo bảng 2.4 và cho ~ D , n ε β = tβ (2.33) Thí dụ 2.4: Đối với điều kiện thí dụ 1,... đưa vào đó những trị số của μ 4 và D (dù là những trị số gần đúng) Thay cho D có thể sử dụng ước lượng ~ của nó D Về nguyên tắc mô men tâm bậc bốn μ 4 cũng có thể thay thế bằng ước lượng của nó, thí dụ, bằng đại lượng sau: n ~ ∑ ( X i − m) 4 i =1 n , (2.21) Trong (2.21) thay D chưa biết bằng ước lượng của nó, ta được 2 ~2 ~ D [ D] = D , n −1 (2.19) trong đó μ 4 − mô men tâm bậc bốn của đại lượng X ∗... bằng p ; phương sai của nó bằng pq , trong đó q = 1 − p Kỳ vọng toán học của trung bình số học cũng bằng p , tức ước lượng p * cho p là ước lượng không chệch Phương sai của đại lượng p * bằng D [ p *] = pq n Bây giờ ta xét vấn đề về độ chính xác và độ tin cậy của ước lượng trên, tức về việc dựng khoảng tin cậy Bài toán này là một trường hợp bộ phận của bài toán về khoảng tin cậy của kỳ vọng toán học... ta có thể lập bảng (hay biểu diễn đồ thị) nghiệm của chúng ứng với một số giá trị β điển hình Thí dụ, trong cuốn sách Теория n! ), còn tần suất p * chính là số lần xuất hiện sự kiện m ! ( n − m) ! вероятностией и математическая статистика в технике của И В Дунин-Барковский và Н В Смирнов có các bảng p1 và p2 ứng với β = 0,95 và β = 0,99 Hình 2.6 là thí dụ biểu thị bằng đồ thị nghiệm của (2.47) và... cong ứng với n đã cho ở hai điểm Tung độ của hai điểm ấy sẽ là giới hạn tin cậy p1 và p2 khoảng đó 63 64 quan trắc n Thí dụ 2.8: đã thực hiện quan trắc 25 lần, trong đó thấy hiện tượng A xảy ra 12 lần Tìm gần đúng số lần quan trắc n cần thiết để sao cho với xác suất β = 0,9 sai số do thay thế xác suất bằng tần suất không vượt quá 20 % Giải: Ta xác định sai số tới hạn cho phép: Δ = 0,2 ⋅ 0,48 = 0,096... các đường cong trên hình 2.6 dựng đồ thị mới: trên trục hoành đặt những số lượng quan trắc n khác nhau, trên trục tung − các ranh giới tin cậy của xác suất (hình 2.7) Hình 2.6 Đồ thị của nghiệm phương trình 2.47 Thí dụ 2.7: Tìm khoảng tin cậy I β ( p1 , p2 ) đối với xác suất của một sự kiện nếu trong 50 lần quan trắc tần suất của nó bằng p* = 0,4 Xác suất tin cậy β = 0,9 Giải: Theo hình 2.6, với . Chương 2 NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT XỬ LÝ SỐ LIỆU QUAN TRẮC Giả sử cần nghiên cứu đại lượng ngẫu nhiên X nào đó mà luật phân bố của nó chưa biết trước đích. chọn hợp lý các tham số đó. Một trong những phương pháp chọn hợp lý là phương pháp mômen, theo phương pháp này một số đặc trưng bằng số quan trọng nhất (các mômen) của phân bố lý thuyết được. được các đặc trưng bằng số tương tự như với các đặc trưng bằng số của các đại lượng ngẫu nhiên: - Trung bình số học (hay trung bình thống kê) của các giá trị quan trắc của đại lượng ngẫu nhiên:

Chương 2NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT XỬ LÝ SỐ LIỆU QUAN TRẮCGiả pdf

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan