XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP VỚI PHẦN MỀM EXCEL ppsx

35 1.2K 20
XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP VỚI PHẦN MỀM EXCEL ppsx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

PGS. TS. Nguyễn Hải Thanh XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP với phần mềm Excel (Bài giảng cho dự án CNTT 2008) HÀ NỘI, THÁNG 10 NĂM 2008 Xử lý dữ liệu thống kê nông nghiệp với phần mềm Excel Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông nghiệp nói riêng, một cách khá hiệu quả thông qua việc sử dụng menu Tools> Data Analysis (nếu không có mục này thì chọn Tools> Add-in > Analysis ToolPak để cài đặt thêm). Bài giảng này giới thiệu về phương pháp khảo sát mẫu và một số công cụ xử lý số liệu thống kê mà Excel cung cấp. Phần quan trọng nhất của bài giảng được dành cho việc phân tích các ảnh hưởng của các nhân tố khác nhau lên kết quả đầu ra của thí nghiệm, thường được gọi là phân tích nhân tố. I. Giới thiệu về phương pháp khảo sát mẫu và thống kê mô tả 1.1. Giới thiệu về phương pháp khảo sát mẫu Để nghiên cứu về một chỉ số nào đó trên các cá thể của một tổng thể với rất nhiều cá thể, có thể tiến hành theo hai cách. Cách 1: Điều tra chỉ số đó trên tất cả các cá thể của tổng thể; cách này đòi hỏi chi phí cao, tốn kém thời gian, nhiều khi không khả thi. Cách 2: Điều tra một mẫu ngẫu nhiên các cá thể của tổng thể; dựa trên kết quả của mẫu điều tra được và các định lý của lý thuyết xác suất cần xử lý số liệu mẫu để đưa ra một suy đoán thống kê về chỉ số đó cho toàn bộ tổng thể. Cách 2 có thể được gọi là phương pháp thống kê toán học, hay đơn giản hơn là phương pháp khảo sát mẫu. Một cách tổng quát, phương pháp khảo sát mẫu được áp dụng khi cần nghiên cứu một số chỉ số nào đó cũng như các mối liên quan của chúng trên các cá thể của tổng thể. Ký hiệu X là chỉ số ngẫu nhiên mà chúng ta cần khảo sát trên các cá thể của một tổng thể. Xét một mẫu ngẫu nhiên dung lượng n của X là (X 1 , X 2 , , X n ) trong đó X i , i = 1, 2, …, n, là các biến ngẫu nhiên độc lập thu được từ X. Để đơn giản chúng ta gọi mẫu này là mẫu lý thuyết. Tương ứng với mẫu lý thuyết trên là mẫu thực nghiệm (x 1 , x 2 , , x n ) trong đó x i là giá trị đo được của X i thu được từ kết quả của thực nghiệm. n 1 X = (X 1 +X 2 + hống kê Đại lượng t + X n ) được gọi là trung bình mẫu lý thuyết và được lấy làm ước lượng cho kỳ vọng E(X) của X, E(X) được coi là số đặc trưng cho trung bình chung của chỉ số X. Đây là một ước lượng rất tốt với các tính chất: không chệch, vững và hiệu quả. Lúc đó, (x 1 + x 2 + + x n ) được gọi là trung bình mẫu thực nghiệm, chính là giá trị trung bình của chỉ số X trên mẫu thực nghiệm. Nhờ có tính chất vững của ước lượng, khi dung lượng mẫu khá lớn, độ lệch giữa trung bình chung và trung bình thực nghiệm là khá nhỏ trong hầu hết các lần tiến hành thực nghiệm. 1 x n = Đại lượng thống kê: 2 S ˆ = được gọi là phương sai mẫu lý thuyết chưa hiệu chỉnh, còn đại lượng thống kê S 2 = n 1 2 n 1i i )XX( ∑ = − 1n 1 − 2 n 1i i )XX( ∑ = − gọi là phương sai mẫu đã 2 n 1 n 2 i i1 (x x) = − ∑ 2 s ˆ Lúc này, = được gọi là phương sai mẫu thực nghiệm chưa hiệu chỉnh, còn s 2 = 1n 1 − 2 n 1i i )xx( ∑ = − là phương sai mẫu thực nghiệm đã hiệu chỉnh tương ứng với mẫu thực nghiêm đã có. và được S ˆ s ˆ gọi là các độ lệch chuẩn mẫu lý thuyết và thực nghiệm chưa hiệu chỉnh, còn S và s gọi là độ lệch chuẩn mẫu lý thuyết và thực nghiệm đã hiệu chỉnh. 1.2. Thống kê mô tả Sau khi có số liệu mẫu thực nghiệm, có thể sử dụng chức năng thống kê mô tả trong phân tích số liệu của Excel để tính các số đặc trưng mẫu của mẫu thực nghiệm như trung bình, độ lệch chuẩn, sai số chuẩn, trung vị, mode Số liệu tính toán được bố trí theo cột hoặc theo hàng. a. Các bước thực hiện trong Excel Chọn Tools>Data Analysis>Descriptive Statistics, và khai báo các mục sau trong hộp thoại: - Input range: miền dữ liệu kể cả nhãn. - Grouped by: Columns (số liệu theo cột). - Labels in first row: đánh dấu √ vào ô này nếu có nhãn ở hàng đầu. - Confidence level for mean: 95% ( độ tin cậy 95%). - K-th largest: 1 (1 số lớn nhất, 2 số lớn nhì ). - K-th smallest: 1 (1 số nhỏ nhất, 2 số nhỏ nhì ). - Output range: miền ra. - Summary Statistics: đánh dấu √ nếu muốn hiện các thống kê cơ bản. Ví dụ 1: Khảo sát về các đặc tính của lúa ta thu được bốn cột số liệu: dài bông (cm), P1000 (trọng lượng 1000 hạt), số bông/một cây, năng suất. Số liệu được bố trí như trong hình 1. Chọn Tools>Data Analysis>Descriptive Statistics, sau đó khai báo hộp thoại. 3 Hình 1. Bảng số liệu khảo sát về lúa và khai báo hộp thoại. Kết quả thu được cho trong hình 2. Hình 2. Kết quả thống kê mô tả về các đặc tính của lúa b. Phân tích các kết quả thu được Một số nhận xét sơ bộ trên các thống kê thu được như sau: - Mean cho ta giá trị trung bình của dãy số. 4 - Standard error cho ta biết tỷ số độ lệch chuẩn mẫu /căn bậc hai của n. - Median cho giá trị điểm giữa của dãy số. Nếu 2 giá trị Mean và Median xấp xỉ nhau ta thì số liệu là cân đối. Trong ví dụ 1 các cột số liệu là cân đối trừ cột “số bông” hơi bị lệch. - Mode cho biết giá trị xảy ra nhiều nhất trên mẫu. - Phương sai mẫu hay độ lệch chuẩn mẫu (đã hiệu chỉnh) cho ta biết độ phân tán của số liệu quanh giá trị trung bình, nếu các giá trị này càng nhỏ chứng tỏ số liệu càng tập trung. - Kurtosis đánh giá đường mật độ phân phối của dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc. Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu xấp xỉ chuẩn. - Skewness đánh giá đường phân phối lệch trái hay lệch phải. Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu cân đối gần như số liệu trong phân phối chuẩn tắc. - Confidence Level được hiểu là nửa độ dài khoảng tin cậy. Giả sử Confidence Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean − m , Mean + m). Trong ví dụ 1, hình 2, ta có khoảng tin cậy 95% của “dài bông” là: ( 26.4 − 0.55 , 26.4 + 0.55), tức là (25.85 , 26.95). Trong trường hợp mẫu có dung lượng n không lớn lắm và phương sai lý thuyết σ 2 = V(X) chưa biết, ta có công thức tìm khoảng tin cậy với độ tin cậy p = 1−α như sau: [x - ; 1, 2 −n t α n s x 1, 2 −n t α n s + ], trong đó 1, 2 −n t α là phân vị mức 1 − α/2 của phân phối Student với bậc tự do n −1. II. Tổ chức đồ Tần số xuất hiện của số liệu trong các khoảng cách đều nhau cho phép phác hoạ biểu đồ tần số, còn gọi là tổ chức đồ. Để vẽ tổ chức đồ cần phải tiến hành phân tổ / nhóm số liệu. 2.1. Tạo miền phân tổ Để tiến hành phân tổ số liệu (tạo Bin), cần thực hiện các bước sau: - Dùng các hàm Min, Max để xác định giá trị nhỏ nhất và giá trị lớn nhất. - Định ra giá trị cận dưới và giá trị cận trên của miền phân tổ. - Ghi giá trị cận dưới vào ô đầu của miền phân tổ và bôi đen toàn miền này. - Chọn Edit > Fill > Series để khai báo các mục: 5 + Trong mục Series in chọn Columns (dữ liệu theo cột), + Trong mục Type chọn Linear (dữ liệu tăng theo cấp số cộng), + Trong Step value: nhập giá trị bước tăng, + Trong Stop value: nhập giá trị cận trên, + OK. Ví dụ 2: Dựa trên 30 số liệu về chiều dài cá ta tạo miền phân tổ (Bin) như trên hình 3 với miền phân tổ từ ô D2 tới ô D12 (kể cả nhãn), giá trị cận dưới là 10, cận trên là 55, giá trị bước tăng 5. Hình 3. Tạo miền Bin cho các số liệu về chiều dài cá 2.2. Vẽ tổ chức đồ a. Các bước thực hiện Chọn Tools> Data Analysis> Histogram để khai báo các mục: - Input range: miền dữ liệu. - Input Bin: miền phân tổ. - Labels : nhãn ở hàng đầu nếu có. - Output range: miền kết quả. - Pareto: tần số sắp xếp giảm dần. - Cumulative Percentage: tần suất cộng dồn %. - Chart output: biểu đồ. 6 - OK. Trong ví dụ 2 chọn Tools> Data Analysis> Histogram và khai báo như trong hình 4. Hình 4. Các khai báo để vẽ tổ chức đồ b. Kết quả vẽ tổ chức đồ Hình 5. Tổ chức đồ c. Phân tích kết quả - Tần số số liệu rơi vào từng khoảng được ghi ở cận trên của khoảng. Chẳng hạn, có 2 số liệu thuộc vào khoảng (10, 15], vì vậy số 2 được ghi tương ứng với số 15 là cận trên. 7 - Nhìn vào hình 5 ta có thể thấy trong khoảng nào số liệu xuất hiện nhiều nhất. Ngoài ra, hình dạng của tổ chức đồ còn cho biết: dãy số liệu khảo sát được về chiều dài của cá có thể coi là tuân theo luật chuẩn. III. Tính hệ số tương quan và tìm phương trình hồi qui 3.1. Tính hệ số tương quan Excel cho phép tính hệ số tương quan đơn giữa các biến với các số liệu mẫu thu thập được sắp xếp thành một bảng gồm n hàng, n cột (trên mỗi cột là số liệu mẫu của một biến). a. Các bước thực hiện Chọn Tools>Data Analysis>Correlation và khai báo các mục: - Input range: miền dữ liệu kể cả nhãn. - Grouped by: Column (số liệu theo cột). - Labels in first row : đánh dấu √ vào ô này nếu có nhãn ở hàng đầu. - Output range: miền xuất kết quả ra. - OK. Ví dụ 3: Để nghiên cứu mối tương quan giữa các đặc tính dài bông, số hạt, số bông với năng suất lúa, cần thực hiện các bước sau: - Chọn Tools>Data analysis>Correlation. - Khai báo các mục (xem hình 6). Hình 6. Các bước khai báo khi tính hệ số tương quan 8 - Kết quả thu được trên bảng 1. Bảng 1. Kết quả tính hệ số tương quan D ài bôn g P 1000 Số bông N ăng suất Dài bông 1 P1000 0.233314 1 Số bông −0.22056 0.340772 1 N ăng s u ất 0.200805 0.66632 0.661379 1 b. Phân tích kết quả - Hệ số tương quan của hàng và cột ghi ở ô giao giữa hàng và cột. - Hệ số tương quan âm ( < 0) thể hiện mối tương quan nghịch biến (chẳng hạn tương quan giữa “dài bông” và “số bông” là nghịch biến). - Các hệ số tương quan có giá trị tuyệt đối xấp xỉ 0.75 trở lên thể hiện mối tương quan tuyến tính mạnh giữa hai biến (tương quan giữa “năng suất” và “P1000” có thể tạm coi là tương quan tuyến tính mạnh). 3.2. Tìm phương trình hồi quy Excel cho phép tìm phương trình hồi quy tuyến tính đơn y = a + bx và hồi quy tuyến tính bội y = a 0 + a 1 x 1 + a 2 x 2 + . . . + a n x n . Các biến độc lập chứa trong n cột, biến phụ thuộc y để trong một cột, các giá trị tương ứng giữa biến độc lập và biến phụ thuộc được xếp trên cùng một hàng. a. Các bước thực hiện Chọn Tools>Data Analysis>Regression và khai báo các mục: - Input y range: miền dữ liệu biến y. - Input x range: miền dữ liệu các biến x. - Label: đánh dấu √ vào ô này nếu có nhãn ở hàng đầu. - Confidence level : 95% ( độ tin cậy 95%). - Constant in zero: đánh dấu √ nếu hệ số tự do a 0 = 0 . - Output range: miền xuất kết quả. - Residuals: đánh dấu √ vào ô này để hiện phần dư hay sai lệch giữa y thực nghiệm và y theo hồi quy. - Standardized residuals: đánh dấu √ để hiện phần dư đã chuẩn hoá. - Residuals plot: đánh dấu √ để hiện đồ thị phần dư. - Line fit plots: đánh dấu √ để hiện đồ thị các đường dự báo. 9 - Normal probability plot: đánh dấu √ để hiện đồ thị phần dư đã chuẩn hoá. - OK. Ví dụ 4: Tìm phương trình hồi qui y = a 0 + a 1 x 1 + a 2 x 2 + a 3 x 3 của năng suất lúa y phụ thuộc tuyến tính vào độ dài bông (x 1 ), trọng lượng 1000 hạt (x 2 ) và số bông / một cây (x 3 ) với các số liệu cho trong hình 7. Chọn Tools>Data Analysis>Regression và khai báo các mục như trên hình 7 để thu được kết quả như trên hình 8. b. Phân tích kết quả - Nếu hệ số tương quan bội xấp xỉ 0.75 hoặc lớn hơn thì mô hình hồi quy tuyến tính là thích hợp (ngược lại nên tìm mô hình khác). Trong ví dụ 4 hệ số tương quan bội là 0.8375 nên mô hình tuyến tính được coi là thích hợp. - Hệ số tương quan R square trong ví dụ 4 là 0.7014 cho biết 70.14% sự biến động của y là do các yếu tố x 1 , x 2 , x 3 gây nên. Hệ số Adjusted R square là 62.00% không sát gần với R square chứng tỏ không phải tất cả các biến đưa vào là thực sự cần thiết. - F thực nghiệm là 8.6142 ứng với xác suất 0.00316 nhỏ hơn mức xác suất ý nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận. - Nhìn vào các hệ số của các biến ta viết được đường hồi quy dự báo. Trong ví dụ 4 phương trình hồi quy là: y = − 3.61899 + 0.085345x 1 + 0.081163x 2 + 0.02083x 3 . Tuy nhiên căn cứ vào các xác suất cho ở cột P-value thì hệ số của x 1 là không đáng tin cậy, vì xác suất tương ứng > 0.05 (mức ý nghĩa đã chọn). Trong trường hợp này, cần tiến hành lọc bớt biến x 1 để được đường hồi quy với các hệ số đều có ý nghĩa. Hình 7. Khai báo để tìm phương trình hồi quy 10 [...]... TÀI LIỆU THAM KHẢO Tiếng Việt 1 Nguyễn Mạnh Đức, Giáo trình tin học ứng dụng (dùng cho sinh viên các ngành kinh tế, nông – lâm nghiệp) , Nxb Nông nghiệp, 2000 2 Nguyễn Đình Hiền (chủ biên), Đỗ Đức Lực, Giáo trình thiết kế thí nghiệm (dùng cho các ngành Thú y, Chăn nuôi − Thú y và Nuôi trồng thuỷ sản), Nxb Nông nghiệp, 2007 3 Lê Văn Tiến (1999), Lý thuyết xác suất và thống kê toán học, Nxb Nông nghiệp, ... MSSA/MSSE, FB = MSSB/MSSE, FC = MSSC/MSSE để rút ra các suy đoán thống kê tương ứng Sử dụng chức năng phân tích số liệu của Excel cũng có thể giúp xử lý được các số liệu thu được khi thiết kế thí nghiệm theo kiểu ô vuông La tinh một cách nhanh chóng hơn Trước hết cần nhập số liệu của các ô vuông La tinh vào bảng tính Excel (giả sử các số liệu thu được cúng giống như trong ví dụ 6), sau đó thực hiện lệnh... i=1 j=1 ⎠ i =1 ⎝ j=1 ⎠ bình trong từng nhóm là MSSE = SSE/ (n−k) = 5.11279/ 29 = 0.12682 k ni ( ) 2 Với các giả thiết đã nêu, có thể chứng minh được đại lượng thống kê F = MSST/MSSE (đối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1, n−k) Do đó, nếu F thực nghiệm = 8.54171 > F lý thuyết = f (0.05; 10, 29) = 2.1768 thì giả thuyết “các công thức sử dụng thuốc không ảnh hưởng tới... 98 Do đó tổng sai lệch trung bình của sai số ngẫu nhiên là MSSE = SSE/[kr(s−1)] = 98/36 = 2.722222 Với giả thiết đã nêu, có thể chứng minh được rằng đại lượng thống kê FA = MSSA/MSSE (đối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1, krs−kr) Do đó, FA thực nghiệm =14.9898 > FA lý thuyết = f (0.05; 3, 6) = 2.866265 thì giả thuyết “các mức của nhân tố A (các mức bón phân) không... Do đó tổng sai lệch trung bình của sai số ngẫu nhiên là MSSE = SSE/ (n−k−r+1) = 70 / 9 = 7.7778 Với giả thiết đã nêu, có thể chứng minh được rằng đại lượng thống kê FT = MSST/MSSE (đối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1, n−k−l+1) Do đó, nếu FT thực nghiệm = 8.91429 > FT lý thuyết = f (0.05; 3, 9) = 3.86254 thì giả thuyết “các công thức không ảnh hưởng tới số trung bình... theo phân phối chuẩn với kỳ vọng 0 và phương sai σ2 Các αi được coi là thoả mãn điều kiện k ∑α i =1 i = 0 20 a Các bước thực hiện Số liệu được điền theo cột hoặc theo hàng (nếu vào theo hàng thì mỗi hàng ứng với một mức của nhân tố), ô đầu tiên ghi tên mức, các ô tiếp theo ghi số liệu Chọn Tools> Data Analysis > Anova: Single Factor và khai báo: - Input range: khai báo miền dữ liệu vào (một chữ nhật... 2.5677 2.5647 2.4835 2.2000 2.0410 1.2373 T1 − Ti 0.6307 0.6958 0.7345 0.8460 1.0763 1.0793 1.1605 1.4440 1.6030 2.4068 Phần mềm Excel không cho phép so sánh các trung bình của các nhóm ứng với các mức của nhân tố (các công thức) Tuy nhiên, nếu cần so sánh trung bình mi (với ni lần lặp) với trung bình mj (nj lần lặp) người dùng có thể tự tính thêm LSD (Least Significance Difference) theo công thức LSD... toàn bộ các số liệu) - Grouped by: Columns (số liệu theo cột) hoặc Rows (số liệu theo hàng) - Label in First column: nhãn hàng đầu - Alpha: 0.05 (mức ý nghĩa α) - Output range: miền xuất kết quả ra b Phân tích kết quả - Kết quả in ra gồm các thống kê cơ bản cho từng mức (trung bình, độ lệch chuẩn ) và bảng phân tích phương sai - Nếu giá trị xác suất P-value < alpha (hoặc F thực nghiệm > F lý thuyết) thì... cách thiết kế thí nghiệm Tuỳ theo mục đích và điều kiện thí nghiệm trong các lĩnh vực 28 chuyên môn, thí nghiệm được thiết kế theo cách thức thích hợp và số liệu thực nghiệm thu được cũng được xử lý một cách phù hợp nhằm rút ra các suy đoán thống kê có ý nghĩa Thiết kế thí nghiệm trực giao: Trường hợp đơn giản nhất của mô hình chéo nhau là yếu tố A có 2 mức A1 và A2, yếu tố B có 2 mức B1 và B2 Các tổ... 2: So F thực nghiệm với F lý thuyết ở mức alpha, với số bậc tự do df1 của phương sai tử số và bậc tự do df2 của phương sai mẫu số, bằng hàm FINV(alpha, df1, df2)) 17 Nếu F thực nghiệm bé hơn F lý thuyết thì dùng mô hình này (σ12 = σ22) Nếu trái lại, cần chuyển sang mô hình phương sai khác nhau (σ12 ≠ σ22) (mục 4.4) Trong ví dụ trên, ta có: F thực nghiệm = 0.26571/ 0.093=2.8571 và F lý thuyết = FINV(0.05, . XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP với phần mềm Excel (Bài giảng cho dự án CNTT 2008) HÀ NỘI, THÁNG 10 NĂM 2008 Xử lý dữ liệu thống kê nông nghiệp với phần mềm Excel. Xử lý dữ liệu thống kê nông nghiệp với phần mềm Excel Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông nghiệp nói riêng, một cách khá hiệu quả thông qua việc sử. được và các định lý của lý thuyết xác suất cần xử lý số liệu mẫu để đưa ra một suy đoán thống kê về chỉ số đó cho toàn bộ tổng thể. Cách 2 có thể được gọi là phương pháp thống kê toán học, hay

Ngày đăng: 21/07/2014, 16:20

Từ khóa liên quan

Mục lục

  • XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP

  • với phần mềm Excel

    • Chọn Tools>Data Analysis>Descriptive Statistics, và khai báo các mục sau trong hộp thoại:

    • Kết quả thu được cho trong hình 2.

      • Hình 4. Các khai báo để vẽ tổ chức đồ

      • Hình 8. Kết quả tìm phương trình hồi quy

      • Giải thích

        • Hình 10. Thực hiện phân tích phương sai một nhân tố trong Excel.

          • Bảng 8. So sánh trung bình giữa các nhóm

          • Hình 11. Hộp thoại khai báo để phân tích phương sai không tương tác

          • Bảng 10. Kết quả phân tích phương sai hai nhân tố không tương tác

Tài liệu cùng người dùng

Tài liệu liên quan