Thông tin tài liệu
TRƯỜNG ðẠI HỌC NÔNG NGHIỆP HÀ NỘI
PGS. TS. Nguyễn Hải Thanh −
−−
− ThS. ðỗ ðức Lực
XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP
với phần mềm Excel và SAS
(Bài giảng cho dự án CNTT)
HÀ NỘI, THÁNG 10 NĂM 2008
2
Phần 1
Xử lý dữ liệu thống kê nông nghiệp trong Excel
Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông
nghiệp nói riêng, một cách khá hiệu quả thông qua việc sử dụng menu Tools> Data
Analysis (nếu không có mục này thì chọn Tools> Add-in > Analysis ToolPak ñể cài ñặt
thêm). Sau ñây là một số công cụ xử lý số liệu thống kê mà Excel cung cấp.
1. Giới thiệu về phương pháp mẫu và thống kê mô tả
1.1. Giới thiệu về phương pháp khảo sát mẫu
ðể nghiên cứu về một chỉ số nào ñó trên các cá thể của một tổng thể với rất nhiều
cá thể, có thể tiến hành theo hai cách. Cách 1: ðiều tra chỉ số ñó trên tất cả các cá thể của
tổng thể; cách này ñòi hỏi chi phí cao, tốn kém thời gian, nhiều khi không khả thi. Cách 2:
ðiều tra một mẫu ngẫu nhiên các cá thể của tổng thể; dựa trên kết quả của mẫu ñiều tra
ñược và các ñịnh lý của lý thuyết xác suất cần xử lý số liệu mẫu ñể ñưa ra một suy ñoán
thống kê về chỉ số ñó cho toàn bộ tổng thể. Cách 2 có thể ñược gọi là phương pháp thống
kê toán học, hay còn gọi là phương pháp khảo sát mẫu.
Tổng quát hơn, phương pháp khảo sát mẫu ñược áp dụng khi cần nghiên cứu một
số chỉ số nào ñó cũng như các mối liên quan của chúng trên các cá thể của tổng thể.
Ký hiệu X là chỉ số ngẫu nhiên mà chúng ta cần khảo sát trên các cá thể của một
tổng thể. Xét một mẫu ngẫu nhiên dung lượng n của X là (X
1
, X
2
, , X
n
) trong ñó X
i
, i = 1,
2, …, n, là các biến ngẫu nhiên ñộc lập thu ñược từ X. ðể ñơn giản chúng ta gọi mẫu này
là mẫu lý thuyết. Tương ứng với mẫu lý thuyết trên là mẫu thực nghiệm (x
1
, x
2
, , x
n
)
trong ñó x
i
là giá trị ño ñược của X
i
thu ñược từ kết quả của thực nghiệm.
ðại lượng thống kê
n
1
X = (X
1
+X
2
+ + X
n
) ñược gọi là trung bình mẫu lý thuyết
và ñược lấy làm ước lượng cho kỳ vọng E(X) của X, E(X) ñược coi là số ñặc trưng cho
trung bình chung của chỉ số X. ðây là một ước lượng rất tốt với các tính chất: không
chệch, vững và hiệu quả. Lúc ñó,
n
1
x = (x
1
+ x
2
+ + x
n
) ñược gọi là trung bình mẫu thực
nghiệm, chính là giá trị trung bình của chỉ số X trên mẫu thực nghiệm. Nhờ có tính chất
vững của ước lượng, khi dung lượng mẫu khá lớn, ñộ lệch giữa trung bình chung và trung
bình thực nghiệm là khá nhỏ trong hầu hết các lần tiến hành thực nghiệm.
Tương tự, ñại lượng thống kê:
2
S
ˆ
=
n
1
2
n
1i
i
)XX(
∑
=
−
ñượ
c
gọ
i
là
ph
ươ
ng sai m
ẫ
u lý
thuy
ế
t ch
ư
a hi
ệ
u ch
ỉ
nh, còn
ñạ
i l
ượ
ng th
ố
ng kê S
2
=
1n
1
−
2
n
1i
i
)XX(
∑
=
− gọ
i
là
ph
ươ
ng sai
m
ẫ
u
ñã
hi
ệ
u
chỉ
nh. Chúng
ñề
u
ñượ
c l
ấ
y làm
ướ
c l
ượ
ng cho ph
ươ
ng sai V(X) c
ủ
a X v
ớ
i
V(X)
ñượ
c coi là s
ố
ñặ
c tr
ư
ng cho
ñộ
bi
ế
n
ñộ
ng c
ủ
a ch
ỉ
s
ố
X xung quanh E(X). Trong khi
3
ph
ươ
ng sai m
ẫ
u lý thuy
ế
t ch
ư
a hi
ệ
u ch
ỉ
nh ch
ỉ
có tính ch
ấ
t
vững
, thì ph
ươ
ng sai m
ẫ
u lý
thuy
ế
t
ñ
ã hi
ệ
u ch
ỉ
nh l
ạ
i có c
ả
ba tính ch
ấ
t
không chệch, vững và hiệu quả.
Lúc
ñ
ó,
2
s
ˆ
=
n
1
2
n
1i
i
)xx(
∑
=
− cũ
ng
ñượ
c
gọ
i
là
ph
ươ
ng sai m
ẫ
u th
ự
c nghi
ệ
m ch
ư
a
hi
ệ
u
chỉ
nh, còn s
2
=
1n
1
−
2
n
1i
i
)xx(
∑
=
− cũ
ng
ñượ
c
gọ
i
là
ph
ươ
ng sai m
ẫ
u th
ự
c nghi
ệ
m
ñã
hi
ệ
u
chỉ
nh t
ươ
ng
ứ
ng v
ớ
i m
ẫ
u th
ự
c nghiêm
ñã
có. S
ˆ
và s
ˆ
ñượ
c
gọ
i
là
các
ñộ
l
ệ
ch chu
ẩ
n
m
ẫ
u lý thuy
ế
t và th
ự
c nghi
ệ
m ch
ư
a hi
ệ
u
chỉ
nh, còn S và s
gọ
i
là ñộ
l
ệ
ch chu
ẩ
n m
ẫ
u lý
thuy
ế
t và th
ự
c nghi
ệ
m
ñã
hi
ệ
u
chỉ
nh.
1.2. Thống kê mô tả
Sau khi có s
ố
li
ệ
u m
ẫ
u th
ự
c nghi
ệ
m, có th
ể
s
ử
d
ụ
ng ch
ứ
c n
ă
ng th
ố
ng kê mô t
ả
trong phân tích s
ố
li
ệ
u c
ủ
a Excel
ñể
tính các s
ố
ñặ
c tr
ư
ng m
ẫ
u c
ủ
a m
ẫ
u th
ự
c nghi
ệ
m nh
ư
trung bình,
ñộ
l
ệ
ch chu
ẩ
n, sai s
ố
chu
ẩ
n, trung v
ị
, mode S
ố
li
ệ
u tính toán
ñượ
c b
ố
trí theo
c
ộ
t ho
ặ
c theo hàng.
a. Các bước thực hiện trong Excel
Ch
ọ
n Tools>Data Analysis>Descriptive Statistics, và khai báo các m
ụ
c sau
trong h
ộ
p tho
ạ
i:
- Input range: mi
ề
n d
ữ
li
ệ
u k
ể
c
ả
nhãn.
- Grouped by: Column (s
ố
li
ệ
u theo c
ộ
t).
- Labels in first row :
ð
ánh d
ấ
u
√
vào ô này n
ế
u có nhãn
ở
hàng
ñầ
u.
- Confidence level for mean: 95% (
ñộ
tin c
ậ
y 95%).
- K-th largest: 1 (1 S
ố
l
ớ
n nh
ấ
t, 2 s
ố
l
ớ
n nhì ).
- K-th smallest: 1 (1 S
ố
nh
ỏ
nh
ấ
t, 2 s
ố
nh
ỏ
nhì ).
- Output range: mi
ề
n ra.
- Summary Statistics:
ð
ánh d
ấ
u
√
n
ế
u mu
ố
n hi
ệ
n các th
ố
ng kê c
ơ
b
ả
n.
Ví dụ 1:
Kh
ả
o sát v
ề
các
ñặ
c tính c
ủ
a lúa ta thu
ñượ
c b
ố
n c
ộ
t s
ố
li
ệ
u: dài bông (cm), P1000
(tr
ọ
ng l
ượ
ng 1000 h
ạ
t), s
ố
bông/m
ộ
t cây, n
ă
ng su
ấ
t. S
ố
li
ệ
u
ñượ
c b
ố
trí nh
ư
trong hình I.1.
Ch
ọ
n Tools>Data Analysis>Descriptive Statistics, sau
ñ
ó khai báo h
ộ
p tho
ạ
i.
Hình I.1. Bảng số liệu khảo sát về lúa và khai báo hộp thoại.
4
K
ế
t qu
ả
thu
ñượ
c cho trong hình I.2
Hình I.2. Kết quả thống kê mô tả về các ñặc tính của lúa
b. Phân tích các kết quả thu ñược
M
ộ
t s
ố
nh
ậ
n xét s
ơ
b
ộ
trên các th
ố
ng kê thu
ñượ
c nh
ư
sau:
- Mean cho ta giá tr
ị
trung bình c
ủ
a dãy s
ố
.
- Standard error cho ta bi
ế
t t
ỷ
s
ố
ñộ
l
ệ
ch chu
ẩ
n m
ẫ
u /c
ă
n b
ậ
c hai c
ủ
a n.
- Median cho giá tr
ị
ñ
i
ể
m gi
ữ
a c
ủ
a dãy s
ố
.
N
ế
u 2 giá tr
ị
Mean và Median x
ấ
p x
ỉ
nhau ta thì s
ố
li
ệ
u là cân
ñố
i. Trong ví d
ụ
1
các c
ộ
t s
ố
li
ệ
u là cân
ñố
i tr
ừ
c
ộ
t “s
ố
bông” h
ơ
i b
ị
l
ệ
ch.
- Mode cho bi
ế
t giá tr
ị
x
ả
y ra nhi
ề
u nh
ấ
t trên m
ẫ
u
- Ph
ươ
ng sai m
ẫ
u hay
ñộ
l
ệ
ch chu
ẩ
n m
ẫ
u (
ñ
ã hi
ệ
u ch
ỉ
nh) cho ta bi
ế
t
ñộ
phân tán
c
ủ
a s
ố
li
ệ
u quanh giá tr
ị
trung bình, n
ế
u các giá tr
ị
này càng nh
ỏ
ch
ứ
ng t
ỏ
s
ố
li
ệ
u càng t
ậ
p
trung.
- Kurtosis
ñ
ánh giá
ñườ
ng m
ậ
t
ñộ
phân ph
ố
i c
ủ
a dãy s
ố
li
ệ
u có nh
ọ
n h
ơ
n hay tù
h
ơ
n
ñườ
ng m
ậ
t
ñộ
chu
ẩ
n t
ắ
c. N
ế
u trong kho
ả
ng t
ừ
-2
ñế
n 2 thì có th
ể
coi s
ố
li
ệ
u x
ấ
p x
ỉ
chu
ẩ
n.
- Skewness
ñ
ánh giá
ñườ
ng phân ph
ố
i l
ệ
ch trái hay l
ệ
ch ph
ả
i. N
ế
u trong kho
ả
ng
t
ừ
-2
ñế
n 2 thì có th
ể
coi s
ố
li
ệ
u cân
ñố
i g
ầ
n nh
ư
s
ố
li
ệ
u trong phân ph
ố
i chu
ẩ
n t
ắ
c.
- Confidence Level
ñượ
c hi
ể
u là n
ử
a
ñộ
dài kho
ả
ng tin c
ậ
y. Gi
ả
s
ử
Confidence
Level là m thì kho
ả
ng tin c
ậ
y c
ủ
a trung bình t
ổ
ng th
ể
là: (Mean- m , Mean+m). Trong ví
d
ụ
1, hình I.2., ta có kho
ả
ng tin c
ậ
y 95% c
ủ
a “dài bông” là: ( 26.4- 0.55 , 26.4 +0.55), t
ứ
c
là (25.85 , 26.95).
Trong tr
ườ
ng h
ợ
p m
ẫ
u có dung l
ượ
ng n không l
ớ
n l
ắ
m và ph
ươ
ng sai lý
thuy
ế
t
σ
2
= V(X) ch
ư
a bi
ế
t, ta có công th
ứ
c tìm kho
ả
ng tin c
ậ
y v
ớ
i
ñộ
tin c
ậ
y p = 1
−α
nh
ư
sau: [
x
-
1,
2
−n
t
α
n
s
;
x
+
1,
2
−n
t
α
n
s
], trong
ñ
ó
1,
2
−n
t
α
là phân v
ị
m
ứ
c 1
−
α
/2 c
ủ
a phân
ph
ố
i Student v
ớ
i b
ậ
c t
ự
do n
−
1.
5
2. Tổ chức ñồ
T
ầ
n s
ố
xu
ấ
t hi
ệ
n c
ủ
a s
ố
li
ệ
u trong các kho
ả
ng cách
ñề
u nhau cho phép phác ho
ạ
bi
ể
u
ñồ
t
ầ
n s
ố
, còn g
ọ
i là t
ổ
ch
ứ
c
ñồ
.
ðể
v
ẽ
t
ổ
ch
ứ
c
ñồ
c
ầ
n ph
ả
i ti
ế
n hành phân t
ổ
/ nhóm
s
ố
li
ệ
u.
2.1. Tạo miền phân tổ
ðể
ti
ế
n hành phân t
ổ
s
ố
li
ệ
u (t
ạ
o Bin), c
ầ
n th
ự
c hi
ệ
n các b
ướ
c sau:
- Dùng các hàm Min, Max
ñể
xác
ñị
nh giá tr
ị
nh
ỏ
nh
ấ
t và giá tr
ị
l
ớ
n nh
ấ
t.
-
ðị
nh ra giá tr
ị
c
ậ
n d
ướ
i và giá tr
ị
c
ậ
n trên c
ủ
a mi
ề
n phân t
ổ
.
- Ghi giá tr
ị
c
ậ
n d
ướ
i vào ô
ñầ
u c
ủ
a mi
ề
n phân t
ổ
và bôi
ñ
en toàn mi
ề
n này.
- Ch
ọ
n Edit > Fill > Series
ñể
khai báo các m
ụ
c:
+ Trong m
ụ
c Series in ch
ọ
n Columns ( d
ữ
li
ệ
u theo c
ộ
t)
+ Trong m
ụ
c Type ch
ọ
n Linear ( d
ữ
li
ệ
u t
ă
ng theo c
ấ
p s
ố
c
ộ
ng)
+ Trong Step value: nh
ậ
p giá tr
ị
b
ướ
c t
ă
ng
+ Trong Stop value: nh
ậ
p giá tr
ị
c
ậ
n trên
+ OK.
Ví dụ 2
: D
ự
a trên 30 s
ố
li
ệ
u v
ề
chi
ề
u dài cá ta t
ạ
o mi
ề
n phân t
ổ
(Bin) nh
ư
trên hình I.3 v
ớ
i
mi
ề
n phân t
ổ
t
ừ
ô D2 t
ớ
i ô D12 (k
ể
c
ả
nhãn), giá tr
ị
c
ậ
n d
ướ
i là 10, c
ậ
n trên là 55, giá tr
ị
b
ướ
c t
ă
ng 5.
Hình I.3. Tạo miền Bin cho các số liệu về chiều dài cá
2.2. Vẽ tổ chức ñồ
a. Các bước thực hiện
Ch
ọ
n Tools> Data Analysis> Histogram
ñể
khai báo các m
ụ
c:
- Input range: mi
ề
n d
ữ
li
ệ
u.
- Input Bin: mi
ề
n phân t
ổ
.
- Labels : nhãn
ở
hàng
ñầ
u n
ế
u có.
- Output range: Mi
ề
n k
ế
t qu
ả
.
6
- Pareto: t
ầ
n s
ố
s
ắ
p x
ế
p gi
ả
m d
ầ
n.
- Cumulative Percentage: T
ầ
n su
ấ
t c
ộ
ng d
ồ
n %.
- Chart output: Bi
ể
u
ñồ
.
- OK.
Trong ví d
ụ
2 ch
ọ
n Tools> Data Analysis> Histogram và khai báo nh
ư
trong hình I.4.
Hình I.4. Các khai báo ñể vẽ tổ chức ñồ
b. Kết quả vẽ tổ chức ñồ
Hình I.5. Tổ chức ñồ
c.
Phân tích kết quả
- T
ầ
n s
ố
s
ố
li
ệ
u r
ơ
i vào t
ừ
ng kho
ả
ng
ñượ
c ghi
ở
c
ậ
n trên c
ủ
a kho
ả
ng. (Ch
ẳ
ng
h
ạ
n, có 2 s
ố
li
ệ
u thu
ộ
c vào kho
ả
ng (10,15], vì v
ậ
y s
ố
2
ñượ
c ghi t
ươ
ng
ứ
ng v
ớ
i s
ố
15 là
c
ậ
n trên).
- Nhìn vào hình I.5. ta có th
ể
th
ấ
y trong kho
ả
ng nào s
ố
li
ệ
u xu
ấ
t hi
ệ
n nhi
ề
u nh
ấ
t.
Ngoài ra, hình d
ạ
ng c
ủ
a t
ổ
ch
ứ
c
ñồ
còn cho bi
ế
t: dãy s
ố
li
ệ
u kh
ả
o sát
ñượ
c v
ề
chi
ề
u dài c
ủ
a
cá có th
ể
coi là tuân theo lu
ậ
t chu
ẩ
n.
7
3. Tính hệ số tương quan và tìm phương trình hồi qui
3.1. Tính hệ số tương quan
Excel cho phép tính h
ệ
s
ố
t
ươ
ng quan
ñơ
n gi
ữ
a các bi
ế
n s
ắ
p x
ế
p thành m
ộ
t b
ả
ng
g
ồ
m n hàng, n c
ộ
t (m
ỗ
i c
ộ
t là 1 bi
ế
n).
a.
Các bước thực hiện
Ch
ọ
n Tools>Data Analysis>Correlation và khai báo các m
ụ
c:
- Input range: mi
ề
n d
ữ
li
ệ
u k
ể
c
ả
nhãn.
- Grouped by: Column (s
ố
li
ệ
u theo c
ộ
t).
- Labels in first row :
ð
ánh d
ấ
u
√
vào ô này n
ế
u có nhãn
ở
hàng
ñầ
u.
- Output range: mi
ề
n ra.
- OK.
Ví dụ 3:
ðể
nghiên c
ứ
u m
ố
i t
ươ
ng quan gi
ữ
a các
ñặ
c tính dài bông, s
ố
h
ạ
t, s
ố
bông v
ớ
i
n
ă
ng su
ấ
t lúa, c
ầ
n th
ự
c hi
ệ
n các b
ướ
c sau:
- Ch
ọ
n Tools>Data analysis>Correlation.
- Khai báo các m
ụ
c (xem hình I.6).
Hình I.6. Các bước khai báo khi tính hệ số tương quan
- K
ế
t qu
ả
thu
ñượ
c trên b
ả
ng I.1.
Bảng I.1. Kết quả tính hệ số tương quan
Dài bông
P1000
S
ố
bông
N
ă
ng su
ấ
t
Dài bông 1
P1000 0.233314 1
S
ố
bông -0.22056 0.340772 1
N
ă
ng su
ấ
t 0.200805 0.66632 0.661379 1
8
b. Phân tích kết quả
- H
ệ
s
ố
t
ươ
ng quan c
ủ
a hàng và c
ộ
t ghi
ở
ô giao gi
ữ
a hàng và c
ộ
t.
- H
ệ
s
ố
t
ươ
ng quan âm ( < 0) th
ể
hi
ệ
n m
ố
i t
ươ
ng quan ngh
ị
ch bi
ế
n (ch
ẳ
ng h
ạ
n
t
ươ
ng quan gi
ữ
a “dài bông” và “s
ố
bông” là ngh
ị
ch bi
ế
n).
- Các h
ệ
s
ố
t
ươ
ng quan có giá tr
ị
tuy
ệ
t
ñố
i x
ấ
p x
ỉ
0.75 tr
ở
lên th
ể
hi
ệ
n m
ố
i t
ươ
ng
quan tuy
ế
n tính m
ạ
nh gi
ữ
a hai bi
ế
n (t
ươ
ng quan gi
ữ
a “n
ă
ng su
ấ
t” và “P1000” có th
ể
t
ạ
m
coi là t
ươ
ng quan tuy
ế
n tính m
ạ
nh).
3.2. Tìm phương trình hồi quy
Excel cho phép tìm ph
ươ
ng trình h
ồ
i quy tuy
ế
n tính
ñơ
n y = a+ bx và h
ồ
i quy tuy
ế
n
tính b
ộ
i y = a
0
+ a
1
x
1
+ a
2
x
2
+ . . . + a
n
x
n
. Các bi
ế
n
ñộ
c l
ậ
p ch
ứ
a trong n c
ộ
t, bi
ế
n ph
ụ
thu
ộ
c y
ñể
trong m
ộ
t c
ộ
t, các giá tr
ị
t
ươ
ng
ứ
ng gi
ữ
a bi
ế
n
ñộ
c l
ậ
p và bi
ế
n ph
ụ
thu
ộ
c
ñượ
c
x
ế
p trên cùng m
ộ
t hàng.
a. Các bước thực hiện
Ch
ọ
n Tools>Data Analysis>Regression và khai báo các m
ụ
c:
- Input y range: mi
ề
n d
ữ
li
ệ
u bi
ế
n y.
- Input x range: mi
ề
n d
ữ
li
ệ
u các bi
ế
n x.
- Label:
ð
ánh d
ấ
u
√
vào ô này n
ế
u có nhãn
ở
hàng
ñầ
u.
- Confidence level : 95% (
ñộ
tin c
ậ
y 95%).
- Constant in zero:
ð
ánh d
ấ
u
√
n
ế
u h
ệ
s
ố
t
ự
do a
0
= 0 .
- Output range: mi
ề
n xu
ấ
t k
ế
t qu
ả
.
- Residuals :
ð
ánh d
ấ
u
√
vào ô này
ñể
hi
ệ
n ph
ầ
n d
ư
hay sai l
ệ
ch gi
ữ
a y th
ự
c
nghi
ệ
m và y theo h
ồ
i quy.
- Standardized residuals:
ð
ánh d
ấ
u
√
ñể
hi
ệ
n ph
ầ
n d
ư
ñ
ã chu
ẩ
n hoá.
- Residuals plot:
ð
ánh d
ấ
u
√
ñể
hi
ệ
n
ñồ
th
ị
ph
ầ
n d
ư
.
- Line fit plots:
ð
ánh d
ấ
u
√
ñể
hi
ệ
n
ñồ
th
ị
các
ñườ
ng d
ự
báo.
- Normal probability plot:
ð
ánh d
ấ
u
√
ñể
hi
ệ
n
ñồ
th
ị
ph
ầ
n d
ư
ñ
ã chu
ẩ
n hoá.
- OK.
Ví dụ 4
: Tìm ph
ươ
ng trình h
ồ
i qui y= a
0
+ a
1
x
1
+ a
2
yx
2
+ a
3
x
3
c
ủ
a n
ă
ng su
ấ
t lúa y ph
ụ
thu
ộ
c tuy
ế
n tính vào
ñộ
dài bông (x
1
), tr
ọ
ng l
ượ
ng 1000 h
ạ
t (x
2
) và s
ố
bông / m
ộ
t cây (x
3
)
v
ớ
i các s
ố
li
ệ
u cho trong hình I.7.
Ch
ọ
n Tools>Data Analysis>Regression và khai báo các m
ụ
c nh
ư
trên hình I.7.
ñể
thu
ñượ
c k
ế
t qu
ả
nh
ư
trên hình I.8.
b. Phân tích kết quả
- N
ế
u h
ệ
s
ố
t
ươ
ng quan b
ộ
i x
ấ
p x
ỉ
0.75 ho
ặ
c l
ớ
n h
ơ
n thì mô hình h
ồ
i quy tuy
ế
n
tính là thích h
ợ
p (ng
ượ
c l
ạ
i nên tìm mô hình khác). Trong ví d
ụ
4 h
ệ
s
ố
t
ươ
ng quan b
ộ
i là
0.8375 nên mô hình tuy
ế
n tính
ñượ
c coi là thích h
ợ
p.
- H
ệ
s
ố
t
ươ
ng quan R square trong ví d
ụ
4 là 0.7014 cho bi
ế
t 70.14% s
ự
bi
ế
n
ñộ
ng
c
ủ
a y là do các y
ế
u t
ố
x
1
, x
2
, x
3
gây nên. H
ệ
s
ố
Adjusted R square là 62.00% không sát g
ầ
n
v
ớ
i R square ch
ứ
ng t
ỏ
không ph
ả
i t
ấ
t c
ả
các bi
ế
n
ñư
a vào là th
ự
c s
ự
c
ầ
n thi
ế
t.
9
- F th
ự
c nghi
ệ
m là 8.6142
ứ
ng v
ớ
i xác su
ấ
t 0.00316 nh
ỏ
h
ơ
n m
ứ
c xác su
ấ
t ý
ngh
ĩ
a 0.05 nên ph
ươ
ng trình h
ồ
i quy tuy
ế
n tính
ñượ
c ch
ấ
p nh
ậ
n.
- Nhìn vào các h
ệ
s
ố
c
ủ
a các bi
ế
n ta vi
ế
t
ñượ
c
ñườ
ng h
ồ
i quy d
ự
báo. Trong ví d
ụ
4 ph
ươ
ng trình h
ồ
i quy là: y =
−
3.61899 + 0.085345x
1
+ 0.081163x
2
+ 0.02083x
3
. Tuy
nhiên c
ă
n c
ứ
vào các xác su
ấ
t cho
ở
c
ộ
t P-value thì h
ệ
s
ố
c
ủ
a x
1
là không
ñ
áng tin c
ậ
y, vì
xác su
ấ
t t
ươ
ng
ứ
ng > 0.05 (m
ứ
c ý ngh
ĩ
a
ñ
ã ch
ọ
n). Trong tr
ườ
ng h
ợ
p này, c
ầ
n ti
ế
n hành l
ọ
c
b
ớ
t bi
ế
n x
1
ñể
ñượ
c
ñườ
ng h
ồ
i quy v
ớ
i các h
ệ
s
ố
ñề
u có ý ngh
ĩ
a.
Hình I.7. Khai báo ñể tìm phương trình hồi quy
Hình I.8. Kết quả tìm phương trình hồi quy
10
4. Phân tích phương sai
Phân tích ph
ươ
ng sai là công c
ụ
ch
ủ
y
ế
u
ñể
phân tích các s
ố
li
ệ
u khi theo dõi
ả
nh h
ưở
ng
c
ủ
a các nhân t
ố
(factor) trong thí nghi
ệ
m và
ả
nh h
ưở
ng t
ươ
ng tác c
ủ
a chúng lên m
ộ
t (hay
nhi
ề
u) ch
ỉ
s
ố
ñầ
u ra.
ðể
thu th
ậ
p s
ố
li
ệ
u, thí nghi
ệ
m c
ầ
n
ñượ
c thi
ế
t k
ế
phù h
ợ
p v
ớ
i m
ụ
c
ñ
ích nghiên c
ứ
u và
ñ
i
ề
u ki
ệ
n c
ụ
th
ể
n
ơ
i ti
ế
n hành thí nghi
ệ
m.
ðể
phân tích m
ộ
t nhân t
ố
,
thí nghi
ệ
m th
ườ
ng
ñượ
c thi
ế
t k
ế
theo ki
ể
u hoàn toàn ng
ẫ
u nhiên, ki
ể
u kh
ố
i hoàn toàn ng
ẫ
u
nhiên, hay ô vuông La tinh.
ðể
phân tích hai nhân t
ố
, thí nghi
ệ
m
ñượ
c b
ố
trí theo ki
ể
u tr
ự
c
giao, ki
ể
u chia ô l
ớ
n, ô v
ừ
a, ô nh
ỏ
, ho
ặ
c k
ế
t h
ợ
p v
ừ
a chia b
ă
ng v
ừ
a chia ô. T
ừ
ba nhân t
ố
tr
ở
lên thì c
ầ
n b
ố
trí thí nghi
ệ
m sao cho m
ỗ
i nhân t
ố
có hai m
ứ
c hay m
ỗ
i nhân t
ố
có ba
m
ứ
c.
4.1. Phân tích phương sai một nhân tố
Phân tích ph
ươ
ng sai m
ộ
t nhân t
ố
ñượ
c s
ử
d
ụ
ng
ñể
phân tích s
ố
li
ệ
u khi theo dõi
ả
nh h
ưở
ng c
ủ
a các m
ứ
c c
ủ
a nhân t
ố
t
ớ
i k
ế
t qu
ả
, nh
ư
ả
nh h
ưở
ng c
ủ
a các công th
ứ
c cho
ă
n
ñế
n n
ă
ng su
ấ
t th
ị
t l
ợ
n,
ả
nh h
ưở
ng c
ủ
a các công th
ứ
c phun thu
ố
c sâu
ñế
n t
ỷ
l
ệ
sâu b
ệ
nh
ðể
phân tích ph
ươ
ng sai m
ộ
t nhân t
ố
c
ầ
n thi
ế
t k
ế
thí nghi
ệ
m ki
ể
u hoàn toàn ng
ẫ
u
nhiên, m
ỗ
i m
ứ
c l
ặ
p l
ạ
i m
ộ
t s
ố
l
ầ
n, s
ố
l
ầ
n l
ặ
p c
ủ
a các m
ứ
c c
ủ
a nhân t
ố
không c
ầ
n ph
ả
i b
ằ
ng
nhau.
Thi
ế
t k
ế
thí nghi
ệ
m m
ộ
t nhân t
ố
hoàn toàn ng
ẫ
u nhiên (CRD). G
ọ
i k m
ứ
c c
ủ
a
nhân t
ố
hay k công th
ứ
c c
ầ
n ti
ế
n hành là T
1
, T
2
. . . , T
k
. Ch
ẳ
ng h
ạ
n trong thí nghi
ệ
m xem
xét
ả
nh h
ưở
ng c
ủ
a 11 lo
ạ
i thu
ố
c phòng sâu b
ệ
nh t
ớ
i n
ă
ng su
ấ
t c
ủ
a m
ộ
t gi
ố
ng lúa, nhân t
ố
ở
ñ
ây ch
ỉ
g
ồ
m m
ộ
t y
ế
u t
ố
có 11 m
ứ
c là 11 lo
ạ
i thu
ố
c nên k = 11. M
ỗ
i lo
ạ
i thu
ố
c
ñượ
c th
ử
nghi
ệ
m trên m
ộ
t s
ố
ô thí nghi
ệ
m (hay
ñơ
n v
ị
thí nghi
ệ
m), m
ỗ
i ô
ñượ
c coi là m
ộ
t l
ầ
n l
ặ
p.
N
ế
u thí nghi
ệ
m 5 gi
ố
ng lúa và 11 lo
ạ
i thu
ố
c trên và ch
ỉ
xét tác
ñộ
ng chung c
ủ
a t
ổ
h
ợ
p
gi
ố
ng và thu
ố
c (G
i
×
P
j
) t
ớ
i n
ă
ng su
ấ
t lúa thì có thí nghi
ệ
m m
ộ
t nhân t
ố
v
ớ
i k = 5
×
11 = 55
công th
ứ
c thí nghi
ệ
m. S
ố
ô thí nghi
ệ
m (hay s
ố
l
ầ
n l
ặ
p) cho m
ỗ
i công th
ứ
c có th
ể
ch
ọ
n tu
ỳ
ý, không nh
ấ
t thi
ế
t ph
ả
i b
ằ
ng nhau.
Phân tích ph
ươ
ng sai m
ộ
t nhân t
ố
ñượ
c ti
ế
n hành v
ớ
i các d
ữ
li
ệ
u
ñượ
c s
ắ
p thành
nhi
ề
u nhóm, m
ỗ
i nhóm là các l
ầ
n l
ặ
p c
ủ
a m
ộ
t m
ứ
c c
ủ
a nhân t
ố
, nh
ằ
m tách bi
ệ
t các ph
ươ
ng
sai theo hai ngu
ồ
n bi
ế
n
ñộ
ng nhân t
ố
và sai s
ố
. V
ớ
i i = 1, 2, …, k, m
ỗ
i công th
ứ
c T
i
ñượ
c
th
ự
c hi
ệ
n trên n
i
ô thí nghi
ệ
m, các k
ế
t qu
ả
th
ự
c nghi
ệ
m x
ij
ñượ
c coi nh
ư
m
ộ
t m
ẫ
u th
ự
c
nghi
ệ
m
ñố
i v
ớ
i bi
ế
n ng
ẫ
u nhiên X
i
. D
ự
a vào k
ế
t qu
ả
th
ự
c nghi
ệ
m c
ầ
n
ñư
a ra suy
ñ
oán v
ề
vi
ệ
c các trung bình m
i
c
ủ
a các bi
ế
n X
i
là nh
ư
nhau (t
ứ
c là các công th
ứ
c không
ả
nh h
ưở
ng
gì
ñ
áng k
ể
t
ớ
i ch
ỉ
s
ố
c
ầ
n kh
ả
o sát) hay là khác nhau. Có nhi
ề
u ki
ể
u thi
ế
t k
ế
thí nghi
ệ
m
ñể
gi
ả
i quy
ế
t bài toán này. Gi
ả
s
ử
nhân t
ố
có a m
ứ
c, m
ứ
c i
ñượ
c l
ặ
p l
ạ
i n
i
l
ầ
n, nh
ư
v
ậ
y t
ổ
ng
s
ố
có n =
∑
n
i
quan sát, hay còn nói là có n ô thí nghi
ệ
m. N
ế
u b
ố
trí n ô thí nghi
ệ
m hoàn
toàn ng
ẫ
u nhiên ta có thi
ế
t k
ế
thí nghi
ệ
m hoàn toàn ng
ẫ
u nhiên (completely randomized
design). Khi ti
ế
n hành thí nghi
ệ
m ki
ể
u này ph
ả
i dùng n phi
ế
u ghi t
ừ
1
ñế
n n, rút th
ă
m ng
ẫ
u
nhiên n
1
phi
ế
u
ñể
có các ô thí nghi
ệ
m
ñố
i v
ớ
i công th
ứ
c 1, rút ti
ế
p n
2
phi
ế
u
ñể
có các ô thí
nghi
ệ
m
ñố
i v
ớ
i công th
ứ
c 2, , n
k
ô cu
ố
i cùng là c
ủ
a công th
ứ
c k. Vi
ệ
c rút th
ă
m ng
ẫ
u
nhiên
ñượ
c th
ự
c hi
ệ
n trên toàn b
ộ
các ô thí nghi
ệ
m.
Vi
ệ
c tính toán và k
ế
t lu
ậ
n d
ự
a trên mô hình: x
ij
=
µ
+
α
i
+ e
ij
(i = 1, …, k và j = 1,
, n
i
), v
ớ
i x
ij
là k
ế
t qu
ả
c
ủ
a l
ầ
n l
ặ
p th
ứ
j c
ủ
a m
ứ
c i,
µ
là trung bình chung,
α
i
là
ả
nh h
ưở
ng
c
ủ
a m
ứ
c i c
ủ
a nhân t
ố
, còn e
ij
là sai s
ố
ng
ẫ
u nhiên. x
ij
có trung bình m
i
=
µ
+
α
i
. Các sai s
ố
[...]... t lý thuy t m t phía và hai phía Chý ý r ng có th tìm ñư c: - Giá tr P m t phía và hai phía qua hàm Tdist(z, df,1) và Tdist(z, df, 2) - Giá tr t lý thuy t m t phía qua hàm TINV(0.10, df) - Giá tr t lý thuy t hai phía qua hàm TINV(0.05, df) Trong ví d 10, ta có: phương sai c a m u 1: 0.093; phương sai c a m u 2: 0.26571; giá tr t th c nghi m: 1.5187; giá tr t lý thuy t m t phía: 1.79588; giá tr t lý. .. qu thu ñư c khi phân tích phương sai cho b ng I.6 15 b Phân tích k t qu - Các m c c a nhân t 1 có nh hư ng khác nhau ñ n k t qu (F th c nghi m > F lý thuy t) - Các m c c a nhân t 2 có nh hư ng khác nhau ñ n k t qu (F th c nghi m > F lý thuy t) Chú ý: F lý thuy t có th tìm b ng hàm FINV(0.05, 3, 9) =3.86254, và giá tr t cũng có th tìm ñư c b ng hàmTINV(0.05, 9) =2.262 B ng I.6 K t qu phân tích phương... bình c a sai s ng u nhiên là MSSE = SSE/ (n−k−r+1) = 70 / 9 = 7.7778 V i gi thi t ñã nêu, có th ch ng minh ñư c r ng ñ i lư ng th ng kê FR = MSST/MSSE (ñ i v i m u lý thuy t) tuân theo phân ph i Fisher v i b c t do là (k−1, n−k−l+1) Do ñó, n u FR th c nghi m = 8.91429 > FR lý thuy t = f (0.05; 3, 9) = 3.86254 thì gi thuy t “các công th c không nh hư ng t i s trung bình chung” không ñư c ch p nh n theo... bình c a sai s ng u nhiên là MSSE = SSE/[kr(s−1)] = 98/36 = 2.722222 V i gi thi t ñã nêu, có th ch ng minh ñư c r ng ñ i lư ng th ng kê FA = MSSA/MSSE (ñ i v i m u lý thuy t) tuân theo phân ph i Fisher v i b c t do là (k−1, krs−kr) Do ñó, FA th c nghi m =14.9898 > FA lý thuy t = f (0.05; 3, 6) = 2.866265 thì gi thuy t “các m c c a nhân t A (các m c bón phân) không nh hư ng t i s trung bình chung (s... bình trong t ng nhóm là MSSE = SSE/ (n−k) = 5.11279/ 29 = 0.12682 k ni 2 V i các gi thi t ñã nêu, có th ch ng minh ñư c ñ i lư ng th ng kê F = MSSB/MSSE (ñ i v i m u lý thuy t) tuân theo phân ph i Fisher v i b c t do là (k−1, n−k) Do ñó, n u F th c nghi m = 8.54171 > F lý thuy t = f (0.05; 10, 29) = 2.1768 thì gi thuy t “các công th c s d ng thu c không nh hư ng t i năng su t (trung bình) c a lúa” b bác... 2: So F th c nghi m v i F lý thuy t m c alpha, v i s b c t do df1 c a phương sai t s và b c t do df2 c a phương sai m u s , b ng hàm FINV(alpha, df1, df2)) N u F th c nghi m bé hơn F lý thuy t thì dùng mô hình này (σ12 = σ22) N u trái l i, c n chuy n sang mô hình phương sai khác nhau (σ12 ≠ σ22) (m c 5.4) Trong ví d trên, ta có: F th c nghi m = 0.26571/ 0.093=2.8571 và F lý thuy t = FINV(0.05, 7, 4)... SSC = 854 − 208 − 576 − 27.5 = 42.5 T ñó tính ñư c MSSC = 27.5/ 3 = 9.1667 và MSSE = 42.5/ 6 = 7.0834 V y FC th c nghi m = MSSC / MSSE = 7.0834 / 9.1667 = 0.77273 Trong khi ñó FC lý thuy t = f(0.05; 3, 6) = 4.757 Suy ñoán th ng kê có th ñư c ñưa ra là: các công th c không nh hư ng ñáng k t i s trung bình chung c a ch s kh o sát 4.3 Phân tích phương sai hai nhân t Trong trư ng h p này khi phân tích phương... thí nghi m Tuỳ theo m c ñích và ñi u ki n thí nghi m trong các lĩnh v c chuyên môn, thí nghi m ñư c thi t k theo cách th c thích h p và s li u th c nghi m thu ñư c cũng ñư c x lý m t cách phù h p nh m rút ra các suy ñoán th ng kê có ý nghĩa 4.3.1 Thi t k thí nghi m tr c giao Trư ng h p ñơn gi n nh t c a mô hình chéo nhau là y u t A có 2 m c A1 và A2, y u t B có 2 m c B1 và B2 Các t h p có th c a các... First column : nhãn hàng ñ u - Alpha: 0.05 (m c ý nghĩa α) - Output range: mi n ra b Phân tích k t qu - K t qu in ra g m các th ng kê cơ b n cho t ng m c (trung bình, ñ l ch chu n ) và b ng phân tích phương sai - N u giá tr xác su t P-value < alpha (ho c F th c nghi m > F lý thuy t) thì các công th c có tác ñ ng khác nhau t i k t qu , ngư c l i các công th c không có khác bi t ñáng k - N u k t lu n... phân ph i chu n t c z m t phía tính b ng hàm Normsinv(0.95) - Giá tr z t i h n hai phía tính b ng hàm Normsinv(0.975) Trong ví d 8 ta th y: giá tr z th c nghi m 0.14335 nh hơn z lý thuy t (t i h n) m t phía 1.64485 cũng như z lý thuy t hai phía 1.95996 (giá tr P m t phía và hai phía ñ u l n hơn m c ý nghĩa α = 0.05) K t lu n: kỳ v ng c a hai bi n không khác nhau 5.2 So sánh hai m u ki u c p ñôi Ta xét .
TRƯỜNG ðẠI HỌC NÔNG NGHIỆP HÀ NỘI
PGS. TS. Nguyễn Hải Thanh −
−−
− ThS. ðỗ ðức Lực
XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP
với phần.
Phần 1
Xử lý dữ liệu thống kê nông nghiệp trong Excel
Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông
nghiệp nói
Ngày đăng: 17/03/2014, 12:48
Xem thêm: Giáo trình xử lý thống kê nông nghiệp, Giáo trình xử lý thống kê nông nghiệp