Tong hop kien thuc tkud

26 1 0
Tong hop kien thuc tkud

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

tổng hợp kiến thức thống kê ứng dụng về bài giảng, kiến thứcvbjhabuEBWFHS cjhBSCHvwejhds kc SHDC LhbcjhDS CSJBFưbdjhabsckjS FILHewidndakXN HGvXDJXHbừuiBỪEYFIVYBDXjbhduydncbcbcbhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhgdddđgggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggggg

Trang 2

KHÁI NIỆM THỐNG KÊ VÀ CÁC LOẠI THANG ĐO DỮ LIỆU I THỐNG KÊ

- Quá trình thống kê:

+ Giai đoạn điều tra thống kê → Giai đoạn tổng hợp và trình bày kết quả điều tra thu thập được → Giai đoạn phân tích và dự báo thống kê

- Phân loại thống kê:

1 Thống kê mô tả: bao gồm các phương pháp thu thập, trình bày dữ liệu và tính toán các đặc trưng nhằm mô tả đối tượng nghiên cứu => sắp xếp và tổ chức dữ liệu + biểu diễn dữ liệu

2 Thống kê suy diễn: bao gồm các phương pháp mô hình hóa trên các dữ liệu quan sát để đưa ra các suy diễn về đối tượng được nghiên cứu => ước lượng, kiểm định, dự báo, đánh giá tổng thể từ mẫu

II CÁC KHÁI NIỆM CĂN BẢN

1 Tổng thể: là tập hợp tất cả các đơn vị (hay phần tử) thuộc đối tượng mà ta nghiên cứu,

cần quan sát

- Tổng thể bộc lộ: có thể trực tiếp quan sát, nhận biết - Tổng thể tiềm ẩn: không trực tiếp quan sát, nhận biết

- Tổng thể đồng chất: giống nhau ở một hoặc một số đặc điểm chủ yếu có liên quan trực tiếp đến mục đích nghiên cứu

- Tổng thể không đồng chất: ngược lại

2 Đơn vị tổng thể: là các đơn vị (hay phân tử) tạo thành tổng thể

Trang 3

+ Là các dữ liệu ban đầu không được thể hiện dưới dạng số Ví dụ: giới tính, vùng địa lý, ngành học,…

- Dữ liệu định lượng:

+ Phản ánh mức độ hay mức độ hơn kém

+ Là các dữ liệu có thể cân, đong, đo, đếm được Ví dụ: thời gian làm thêm của sinh viên bao nhiêu giờ trong một tuần hay một ngày…

Dữ liệu định tính Dữ liệu định lượng

- Phản ánh tính chất, sự hơn kém - Không tính được giá trị trung bình

- Được thể hiện dưới nhiều cách thức khác nhau

- Phản ánh mức độ, sự hơn kém - Tính được giá trị trung bình

- Được thể hiện bằng các con số cụ thể - Dữ liệu rời rạc:

+ Đề cập đến loại dữ liệu định lượng dựa trên số lượng

+ Nó chỉ chứa các giá trị hữu hạn, mà việc phân chia là không thể - Dữ liệu liên tục:

+ Được mô tả như một tập hợp các quan sát không bị gián đoạn

+ Nó có thể lấy bất kỳ giá trị số nào, trong phạm vi hữu hạn hoặc vô hạn của giá trị có thể

6 Tiêu thức thống kê (Biến): là khái niệm dùng để chỉ các đặc điểm của đơn vị tổng thể

mà ta nghiên cứu

- Tiêu thức thuộc tính (biến định tính): phản ánh tính chất, loại hình của đơn vị tổng thể, không thể hiện trực tiếp bằng các con số (VD: giới tính, nghề nghiệp, tình trạng hôn nhân, tôn giáo,…)

- Tiêu thức số lượng biến (biến định lượng): biểu hiện trực tiếp bằng con số (VD: tuổi, chiều cao, cân nặng, năng suất làm việc,…)

+ Lượng biến: là các trị số cụ thể khác nhau của tiêu thức số lượng

7 Cấp bậc đo lường và các loại thang đo dữ liệu:

- Thang đo định danh:

+ Dùng cho các tiêu thức thuộc tính hay biến định tính

Trang 4

+ Sử dụng các mã số để phân loại các đối tượng, chúng không mang ý nghĩa tính toán - Thang đo thức bậc: là thang đo mà dữ liệu thu nhận được dùng để phân biệt các giá trị của một biến định tính và giữa các giá trị của biến có sự hơn kém

- Thang đo khoảng: là thang đo mà dữ liệu thu nhận từ biến định lượng là những con số không có một ý nghĩa cố định hay tỷ lệ giữa hai số bất kỳ có ý nghĩa không cố định - Thang đo tỷ lệ là thang đo mà dữ liệu thu nhận từ biến định lượng là những con số có một ý nghĩa cố định hay tỷ lệ giữa hai số bất kỳ có ý nghĩa không cố định

II Kỹ thuật chọn mẫu:

1 Kỹ thuật chọn mẫu xác suất:

- Chọn mẫu ngẫu nhiên đơn giản:

1 M̀i đơn vị của tổng thể được chọn với sự ngẫu nhi攃Ȁn như nhau

2 Chuẩn bị khung lấy mẫu gồm danh sách các đơn vị của tổng thể cần nghi攃Ȁn cứu, cần thu thập dữ liệu, sắp xếp các đơn vị theo một thứ tự nào đó như vần abc, theo quy mô, theo địa chỉ… và được gán cho một số thứ tự đơn vị thứ 1 đến đơn vị cuối cùng

3 Thực hiện lấy mẫu đơn vị ra, bằng nhiều cách như bốc thăm, quay số hay dùng số ngẫu nhi攃Ȁn…

- Chọn mẫu hệ thống: là phương pháp lấy mẫu thông qua các bước sau:

1 Chuẩn bị danh sách chọn mẫu, xếp thứ tự theo một quy ước nào đó, đánh số thứ tự cho các đơn vị trong danh sách Tổng số đơn vị trong danh sách là N

2 Xác định cỡ mẫu muốn lấy là n

3 Chia N đơn vị tổng thể thành k nhóm theo công thức k= N/n, k là khoảng cách chọn mẫu

4 Trong k đơn vị đầu ti攃Ȁn chọn ngẫu nhi攃Ȁn ra 1 đơn vị, các đơn vị mẫu tiếp theo được chọn cách đơn vị mẫu đầu ti攃Ȁn này một khoảng k, 2k, 3k,…

- Chọn mẫu cả khối (cụm) và nhiều giai đoạn:

1 Tổng thể được chia thành nhiều khối, m̀i khối xem như một tổng thể con, lấy ngẫu nhi攃Ȁn đơn giản m khối, sau đó khảo sát hết các đối tượng trong các khối mẫu đã được lấy ra

Trang 5

2 Trong một khối mẫu chọn ra, chỉ khảo sát một số đơn vị trong khối này mà thôi, đây chính là chọn mẫu nhiều giai đoạn

- Chọn mẫu phân tầng:

1 Tổng thể nghi攃Ȁn cứu được chia thành các tầng lớp, mục ti攃Ȁu là để các giá trị của các đối tượng tổng thể ta quan tâm thuộc cùng một tầng càng ít khác nhau càng tốt

2 Các đơn vị mẫu được chọn từ các tầng lớp này theo các phương pháp lấy mẫu xác suất thông thường như lấy mẫu ngẫu nhi攃Ȁn đơn giản hay lấy mẫu hệ thống

Giả sử chúng ta cần lấy n đơn vị mẫu từ N đơn vị tổng thể, các đơn vị tổng thể được phân

2 Kỹ thuật chọn mẫu phi xác suất

- Chọn mẫu thuận tiện: là hình thức lấy mẫu ngẫu nhi攃Ȁn được sử dụng trong nghi攃Ȁn

cứu khám phá, để có cảm nhận về “điều gì đang diễn ra ở thực tế”, kiểm tra trước bản câu hỏi nhằm bảo đảm các đặc điểm cần thu thập dữ liệu trong bảng câu hỏi rõ rang, không gây lo lắng cho người trả lời

- Chọn mẫu định mức: là hình thức lấy mẫu mà:

+ Bạn sẽ quyết định các gtoorng thể con (tương tự như các tầng lớp trong lấy mẫu phân tầng)

+ Cần quan tâm tỷ lệ của tổng thể con này thong mẫu của bạn lấy ra - Chọn mẫu phán đoán

III Trình bày dữ liệu 1 Đối với dữ liệu định tính:

+ Bảng tần số, tần suất, tần số số tích lũy, tần suất tích lũy + Biểu đồ hình cột, thanh, hình tròn

2 Đối với dữ liệu định lượng

Trang 6

+ Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy + Phân tổ dữ liệu

+ Biểu đồ thân và lá

+ Đồ thị hình cột, thanh, hình tròn

- Đối với dữ liệu định tính hoặc dữ liệu định lượng ít biểu hiện: + Bảng tần số, tuần suất, tần số tích lũy, tần suất tích lũy

3 Dữ liệu định lượng: phân tổ dữ liệu và biểu đồ nhánh và lá: - Phân tổ dữ liệu: dữ liệu định lượng có số biểu hiện nhiều

+ Áp dụng cho trường hợp dữ liệu định lượng có nhiều biểu hiện

+ Phân tổ dữ liệu là căn cứ vào một hay một số đặc điểm nào đó để sắp xếp các đơn vị quan sát vào các tổ, nhóm có tính chất khác nhau

+ Tùy theo mục đích thể hiện dữ liệu, cũng như đặc điểm phân bố đều đặn hay không đều đặn của đữ liệu mà có thể tiến hành phân tổ đều hay không đều

• Giới hạn trên: trị số max, giới hạn dưới: trị số min

• Điểm ở giữa = giá trị đại diện của tổ = (giới hạn trên+giới hạn dưới)/2 • Khoảng cách tổ: là chênh lệch giữa giới hạn trên và giới hạn dưới

• Nếu tất cả các tổ trong bảng tần số có khoảng cách tổ bằng nhau thì đó là phân tổ đều

+ Các bước:

Trang 7

• Xác định số tổ cần chia là k tổ (nên chia trong khoảng từ trên 5 tổ đến dưới 15 tổ) Một công thức tham khảo xác định được số tổ cần chia phù hợp cho từng bộ dữ liệu cụ thể: k = √𝟐𝒏𝟑 hay (𝟐𝒏)𝟏/𝟑

• Xác định trị số khoảng cách tổ:

h= 𝑿𝒎𝒂𝒙 −𝑿𝒎𝒊𝒏𝒌

Giá trị h tính được nếu là một số lẻ cũng thường được xem xét làm tròn để dễ theo dõi các khoảng cách tổ hơn

• Xác định giới hạn dưới và trên của các tổ theo quy tắc:

+ Giá trị giới hạn dưới của tổ đầu tiên cần đảm bảo ≤ Xmin để bao quát được giá trị Xmin trong tổ đầu tiên

+ Giá trị giới hạn trên của tổ cuối cùng (nếu có) cần đảm bảo ≥ Xmax để bao gồm được Xmax trong tổ cuối cùng

+ Với các tổ liên tục nhau, giá trị cận trên của tổ trước vừa trùng với giá trị cận dưới của tổ sau liền kề

- Biểu đồ nhánh lá: dữ liệu định lượng có số biểu hiện ít

+ Các dữ liệu thu thập được sẽ được tách thành 2 phần: phần nhánh và phần lá + Việc phân chia này chỉ có tính quy ước và khá linh hoạt

+ Các chữ số bên phải của dữ liệu là lá, tương ứng các chữ số còn lại bên tay trái là nhánh

+ Cách xây dựng:

1 Xây dựng nhánh cho biểu đồ, sắp xếp các giá trị nhánh theo thứ tự tăng dần 2 Xây dựng lá cho biểu đồ, lần lượt xếp các dữ liệu quan sát của dữ liệu và từ trái

qua phải

3 Sắp xếp lại theo thứ tự tăng dần của lá để có biểu đồ đẹp hơn

Trang 8

V CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ

1 Các đặc trưng đo lường khuynh hướng tập trung

- Cho dữ liệu rời rạc: trung vị là giá trị đứng ở vị trí giữa trong một dãy số + Nếu n lẻ: trung vị là giá trị ở vị trí thứ n+12

+ Nếu n chẵn: trung vị quy ước là trung bình cộng của 2 giá trị

Trang 9

hMe: khoảng cách của nhóm chứa Me

SMe-1: tần số tích lũy của nhóm đứng trước nhóm chứa Me fMe: tần số của nhóm chứa Me

* SỐ YẾU VỊ (Mode)

- Dữ liệu rời rạc: ModX là giá trị xuất hiện nhiều nhất trong một dãy số - Dữ liệu khoảng – nhóm có độ dài bằng nhau:

1 Xác định nhóm chứa Mode: là nhóm có tần số lớn nhất 2 Áp dụng công thức:

ModX = XMo(min)+ hMo(f fMo-fMo-1

Mo - fMo-1) + (fMo - fMo+1 ) XMo(min): là giới hạn dưới của nhóm chứa Mo

hMo: khoảng cách của nhóm chứa Mo

fMo-1: tần số của nhóm đứng trước nhóm chứa Mo fMo: tần số của nhóm chứa Mo

fMo+1: là tần số của nhóm đứng sau nhóm chứa Mo - Dữ liệu khoảng – nhóm có độ dài không bằng nhau:

1 Xác định nhóm chứa Mode: là nhóm có mật độ phân phối tổ (tỉ số giữa tần số với khoảng cách tổ tương ứng) lớn nhất

2 Áp dụng công thức:

ModX = XMo(min)+ hMo(fd fdMo-fdMo-1

Mo - fdMo-1) + (fdMo - fdMo+1 ) XMo(min): là giới hạn dưới của nhóm chứa Mo

hMo: khoảng cách của nhóm chứa Mo

fMo-1: tần số của nhóm đứng trước nhóm chứa Mo fMo: tần số của nhóm chứa Mo

fMo+1: là tần số của nhóm đứng sau nhóm chứa Mo

Trang 10

* TỨ PHÂN VỊ:

- Dữ liệu rời rạc:

- Dữ liệu khoảng:

Trang 12

* KHOẢNG BIẾN THIÊN: R = Xmax - Xmin

* ĐỘ TRẢI GIỮA: R1 = Q3 – Q1

* PHƯƠNG SAI MẪU HIỆU CHỈNH:

Trang 13

* HỆ SỐ BIẾN THIÊN

Trang 15

SUY DIỄN THỐNG KÊ

Trang 16

ƯỚC LƯỢNG THAM SỐ

I Ước lượng khoảng tin cậy trung bình 1 Ước lượng trung bình của một tổng thể a, Trường hợp đã biết phương sai tổng thể (𝝈2 )

Khoảng tin cậy ngẫu nhiên cho tham số 𝜇 với độ tin cậy (1- 𝛼) là: + Sai số ước lượng: 𝜺 = 𝟐𝑰 =√𝒏𝝈 𝒛𝜶/𝟐

+ Độ dài khoảng tin cậy I không vượt quá 1 số I0 cho trước:

Tính chất: Muốn độ dài khoảng tin cậy giảm đi k lần, thì kích thước mẫu tăng k2 lần - Khi 𝜶𝟏 = 0, 𝜶𝟐= 𝜶: khoảng tin cậy tối đa: 𝝁 < 𝑿 +√𝒏𝝈 𝒛𝜶

- Khi 𝜶𝟏 = 𝜶 , 𝜶𝟐 = 0: khoảng tin cậy tối thiểu: 𝑿 − √𝒏𝝈 𝒛𝜶< 𝝁

b, Trường hợp chưa biết phương sai tổng thể (𝝈𝟐)

- n < 30: Có thể dùng ước lượng điểm của phương sai tổng thể là phương sai mẫu (𝑆2) để thay thế Thống k攃Ȁ tương ứng có quy luật phân phối xác suất Student

Trang 17

+ Độ dài khoảng tin cậy I không vượt quá 1 số I0 cho trước:

Tính chất: Muốn độ dài khoảng tin cậy giảm đi k lần, thì kích thước mẫu tăng k2 lần - Khi 𝜶𝟏 = 0, 𝜶𝟐= 𝜶: khoảng tin cậy tối đa: 𝝁 < 𝑿 + √𝒏𝑺 𝒕𝜶𝒏−𝟏

- Khi 𝜶𝟏 = 𝜶 , 𝜶𝟐 = 0: khoảng tin cậy tối thiểu: 𝑿 −√𝒏𝑺 𝒕𝜶𝒏−𝟏 < 𝝁 2 Ước lượng sự sai khác trung bình trên hai tổng thể

( Ước lượng sự khác biệt 2 trung bình của 2 mẫu độc lập (hiệu 2 trung bình))

Giả sử có 2 tổng thể:

1 𝑋 ~ 𝑁(𝜇1, 𝜎12): X có phân phối chuẩn trung bình 𝜇1 và phương sai 𝜎12

2 𝑋 ~ 𝑁(𝜇2, 𝜎22): X có phân phối chuẩn trung bình 𝜇2 và phương sai 𝜎22 Thực hiện điều tra 2 mẫu trên 2 tổng thể:

Tổng thể X Kích thước mẫu 𝑛1 Trung bình mẫu 𝑋 Độ lệch chuẩn mẫu 𝑆1

Tổng thể Y Kích thước mẫu 𝑛2 Trung bình mẫu 𝑌 Độ lệch chuẩn mẫu S2

a, Trường hợp đã biết phương sai 2 tổng thể

Ước lượng chênh lệch trung bình (hiệu 2 trung bình) của 2 tổng thể: 𝑿 − 𝒀 − 𝜺 ≤ 𝝁𝟏− 𝝁𝟐 ≤ 𝑿 − 𝒀 + 𝜺

Trong đó:

▪ 𝜺 = 𝒛𝜶/𝟐√𝝈𝟏𝒏𝟏+𝝈𝟐

𝒏𝟐 : sai số của ước lượng ▪ 𝜎12, 𝜎22: phương sai của tổng thể X,Y

Trang 18

Trong đó:

▪ 𝜺 = 𝒛𝜶/𝟐√𝑺𝟏𝒏𝟏+𝑺𝟐

𝒏𝟐 : sai số của ước lượng

▪ 𝑆12, 𝑆22: phương sai mẫu hiệu chỉnh của tổng thể X,Y ▪ 1 – 𝛼: độ tin cậy

c, Trường hợp chưa biết phương 2 tổng thể nhưng biết chúng bằng nhau (𝜎12= 𝜎22) và kích thước mẫu nhỏ hơn 30 (𝑛1 < 30 ℎ𝑜ặ𝑐 𝑛2 < 30)

d, Trường hợp chưa biết phương 2 tổng thể nhưng biết chúng không bằng nhau

(𝝈𝟏𝟐 ≠ 𝝈𝟐𝟐) và kích thước mẫu nhỏ hơn 30 (𝐧𝟏 < 𝟑𝟎 𝐡𝐨ặ𝐜 𝐧𝟐 < 𝟑𝟎)

2 Ước lượng khoảng tin cậy cho tỉ lệ (Tần suất) a, Ước lượng tỉ lệ trên một tổng thể (p)

- Xét một tổng thể: + Kích thước N

+ Có M phần tử chứa dấu hiệu A

Trang 19

+ 𝑝 = 𝑀𝑁 là tần suất tổng thể (tỉ lệ tổng thể của dấu hiệu A) => Nếu coi việc xuất hiện của dấu hiệu A là một biến cố, thì p chính là xác suất của biến cố đó

- Ước lượng tần suất của tổng thể p, với độ tin cậy (1-𝛼) dựa trên một mẫu ngẫu nhiên kích thước n

- Trong mẫu kích thước n:

+ 𝑋𝐴 : tần số ngẫu nhiên của dấu hiệu A trong mẫu

+ Sai số ước lượng: 𝜺 = 𝟐𝑰 = √𝒇(𝟏−𝒇)√𝒏 𝒛𝜶/𝟐

+ Độ dài khoảng tin cậy I không vượt quá 1 số I0 cho trước:

* Khi 𝜶𝟏 = 0, 𝜶𝟐= 𝜶: khoảng tin cậy tối đa: 𝒑 < f + √𝒇(𝟏−𝒇)√𝒏 𝒛𝜶

* Khi 𝜶𝟏 = 𝜶 , 𝜶𝟐 = 0: khoảng tin cậy tối thiểu: f - √𝒇(𝟏−𝒇)

√𝒏 𝒛𝜶 < 𝒑

b, Ước lượng sự sai khác tỉ lệ trên 2 tổng thể

Giả sử có 2 tổng thể X,Y Xét dấu hiệu A trên 2 tổng thể:

P1: tỉ lệ của dấu hiệu A trên tổng thể X P2: tỉ lệ của dấu hiệu A trên tổng thể Y

Tổng thể X Kích thước mẫu 𝑛1 Tần suất mẫu f1

Tổng thể Y Kích thước mẫu 𝑛2 Tần suất mẫu f2

- Công thức ước lượng hiệu 2 tỉ lệ tổng thể:

Trang 20

3 Ước lượng khoảng tin cậy cho phương sai a, Ước lượng phương sai trên một tổng thể (𝝈𝟐)

Tổng thể X có PP chuẩn, phương sai tổng thể cần ước lượng 𝜎2, độ tin cậy (1 – α)

* Trường hợp đã biết trung bình tổng thể (𝝁)

Khi trung bình tổng thể m = 𝜇 => sử dụng phương sai 𝑆∗2:

Trang 21

* Trường hợp không biết trung bình tổng thể (𝝁)

Khi không biết trung bình tổng thể ta sử dụng phương sai 𝑆2:

b, Ước lượng tỉ số phương sai trên 2 tổng thể

Giả sử có 2 biến ngẫu nhiên X1,X2 có phân phối chuẩn với các tham số chưa biết Phương sai tương ứng là 𝜎12, 𝜎22

P1: tỉ lệ của dấu hiệu A trên tổng thể X P2: tỉ lệ của dấu hiệu A trên tổng thể Y

Mẫu tổng thể X Kích thước mẫu 𝑛1 Phương sai mẫu hiệu chỉnh S1

Mẫu tổng thể Y Kích thước mẫu 𝑛2 Phương sai mẫu hiệu chỉnh S2

- Khoảng tin cậy cho tỉ số 2 phương sai:

Trang 23

KIỂM ĐỊNH

Ngày đăng: 02/04/2024, 20:50

Tài liệu cùng người dùng

Tài liệu liên quan