ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG KÊ

7 3.9K 63
Tài liệu đã được kiểm tra trùng lặp
ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG KÊ

Đang tải... (xem toàn văn)

Thông tin tài liệu

ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG [ ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG KÊ] Hà Nội 2013 1 Mở đầu. 1.1 Lý do chọn đề tài: Thống là một môn khoa học vừa có tính lý thuyêt vừa có tính ứng dụng cụ thể. Có thể nói khoa học thống phát triển gắn liền với sự phát triển của các hoạt động của con người, thực tiễn vừa là điểm xuất phát vừa là mục đích cao nhất của thống kê. Trong quá trình phát triển của mình, nó đã hình thành một số cách tiếp cận khác nhau. Tùy thuộc vào yêu cầu, mức độ giải quyêt những vấn đề thực tiễn người ta có thể lựa chọn được cách tiếp cận được cho là hiệu quả. Theo thời gian, thống ngày càng có nhiều nội dung phức tạp hơn và cùng với sự phát triển này các công cụ toán học cũng được sử dụng nhiều hơn. Cụ thể hơn, từ những năm nửa đầu thế kỷ XVI thống đã phát triển ở Italia, Pháp, Hà lan, Đức với các cuộc điều tra về dân số và tài sản. Ngày nay thống không còn bó hẹp trong phạm vi cung cấp thông tin về trạng thái hay tình trạng của dân cư, của cải mà thống đã thâm nhập vào hầu hết các lĩnh vực của đời sống kinh tế xã hội. Thống đã và đang hướng tới việc phân tích, khai thác dữ liệu đo được và không đo được nhằm nắm bắt được những kết luận chung nhất từ dữ liệu. Thống kế hiện đại đã có mặt trong mọi lĩnh vực của đời sống kinh tế-xã hội, trong cả cách tiệp cận vi mô và vĩ mô đối với mỗi quá trình, mỗi đối tượng. Với xu hướng phát triển này, đề án đã lựa chọn phân tích thống làm đề tài cho bài viết. Rphần mềm thống miễn phí: Để phân tích thống có thể có sử dụng nhiều phần mềm hay ngôn ngữ khác nhau (như SAS, SPSS, Stata, …). Tuy nhiên, phần lớn những phần mềm này không phải là miễn phí. Do vậy nếu sử dụng R để giảng dạy thì cho sinh viên thì sau khi sinh viên ra trường, sinh viên có thể tiếp tục tiếp cận với phần mềm và sử dụng trong công việc. Nếu giảng dạy bằng một phần mềm giữ bản quyền như SPSS (nếu nhà trường có mua quyền sử dụng) thì sau khi sinh viên tốt nghiệp, không thể ứng dụng được nếu luật bảo vệ sở hữu trí tuệ được thực thi. R hiện nay được coi là chuẩn trên thực tế để giảng dạy về thống kê. Trái với cảm nhận thông thường miễn phí không có nghĩa là chất lượng kém. Để khẳng định cho điều đó, R có khả năng làm tất cả (nên nhớ: là tất cả), thậm chí còn hơn cả những phân tích mà các phần mềm thương mại đã làm. Hiện nay trên thế giới đã có rất nhiều các nhà phân tích sử dụng R trong qua trình nghiên cứu khoa học, nhưng ở nước ta thì R vẫn còn là một khái niệm khá lạ lẫm với số ít người THÁI THỊ SON – CQ523067 Page 2 [ ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG KÊ] Hà Nội 2013 sử dụng. Với xu hướng nắm bắt cái mới, đưa ra bài viết này đề án mong sẽ giới thiệu đến các bạn một cách tổng quát nhất về những lợi ích thực sự mà nó mang lại cho nền khoa học thống kê. 1.2 Mục đích nghiên cứu. • Giới thiệu tổng quan tới bạn đọc về phần mềm R, ngôn ngữ R. • Giới thiệu tới bạn đọc phương pháp phân tích phương sai (ANOVA) và hồi qui logistic về phương diện lý thuyết và ứng dụng. • Nhận thức được cách sử dụng R trong phân tích thống ( cụ thế là trong phân tích ANOVA và hồi qui logistic) • Đưa ra nhận định của cá nhân về việc sử dụng R thay vì sử dụng SPSS trong phân tích thống kê. 1.3 Phương pháp nghiên cứu. • Phương pháp phân tích định tính • Phương pháp phân tích định lượng 1.4 Nguồn số liệu. Dữ liệu được lấy từ : • Giáo trình “ Ngô Văn Thứ: Thống thực hành. NXB ĐH Kinh Tế Quốc Dân. 2012” • Giáo trình “ Nguyễn Quang Dong: Giáo trình Kinh Tế Lượng.NXB ĐH Kinh Tế Quốc Dân. 2012” 1.5 Mục lục của đề án Contents THÁI THỊ SON – CQ523067 Page 3 [ ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG KÊ] Hà Nội 2013 2 Nội dung 2.1 Phần mềm thống R là gì ? R là ngôn ngữ lập trình chuyên dụng cho chuyên viên thống kê: R có thể tiến hành các thuật toán thống chuẩn như tính toán trung bình, độ lệch chuẩn, phương sai, hiệp phương sai, hồi quy, ANOVA, phân tích sống còn, GLM, GAM, mạng thần kinh . Ngoài các phương pháp thống kinh điển, R vượt qua các phần mềm khác để ứng dụng trong các phương pháp tính toán hiện đại nhất (thí dụ như để phân tích hệ gen genomics, xác định các biến dị của DNA người,…) Giao diện phần mềm R. 2.2 Ngôn ngữ R. R cung cấp cho chúng ta một “ngôn ngữ” máy tínhvà một số function để làm các phân tích căn bản và đơn giản. Nếu muốn làm những phân tích phức tạp hơn, chúng ta cần phải tải về máy tính một số package khác. Package là một phần mềm nhỏ được các nhà thống phát triẻn để giải quyết một vấn đề cụ thể, và có thể chạy trong hệ thống R. Chẳng hạn như để phân tích hồi quy tuyến tính, R có function lm để sử dụng cho mục đích này, nhưng để làm các phân tích sâu hơn và phức tạp hơn, chúng ta cần đến các package như lme4. Các package này cần phải được tải về máy và cài đặt. THÁI THỊ SON – CQ523067 Page 4 [ ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG KÊ] Hà Nội 2013 Một số package : Tên package Chức năng Trellis Dùng để vã đồ thị và làm cho đồ thị đẹp hơn lattice Dùng để vã đồ thị và làm cho đồ thị đẹp hơn Hmisc Một số phương pháp mô hình dữ liệu của F.Harrell Design Một số mô hình thiết kế nghiên cứu của F.Harrell Epi Dùng cho các phân tích dịch tễ học epitools Một package khác chuyên cho các phân tích dịch tễ học foreign Dùng để nhập dữ liệu từ các phần mềm khác như SPSS, Stata, SAS,… Rmeta Dùng cho phân tích tổng hợp( meta-analysis) Meta Một package cho phân tích tổng hợp Survival Chuyên dùng cho phân tích theo mô hình Cox(Cox’s proportional hazard model) splines Package cho survival vận hành Zelig Package dùng cho các phân tích thống trong lĩnh vực xã hội học genetics Package dùng cho phân tích số liệu di truyền học BMA Bayesian Model Average leaps Package dùng cho BMA THÁI THỊ SON – CQ523067 Page 5 [ ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG KÊ] Hà Nội 2013 2.3 Nhập và xử lý số liệu trong R Muốn làm phân tích dữ liệu bằng R, chúng ta phải có sẵn dữ liệu ở dạng mà R có thể hiểu được để xử lí. Dữ liệu mà R hiểu phải là dữ liệu trong một data.frame . Có nhiều cách để nhập số liệu vào một data.frame trong R, từ nhập trực tiếp đến nhập từ các nguồn khác nhau. • Nhập số liệu trực tiếp: sử dụng hàm c() • Nhập số liệu trực tiếp: edit(data.frame() ) • Nhập số liệu từ một file: read.table • Nhập số liệu từ Excel: read.csv • Nhập số liệu từ SPSS: read.spss Biên tập dữ liệu: ở đây không có nghĩa là thay đổi số liệu gốc, mà chỉ là tổ chức số liệu sao cho R có thể phân tích một cách hữu hiệu nhất: • Kiểm tra số liệu trống không( missing value) : na.omit() • Tách rời dữ liệu: subset • Chiết dữ liệu từ một data.frame: chol[ ] • Nhập hai data.frame thành một: merge • Mã hóa số liệu( data coding) • Biến đổi thành yếu tố (factor): factor() • Chia nhóm bằng cut(), cut2() 2.4 Ứng dụng R vào phân tích thống Với bài viết này đề án chỉ giới thiệu sử dụng R vào việc phân tích phương sai( ANOVA) và hồi quy logistic với nhưng ví dụ giản đơn trong thực tế chúng ta thường gặp.( Các bộ số liệu đã được kiểm tra các bước cần thiết trước khi phân tích) 2.4.1 Phân tích phương sai Phân tích phương sai là một trong những nội dung của thống phân tích. Nội dung cơ bản của phân tích phương sai về mặt kĩ thuật là tìm cách phân chia tổng sai số bình phương của một biến ngẫu nhiên X thành những bộ phận khác nhau, mà mỗi bộ phận này phản ánh tổng bình phương sai số của X theo một đặc trưng nào đó. Đặc trưng được xác định tuỳ thuộc vào mục đích nghiên cứu thống kê. Với phần này chúng ta sẽ bắt đầu bằng một phân tích đơn giản, sau đó sẽ xem đến phân tích phương sai hai chiều, các phương pháp phi tham số thông dụng. THÁI THỊ SON – CQ523067 Page 6 [ ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG KÊ] Hà Nội 2013 2.4.1.1 Phân tích phương sai đơn giản (one-way analysis of variance- ANOVA) Ví dụ 1. Bảng thống dưới đây đưa ra mật độ dân số 4 vùng của một tỉnh. Đvt: ng/km2 qs F1(Bắc) F2(Nam) F3(Tây) F4(cận Tây) 1 293 121 114 136 2 280 116 176 164 3 283 223 224 117 4 242 238 183 153 5 268 118 159 152 6 184 222 149 108 Câu hỏi đặt ra là mật độ dân số giữa 4 vùng của một tỉnh có khác nhau hay không? Gọi giá trị trung bình của cả bốn nhóm là α 1 , α 2 , α 3 và α 4 và bây giờ chúng ta phải đi kiểm định cặp giả thiết: KĐGT: Ho: α 1 = α 2 = α 3 = α 4 H1: có một khác biệt giữa 4 α j (j=1,2,3,4) THÁI THỊ SON – CQ523067 Page 7 . quá trình, mỗi đối tượng. Với xu hướng phát triển này, đề án đã lựa chọn phân tích thống kê làm đề tài cho bài viết. R là phần mềm thống kê miễn phí: Để. cách tiếp cận khác nhau. Tùy thuộc vào yêu cầu, mức độ giải quyêt những vấn đề thực tiễn người ta có thể lựa chọn được cách tiếp cận được cho là hiệu quả.

Ngày đăng: 11/09/2013, 14:41

Hình ảnh liên quan

Survival Chuyên dùng cho phân tích theo mô hình Cox(Cox’s proportional hazard model) - ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG KÊ

urvival.

Chuyên dùng cho phân tích theo mô hình Cox(Cox’s proportional hazard model) Xem tại trang 5 của tài liệu.
Ví dụ 1. Bảng thống kê dưới đây đưa ra mật độ dân số 4 vùng của một tỉnh. Đvt: ng/km2 - ỨNG DỤNG PHẦN MỀM R TRONG PHÂN TÍCH THỐNG KÊ

d.

ụ 1. Bảng thống kê dưới đây đưa ra mật độ dân số 4 vùng của một tỉnh. Đvt: ng/km2 Xem tại trang 7 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan