phân tích thành phần chính: principal component analysis - pca

88 1.7K 6
phân tích thành phần chính: principal component analysis - pca

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

phân tích thành phần chính: principal component analysis - pca

Phân tích thành phần chính - Principal Component Analysis - PCA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA TOÁN – TIN HỌC Giảng viên : Phạm Thế Bảo Nguyễn Thái Bình 0511002 Lê Thuận Giang 0511003 Phạm Hải Triều 0511041 Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA SƠ LƯỢC VỀ ĐẠI SỐ TUYẾN TÍNH §1. KHÔNG GIAN TUYẾN TÍNH 1. Định nghĩa không gian tuyến tính thực Cho E là tập không trống và R là tập các số thực. E là không gian vector thực nếu: a. Trong E thõa mãn một phép cộng với các tính chất: ∀x và y ∈ E: x + y ∈ E x + y = y + x (1.1.1) ∀x, y và z ∈ E: x + (y + z) = (x + y) +z (1.1.2) Tồn tại một phần tử 0 sao cho x + 0 = x (0 gọi là gốc) (1.1.3) ∀x ∈ E: ∃ (-x) ∈ E sao cho x + ( -x) = 0 (1.1.4) b. Ta xác định một phép nhân khi đưa vào các phần tử của R và E thỏa mãn các tính chất: ∀λ ∈ R và ∀x ∈ E, λ.x ∈ E (1.1.5) Nếu λ, μ ∈ R và x, y ∈ E thì: (λ + μ)x = λ x + μx (1.1.6) λ (x + y) = λx + λy (1.1.7) λ (μx) = (λ μ)x (1.1.8) Nếu λ = 1 thì 1.x = x (1.1.9) Các phần tử của E gọi là các vector, còn các yếu tố của R gọi là các vô hướng, tức là các số thực. 2. Tổ hợp tuyến tính Vector z ∈ E gọi là tổ hợp tuyến tính của các vector x 1 , x 2 , …, x m ∈ E, nếu có các vô hướng (các số) α 1 , α 2 ,…, α m ∈ R không ng không tất cả, sao cho: bằ       (1.1.10) Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA 3. Vector độc lập tuyến tính Các vector x 1 , x 2 , …, x m gọi là độc ập tuyến tính, nếu: l        (1.1.10)’ khi và chỉ khi α 1 = α 2 = … = α m = 0, và gọi là phụ thuộc tuyến tính nếu (1.1.10)’ xảy ra với ít nhất một α j ≠ 0. 1. Cơ sở của không gian. p vector độc lập tuyến tính e 1 , e 2 , …, e p ∈ E là hệ cơ sở của E nếu mọi vector x ∈ E đều là tổ hợp tuyến tính của hệ đó, tức là đều có thể biểu diễn dưới dạng:       (1.1.11) trong đó: {a 1 , a 2 , …, a p } ∈ R Nếu đặt chẳng hạn: e 1 = (1,0,0,…,0) e 2 = (0,1,0,…,0) ………………. e p = (0,0,0,…,1) thì viết được: x = (a 1 , a 2 , …, a p ), và khi đó x được gọi là vector dòng. Nếu viết: Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA          thì x là vector cột trong không gian đã cho. Rõ ràng rằng với phần tử 0 (vector 0) thì a j = 0 với mọi j = 1, 2,…, p, tức là: 0 = (0, 0,…, 0) Không gian E có p vector cơ sở như thế không gian tuyến tính p chiều, ký hiệu là R p . Nếu ký hiệu số chiều của không gian E là dimE thì ta có dimR P = p. Không gian R P có thể có nhiều cơ sở, nhưng mọi cơ sở của nó đều gồm có p vector. Các số thực (các vô hướng) a 1 , a 2 ,…, a p gọi là các tọa độ của x trên hệ cơ sở e 1 , e 2 , …, e p . Ta chỉ xét các không gian có số chiều hữu hạn (p < ∞). Ví dụ 1. Thống kê công thức bón phân N, P, K cho lúa và năng suất lúa tương ứng trên 9 mảnh ruộng tại một vùng thuộc đồng bằng sông Hồng được bảng sau: Mảnh ruộng N (kg/ha) P (kg/ha) K (kg/ha) NS (tấn/ha) 4,10 42 90 100 1 4,20 45 85 120 2 4,00 40 95 110 3 4,15 45 95 105 4 4,05 50 90 115 5 4,10 40 100 110 6 4,15 45 80 120 7 4,10 40 90 110 8 4,20 50 100 100 9 Ta có một không gian 4 chiều và 9 điểm thực nghiệm tức là có 9 vector thực nghiệm trong không gian đó. Nếu đặt: e 1 = (1, 0, 0, 0), số 1 biểu thị 1kg N/ha, Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA e 1 = (0, 1, 0, 0), số 1 biểu thị 1kg P/ha, e 1 = (0, 0, 1, 0), số 1 biểu thị 1kg K/ha, e 1 = (0, 0, 0, 1), số 1 biểu thị 1tấn thóc/ha thì mỗi công thức bón phân và năng suất tương ứng được thể hiện bằng một vector x là tổ hợp tuyến tính của hệ cơ sở e 1 , e 2 , e 3 , e 4 . Chẳng hạn, với công thức thứ nhất: x 1 = 100e 1 + 90e 2 + 42e 3 + 4,1e 4 Với công thức thứ 2: x 2 = 120e 1 + 85e 2 + 45e 3 + 4,2e 4 ………………………………. Mỗi vector           trong không gian p chiều có điểm ngọn là (x i1 ,x i2 ,…,x ip ). Chẳng hạn có thể viết: x 1 = (100; 90; 42; 4,1) 2. Không gian con. Cho tập con F ⊂ R p , F ≠ Ø. Tập F được gọi là không gian con của R P hay siêu phẳng, nếu với mọi vector x, y ∈ F và mọi λ, μ ∈ R thì: x = λx + μy ∈ F. Tất nhiên dimF ≤ dỉm p . Ví dụ 2. Trong bảng hình 3, nếu chỉ quan tâm đến quan hệ giữa đạm (N) và năng suất, ta được một không gian hai chiều. Đó là không gian con của không gian bốn chiều đã nêu trên. Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA Hệ cơ sở của không gian con này là: e 1 = (1, 0) e 4 = (0, 1) mà ta có thể biểu diễn bằng mặt phẳng như trên hình 3. trong đó, với mảnh 1: x 1 = 100e 1 + 4,1e 4 . với mảnh 2: x 2 = 120e 1 + 4,2e 4 với mảnh 3: x 3 = 110e 1 + 4,0e 4. Ví dụ 3: Dễ dàng thấy rằng hai vector x 1 và x 2 trong ví dụ một độc lập tuyến tính với nhau. Do đó, chúng có thể lập thành một siêu phẳng trong không gian 4 chiều. Không gian con (siêu phẳng) hai chiều này chứa mọi vector có dạng x = (100λ + 120μ)e 1 + (90λ + 85μ)e 2 + (42λ + 45μ)e 3 + (4,1λ + 4,2μ)e 4 với λ và μ là những số thực bất kỳ. Tất nhiên, để phù hợp với thực tế sản xuất nông nghiệp, ta cần giới hạn giá trị của λ và μ, chẳng hạn so với bảng số liệu: 100 ≤ 100λ + 120μ ≤ 120 80 ≤ 90λ + 85μ ≤ 100 40 ≤ 42λ + 45μ ≤ 50 4,0 ≤ 4,1λ + 4,2μ ≤ 4,2 Không gian con có các tính chất sau: 1. Nếu F 1 và F 2 là hai không gian con của R p , thì F 1 ∩ F 2 cũng là không gian con của R p . 2. Cho F là không gian con của R p , và cho t là một vector bất kỳ ∈ R p . Gọi: F * = {y ∈ R p : y = x + t, x ∈ F} (1.1.13) thì F * là siêu phẳng (không gian con) afin song song với F. Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA 3. Tổng trực tiếp của các không gian con Cho F 1 , F 2 , …, F k là k không gian con của R p . Nếu F 1 , F 2 , …, F k tạo thành một phân hoạch trong R p , tức là:        (1.1.14) F i ∩ F j = Ø với mọi i ≠ j; i, j = 1, 2,…, k (1.1.15) thì với mỗi vector x ∈ R p đều tồn tại một và chỉ một hệ vector x 1 , x 2 , …, x k , trong đó x j ∈ F j (j =       ) sao cho:     Trong trường hợp đó không gian R p gọi là tổng trực tiếp của các F j ; j =       ; và ký hiệu là: R p = F 1 ⊕ F 2 ⊕ … ⊕ F k . (1.1.16) Nếu k = 2 thì R p = F 1 ⊕ F 2 ; F 1 và F 2 gọi là các phần bù (đối lập) của nhau. Ví dụ 4. Trong bảng 3.1, nếu gọi F 1 là không gian con 3 chiều, mà mỗi vector phần tử của nó là một công thức phân bón, và F 2 là không gian con một chiều mà mỗi phần tử của nó là một mức năng suất thì F 1 là phần bù của F 2 . §2. MA TRẬN 1. Định nghĩa ma trận Ma trận là một bảng số gồm n dòng và p cột, n và p có thể bất kì và hữu hạn. Ký hiệu ma trận bằng các chữ hoa A, B, X, … Đôi khi để chỉ rõ số dòng và cột của ma trận, ta ký hiệu A n,p (n dòng và p cột). Như vậy, Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều                          (1.2.1) trong đó a ij là phần tử nằ t j cm ở dòng i, cộ ủa A. Cũng có thể viết:                         hoặc     hoặc      hoặc     Nếu n ≠ p, thì ma trận là ma trận chữ nhật Nếu n = p, ta có ma trận vuông cấp p, A pp Cho ma trận A. Một ma trận gồm mọi phần tử nằm trong r dòng và r cột bất kỳ (r<p) của A gọi là ma trận con cấp r của A. Ví dụ 1: Trong ví dụ 1 §1 ta có một ma trận 9 dòng 4 cột (ma trận chữ nhật). Nếu cho tương ứng với mỗi cột một vector (gọi là vector – biến) thì ta được 4 vector 9 chiều ∈ R 9 , còn nếu cho tương ứng mỗi dòng một vector (gọi là vector - cá thể) thì ta được một không gian 4 chiều, ký hiệu R 4 . Như vậy, mỗi vector – cá thể (vector dòng) ở đây tương ứng với một mảnh ruộng, trên đó có các giá trị của N, P, K và NS; còn mỗi vector – biến (vector cột) tương ứng với một biến lượng, mà mỗi phần tử của vector là một trị của biến lượng đó. 2. Cộng ma trận: Cho hai ma trận             Phân tích thành phần chính - Principal Component Analysis - PCA (Có cùng số dòng và số cột) Tổng của hai ma trận A và B, ký hiệu là:  (1.2.2)     là ma trận n dòng p cột mà: cij = aij + bij với mọi       , j      Ma trận tổng là ma trận mà mỗi phần tử của nó bằng tổng của các phần tử tương ứng trong các ma trận thành phần.             Ví dụ 2: 3. Nhân ma trận với một vô hướng Cho ma trận A và một số khác k. khi đó: Ak=kA=(ka ij ) (1.2.3) Nếu ma trận A được nhân với số k thì tức là nhân mọi phần tử của nó với số k đó            Ví dụ 3: 4. Nhân hai ma trận Cho hai ma trận A ,p và B p,q (s ộ của A n,p b g số a B ) tức là: n ố c t ằn dòng củ p,q                                                   Khi đó ma trận tích: Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều  [...].. .Phân tích thành phần chính - Principal Component Analysis - PCA AB c c c c c C c c c c là ma trận n dòng và q cột mà phần tử ở dòng i, cột j là: c a b i 1, n; j 1, q (1.2.4) Ví dụ 4: A 2 1 1 4 3 ,B 2 2 1 1 3 1 2 3 1 4 khi đó: c11 = 2.2 – 1.1 + 3.1 = 6 c12 = 2.1 -1 .3 + 3.2 = 5 c13 = 2.3 + (-1 ) (-1 ) + 3.4 = 19 c21 = -1 .2 + 4.1 + 2.1 = 4 c22 = -1 .1 + 4.3 + 2.2 = 15 c23 = -1 .3 + 4. (-1 ) + 2.4... Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều   Phân tích thành phần chính - Principal Component Analysis - PCA |AQ - λI| = 0 4 Tìm vector riêng Sau khi đã tìm được các giá trị riêng, ta tìm các vector riêng như sau: Cách 1: Với mỗi giá trị riêng λj; j 1, p; giải hệ phương trình: (A - λjI)x = 0 nếu tích vô hướng trong Rp là xTx (AQ - λjI)x = 0 nếu tích vô hướng trong Rp là xTQx Cách 2: Áp dụng tính... Triều   Phân tích thành phần chính - Principal Component Analysis - PCA Nhờ tính chất đó, có thể biến đổi sao cho trong dòng i của định thức mọi phần tử đều bằng không, trừ một phần tử khác không, giả sử aij ≠ 0 Khi đó: |A| a A 1 tức là việc tính định thức A cấp p đưa về việc tính định thức cấp (p - 1) Ta hạ cấp dần như vậy cho đến khi chỉ còn định thức cấp 3 hoặc định thức cấp 2 6 Định thức của tích. .. (1.5.1), chú ý rằng λx = (λI)x, trong đó I = Ip,p’ do đó từ (1.5.1) ta được: (A - λI)x = 0 (1.5.2) trong đó vế phải là vector 0 – p chiều, 0T = (0, 0,…,0) Vì x ≠ 0 (ít nhất có một phần tử xi ≠ 0) nên phải có: Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều   Phân tích thành phần chính - Principal Component Analysis - PCA |A - λI| = 0 (1.5.3) Giải phương trình (1.5.3), một phương trình đại số bậc p,... cho A là ma trận p dòng, n cột và B là ma trận n dòng, q cột thì tích AB là ma trận p dòng, q cột, đồng thời tích AB có tính chất sau: (AB)T = BTAT (1.2.5) Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều   Phân tích thành phần chính - Principal Component Analysis - PCA Cho ma trận vuông Ap,p Gọi vết của A, ký hiệu là Tr(A), là tổng các phần tử trên đường chéo chính của A Nói cách khác, nếu: a a a... gọi là ma trận đơn vị cấp k, nếu các phần tử trên đường chéo chính của nó (tức là các aii, i 1, k) đều bằng 1, còn mọi phần tử khác đều bằng 0 Ký hiệu ma trận đơn vị cấp k là Ikk (hay đơn giản là I) thì: 0 1 0 0 0 I 1 0 0 1 (1.2.8) 9 Ma trận nghịch đảo Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều   Phân tích thành phần chính - Principal Component Analysis - PCA Cho ma trận A vuông cấp k Nếu tồn... -1 Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều   Phân tích thành phần chính - Principal Component Analysis - PCA 3 1 A 2 2 2 2 1 2 A 6 6 2 4 2 6 A13 = 2 + 3 = 5, A21 = 0 + 1 = 1, A22 = 2 – 1 = 1, A23 = 1 - 0 = 1, A31 = 0 + 3 = 3, A32 = 2 + 2 = 4, A33 = 3 Như vậy: 4 6 5 1 1 1 A A 1 0 0 A 3 4 3 Dễ thấy rằng: AA 0 1 0 0 0 1 Cũng có thể tìm A-1 bằng cách lập một bảng mà bên trái là ma trận A và bên... chỗ các phương trình và các biến sao các phần tử của ma trận Aq,q nằm trong q dòng đầu và q cột đầu của A Vì vậy không làm mất tính tổng quát, có thể giả thuyết: a a a a a a ≠ 0, |Aq,q| = a a a Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều   Phân tích thành phần chính - Principal Component Analysis - PCA Và với mọi k, q < k ≤ p đều có |Ak,k| = 0 Loại bỏ (p - q) phương trình mà các hệ số của các... R R , là -1 -1 x = f (y) Chứng minh được rằng nếu f là ánh xạ tuyến tính thì f cũng là tuyến tính 2 Ma trận của ánh xạ tuyến tính Ccho e1, e2,…,ep là hệ vector cơ sở của Rp, tức là : e1 = (1, 0, …, 0, …, 0) e2 = (0, 1, …, 0, …, 0) ej = (0, 0, …, 1, …, 0) ep = (1, 0, …, 0, …, 1) Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều   Phân tích thành phần chính - Principal Component Analysis - PCA Giả... hiệu d(x,y) là căn bậc hai của: d x, y x y TQ x y (1.4.10) x y Viết dưới dạng giải tích thì: T d x, y y q x x y (1.4.10)’ trong đó xT x ,x ,…,x yT y ,y ,…,y q Q q …q q q …q ………………… q q …q Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều   Phân tích thành phần chính - Principal Component Analysis - PCA Nếu Q = I (tích vô hướng gắn với ma trận đơn vị) thì: d x, y x x y y T x y x y (1.4.11) Gọi góc .  Phân tích thành phần chính - Principal Component Analysis - PCA Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA . Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA Nhờ tính chất đó, có thể biến đổi sao cho trong dòng i của định thức mọi phần tử đều bằng không, trừ một phần tử k. – Phạm Hải Triều  Phân tích thành phần chính - Principal Component Analysis - PCA          thì x là vector cột trong không gian đã cho. Rõ ràng rằng với phần tử 0 (vector 0)

Ngày đăng: 21/11/2014, 10:39

Từ khóa liên quan

Mục lục

  • - Use of principal component analysis to evaluate the physical properties of Mahon cheese: http://www.springerlink.com/content/7a5c93h2j8agkd2a/

Tài liệu cùng người dùng

Tài liệu liên quan