không gian − thời gian, không gian − các biến hoặc thời gian − các biến. Mỗi pot

29 Chương 2 - MÔ TẢ CẤU TRÚC CỦA CÁC QUÁ TRÌNH 2.1. PHƯƠNG PHÁP THÀNH PHẦN CHÍNH Phát biểu bài toán, phương trình cơ bản Ý tưởng của phương pháp các thành phần chính là biểu diễn một quá trình phức tạp thành tổng của các thành phần đơn giản hơn, không phụ thuộc nhau (các số hạng khai triển). Tuy nhiên, khác với khai triển theo các đa thức Chebưsev hay khai triển Fourier, trong phương pháp các thành phần chính, cấu trúc các tham số khai triển không được cho trước. Nó được xác định đơn trị và khách quan chỉ bởi nội dung bên trong của quá trình được nghiên cứu và mức liên hệ giữa các chuỗi quan trắc với nhau. Vì vậy, phương pháp các thành phần chính thường còn được gọi là khai triển theo các hàm trực giao tự nhiên (hay thực nghiệm) [155]. Quy tắc đối với phương pháp các thành phần chính là: mỗi số hạng khai triển chứa đựng trong nó sự biến động tương ứng của một số biến xuất phát. Theo nghĩa này, phương pháp các thành phần chính giống như một công cụ nén thông tin hữu hiệu và khái quát thông tin, cho phép bằng một số ít các tham số khai triển, phản ánh và phân tích được sự biến động toàn diện của nhiều đặc trưng trạng thái của hệ thống tự nhiên. Theo phương pháp này , từ những quan trắc rời rạc khác nhau, có thể tách ra cái chung nhất cho phép khôi phục bản chất của những biến đổi đang diễn ra, những biến đổi này nhiều khi không trực tiếp lộ rõ ra trước mắt người nghiên cứu. Những số liệu quan trắc xuất phát dùng trong phương pháp các thành phần chính được hình thành dưới dạng các bảng số phân bố theo: không gian − thời gian, không gian − các biến hoặc thời gian − các biến. Mỗi trường hợp cụ thể sẽ có một mức khái quát dữ liệu của nó. Trong hệ tọa độ k hông gian − thời gian, nhờ phương pháp các thành phần chính, có thể phát hiện ra những quy mô dao động cơ bản trong không gian và trong thời gian của biến được nghiên cứu. Trong hệ tọa độ không gian − các biến, người ta quan tâm mô tả phạm vi ảnh hưởng của từng biến trong số các biến và khái quát sự biến động cùng nhau của các biến. Trong hệ tọa độ thời gian − các biến, mục tiêu phân tích sẽ là mô tả tổng quát đối tượng nghiên cứu như một hệ thống phụ thuộc vào tập hợp những tham số khác loại với nhau. Xuất hiện câu hỏi: vậy c huyển từ những quan trắc hiện có sang những biến mới nào đó để làm gì? Vấn đề là ở chỗ: đối với phần lớn những tình huống thực tế, sự biến động thấy được của các tham số chưa cho phép người nghiên cứu thấu hiểu về bản chất của các quá trình đang diễn ra. Trong dữ liệu luôn luôn chứa đựng những thành phần nhiễu, những quy mô biến động không gian, thời gian không được biết chính xác, một bộ phận các tham số quan trắc có thể liên hệ với nhau và cùng mô tả một quá trình. Vì vậy mà đặt ra bài toán khai triển quá trình phức tạp thành những dao động đơn sao cho: 1) chuyển sang những biến mới không liên hệ lẫn nhau, trong khi vẫn giữ nguyên độ chính xác của phép mô tả; 2) từng biến trong số các biến mới chứa đựng trong nó một trong những xu thế quan trọng n hất của những số liệu xuất phát; 3) tất cả các biến mới được sắp xếp theo thứ tự giảm dần mức đóng góp (mức ảnh hưởng) của chúng vào sự biến động chung. Điều rất quan trọng là tất cả những nhiệm vụ quan trọng như vậy được giải quyết một cách đơn giản về kỹ thuật − biến đổi tuyến tính các số liệu xuất phát, hay nói cách khác, bằng cách nhân từng phần tử của mỗi biến với các hệ số liên hệ tuyến tính của biến đang xét với biến mới. Vấn đề cơ bản của phương pháp các thành phần chính chính là làm sao tìm được những hệ số liên hệ giữa các biến ban đầu và các thành phần chính một cách tốt nhất. 30 Phát biểu toán học của mô hình phương pháp các thành phần chính như sau: Giả sử có tập số liệu gồm N quan trắc về M biến. Tập số liệu này tương đương với M vectơ quan trắc dạng {} M xxxx , ,,, 321 =x làm thành ma trận số liệu X gồm N dòng và M cột. Ma trận số liệu này được đặt tương ứng với ma trận những giá trị của các thành phần chính F , cũng có N dòng và M cột. Mỗi cột trong ma trận F mô tả biến thiên của một thành phần chính j f , thành phần chính này được biểu diễn dưới dạng một vectơ { } jNjjjj ffff , ,,, 321 =f . Số biến M và số thành phần chính trùng nhau. Số quan trắc N trong số liệu xuất phát và số các trị số của từng thành phần chính trùng nhau. Khi đó phương trình cơ bản của phương pháp các thành phần chính có dạng T AFX ⋅= . (2.1) Ở đây ma trận A là ma trận các hệ số liên hệ giữa các biến và các thành phần chính. Ma trận A gồm M dòng và M cột. Mỗi cột của ma trận A gồm những hệ số liên hệ giữa thành phần chính đang xét và tất cả những biến ban đầu. Theo quy tắc đại số ma trận, ma trận A trong phương trình (2.1) được chuyển vị thành T A (tức quay 90 °). Theo phươn g trình (2.1), công thức của phương pháp các thành phần chính để tính quan trắc thứ i của biến j trong ma trận số liệu sẽ là:  = = M k jkkiji fax 1 . (2.2) Ý nghĩa hình học của phương pháp các thành phần chính Một cách đơn giản nhất, ta xét vấn đề này qua thí dụ phân tích hai biến xuất phát. Giả sử đó là hai chuỗi quan trắc nhiệt độ nước tại hai tầng. Ta sẽ biểu thị đám mây quan trắc trong hệ tọa độ: trục hoành là biến thiên nhiệt độ tại tầng thứ nhất ( 1 x ), trục tung là biến thiên nhiệt độ tại tầng thứ hai ( 2 x ). Nếu đám mây biến động có dạng hình ellip (hình 2.1), thì điều đó cho ta thấy rằng các dao động nhiệt độ nước tại hai tầng có liên quan với nhau. Biến động tổng cộng của các dao động ứng với trục lớn của hình ellip có thể đánh giá theo quy mô dao động tại mỗi tầng: )x(σ)x(σσ Σ 2 2 1 22 += . Các thành phần chính có thể xem như những trục của hệ tọa độ trực giao mới. Khi đó, quá trình tìm những thành phần chính cần lý giải như là thủ tục quay các trục tọa độ. Việc định hướng lại các trục thực hiện theo quy tắc sau: trục thứ nhất (thành phần chính) được hướng theo trục của tản mạn cực đại của quan trắc, trục thứ hai hướng theo hướng của tản mạn dư cực đại sau khi đã trừ đi ảnh hưởng của thành phần trước đó và với điều kiện trục này phải vuông góc với trục thứ nhất. Theo cách như vậy, việc chuyển từ các tọa độ các biến 21 , xx sang tọa độ các thành phần chính 21 ff , được thực hiện bằng cách quay đơn giản hệ tọa độ đi một góc α ngược chiều kim đồng hồ, kết quả là hình chiếu của các quan trắc lên các trục thành phần sẽ biến đổi. Rõ ràng, phương sai của các hình chiếu quan trắc lên trục thành phần thứ nhất sẽ lớn hơn nhiều so với thành phần thứ hai, mặc dù phương sai tổng cộng không thay đổi (do tính tuyến tính của phép biến đổi hệ tọa độ, hình dạng đám mây không thay đổi): )()( 2 2 1 22 ff σ+σ=σ Σ . Kiểu lý giải hình học đã trình bày cho phép hiểu nội hàm của các vectơ riêng theo một cách khác. Ma trận các vectơ riêng A chứa những hệ số chuyển đổi từ các biến xuất phát sang các thành phần chính. Từ quan điểm lượng giác, những hệ số chuyển đổi này thực chất là cosin và sin của các góc quay các thành phần chính so với các biến xuất phát. Từ đây dễ dàng viết ma trận A dưới dạng lượng giác: 31         =         αα α−α = 2221 1211 cos sin aa aa sin cos A . − 21 , xx các trục theo biến xuất phát − 21 , ff các trục theo thành phần chính − α góc quay của các trục Hình 2.1. Ý nghĩa hình học của các thành phần chính Sự lý giải hình học trên đây về phương pháp các thành phần chính cho thấy rằng: trong phương pháp này đã diễn ra quá trình nén thông tin. Điều này thể hiện ở việc định hướng các thành phần chính đầu tiên dọc theo những trục tản mạn cực đại của đám mây quan trắc. Kết quả là một phần lớn độ biến động của quá trình được tập trung vào những thành phần đầu tiên, vì thế chúng có tên là các thành phần chính. Còn mỗi một thành p hần tiếp sau, theo định nghĩa, chỉ mô tả phần phương sai nhỏ dần, số hiệu của thành phần càng cao, thì nó càng mang ít thông tin. Những tính chất của các thành phần chính Những tính chất của các thành phần chính có thể hình thành trên cơ sở phân tích phương trình cơ bản của phương pháp và ý nghĩa hình học của nó như sau: 1) Các thành phần chín h không liên hệ tuyến tính với nhau (trực giao); do đó, tương quan cặp giữa chúng bằng không: 0),cos( ,0),( == jiji ffffr . 2) Các thành phần chính mô tả độ biến động của số liệu sao cho thành phần chính thứ nhất mô tả sự tản mạn cực đại của đám mây quan trắc, thành phần chính thứ hai trực giao với thành phần thứ nhất và mô tả phần tản mạn dư cực đại, thành phần thứ ba trục giao với những thành phần trước nó và mô tả phần tản mạn dư cực đại và v.v )()()( n fff 2 2 2 1 2 σ≥⋅⋅⋅≥σ≥σ . 3) Ứng dụng phương pháp các thành phần chính cho phép mô tả phương sai của các biến nghiên cứu một cách tối ưu trong số tất cả những phép biến đổi tuyến tính khác. 4) Sử dụng c ác thành phần chính cho phép mô tả thông tin xuất phát với một độ sai lệch cực tiểu về cấu trúc hình học của đám mây quan trắc trong không gian các thành phần chính. 5) Phần đóng góp của một thành phần chính vào mô tả phương sai chung của các biến tỷ lệ với bình phương giá trị riêng của ma trận tương quan các biến xuất phát tương ứng với thành phần chính đó. 6) Những thà nh phần chính mô tả một cách tối ưu độ biến động của các biến xuất phát, điều này trực tiếp suy ra từ tính chất cực đại của phiếm hàm:  == →= M k M j jk xfrV 11 2 max),( , ở đây −) ,( jk xfr hệ số tương quan giữa biến j và thành phần chính k . Công cụ toán học của phương pháp các thành phần chính Như đã trình bày, phương trình cơ bản của phương pháp các thành phần chính viết dưới dạng ma trận: 32 T AFX ⋅= . Bài toán phương pháp các thành phần chính đã phát biểu ở trên là bài toán tìm những biến đổi tuyến tính j f với những tính chất: − Mỗi thành phần ch ính sẽ thâu tóm được tối đa phương sai: max )( 2 → j f ; − Các thành phần chính không phụ thuộc lẫn nhau: 0),( = kj ff . Để tìm thành phần chính, trước hết phải xác định những hệ số liên hệ từng biến j với từng thành phần k , những hệ số này lập thành ma trận A − các tỉ trọng của những thành phần chính (hay các hệ số khai triển). Điều này sẽ trở thành có thể, nếu chấp nhận điều kiện khôi phục hoàn toàn tương quan của các biến xuất phát theo ma trận A : T AA R ⋅= , (2.3) trong đó − R ma trận tương quan của các biến xuất phát có kích thước M dòng và M cột. Trong trường hợp này, toàn bộ thủ tục phương pháp các thành phần chính thực tế quy về việc tìm những vectơ riêng của ma trận tương quan của các biến, bởi vì điều kiện (2.3) chỉ thoả mãn trong trường hợp ma trận A được tạo thành từ M vectơ riêng của ma trận tương quan R . Quá trình tìm những vectơ riêng bắt đầu từ việc tính các giá trị riêng của ma trận tương quan bằng cách giải phương trình đặc trưng: 0 =Λ− IR . (2.4) Giải phương trình ma trận (2.4) có nghĩa là tìm M nghiệm của phương trình đặc trưng đối với định thức dạng 0 - -r 321 3333231 2232221 1131211 =                     λ−⋅⋅⋅⋅ ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅ ⋅⋅⋅λ ⋅⋅⋅λ ⋅⋅⋅λ− MMMMM M M M rrrr rrrr rrr rrrr . Giai đoạn thứ hai − giải các hệ phương trình t uyến tính để xác định những vectơ riêng: 0)( =Λ−⋅ IRA . (2.5) Biểu thức ma trận (2.5) tương đương với M hệ phương trình, mỗi hệ gồm M phương trình dạng          =λ−+⋅⋅⋅++ ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅ =+⋅⋅⋅+λ−+ =+⋅⋅⋅++λ− .)( ,)( ,)( 0 0 0 2211 2222211 1122111 iMMiMMiMi MiMiii MiMiii rarara rarara rarara Mỗi hệ chứa một giá trị ri êng tương ứng ( i λ ) và khi giải sẽ cho M nghiệm − tức M giá trị của vectơ riêng thứ i , làm thành các cột của ma trận A . Điều kiện bổ sung để tìm các vectơ riêng là điều kiện quy chuẩn phương sai của các phần tử của mỗi vectơ riêng:  = = M j ji a 1 2 1 đối với từng vectơ ,i Mi , ,1= . Lưu ý rằng, các bài toán tính những giá trị riêng (đặc trưng) và những vectơ riêng (đặc trưng) là những bài toán truyền thống của đại số tuyến tính, không hề có gì phức tạp và người ta đã từng thực hiện trong 33 nhiều thập niên [3, 30, 34, 81, 86, 94]. Sau khi tìm các giá trị riên g và các vectơ riêng A , còn phải giải hai bài toán. Bài toán thứ nhất − đánh giá tầm quan trọng của từng thành phần. Việc đánh giá trực tiếp suy ra từ đẳng thức: phương sai của mỗi thành phần chính bằng giá trị riêng tương ứng với nó. Do đó, phần đóng góp tương đối của thành phần i vào mô tả phương sai chung của các biến bằng:  = λ λ = M j j i i d 1 . (2.6) Một chi tiết cuối cùng tr ong phương pháp các thành phần chính là ước lượng bản thân các giá trị của thành phần chính, tức các vectơ j f . Theo truyền thống, bài toán này thực hiện bằng cách sử dụng hồi quy tuyến tính kinh điển, theo đó ma trận các hệ số hồi quy ( B ) được tính theo vectơ các giá trị riêng ( Λ ) và ma trận các vectơ riêng ( A ): CB 1/2 Λ= , trong đó m a trận 1 )( − = T AC . Nếu viết theo từng phần tử, công thức trên đây có dạng jijji cb λ= . Dưới dạng tổng q uát, biểu thức để khôi phục ma trận các thành phần chính như sau: BXF ⋅= . (2.7) hay viết cho từng thành phần: giá trị thứ i của thành phần j được tính như sau:  = = M k jkkiji bxf 1 , trong đó −= Mk , ,1 số hiệu của biến x uất phát. Ứng dụng phương pháp các thành phần chính trong hải dương học Theo truyền thống hình thành trong hải dương học ứng dụng, phương pháp các thành phần chính trước hết được ứng dụng khi nghiên cứu cấu trúc không gian − thời gian của các quá trình, hay được dùng nhất để phân tích biến động điều kiện nhiệt mặt đại dương [20, 60, 67, 105, 111, 255]. Phương pháp được ứng dụng thành công để khai triển theo không gian và theo thời gian. Những quy luật biến động thời gian của các thành phần chính thể hiện những xu thế c hung trong dao động của các trường nghiên cứu, điều này được dùng rất thành công cho các mục đích dự báo [6, 61, 64, 71, 91]. Về những vấn đề này sẽ xét một cách chi tiết trong chương 6. Khu vực ứng dụng đặc biệt của phươn g pháp các thành phần chính kinh điển trong hải dương học liên quan tới vấn đề tìm hiểu cấu trúc nước. Bài toán thường được xét trong hệ tọa độ không gian − các biến. Các biến ở đây là những trị số quan trắc của những đặc trưng thủy lý và thủy hoá. Mục tiêu ứng dụng phương pháp các thành phần chính là làm sao thông qua các thành phần chính, mô tả được những mối liên hệ quan trọng n hất của các đặc trưng hải dương học và trong tọa độ địa lý xác định cấu trúc của những trường xuất phát. Theo cách tiếp cận này, những yếu tố cấu trúc gồm: các khối nước chính [32, 37, 99, 197], sự phân tầng thẳng đứng của nước đại dương [149, 191], các kiểu nước và các front [96], các thành tạo xoáy động lực [48, 49, 112] Kết quả cuối cùng của việc ứng dụng phương pháp các thành phần chín h có tốt hay không hoàn toàn do cách chọn tập hợp những dấu hiệu (biến) khảo sát, vị trí của chúng trong không gian và quy mô lấy trung bình [114, 138, 183, 184, 192, 213, 226, 231, 239, 241, 254, 261, 268]. Một trong những vấn đề hàn g đầu được tranh cãi trong quá trình ứng dụng phương pháp các thành phần chính là ước lượng số các số hạng khai triển tối ưu để lý giải vật lý và mô tả định lượng những tính chất của các trường nghiên cứu. Thường hay sử dụng nhất là phương pháp căn cứ vào 34 ước lượng sai số tiềm năng trong khi tính các tham số khai triển [59, 66, 68, 73, 114, 118, 204, 226, 230, 248]: N jj /2 λ=λδ . Chỉ những thành phần nào mà jj λδ>λ mới được xem xét lý giải. Tiêu chuẩn này nói chung tỏ ra không tồi trong nghiên cứu ứng dụng. Tuy nhiên, trong nhiều trường hợp, nó tỏ ra kém hiệu quả, do phương sai của những dao động nhiễu vượt hơn phương sai của thành phần tuần hoàn. Với những trường hợp đó, người ta sử dụng cái gọi là đặc trưng thống kê Q [81, 245, 246, 247]:  =τ τσ τ = M r Q 1 2 2 )( )( , trong đó −)( τ r ước lượng hàm tự tương quan của thành phần chính thời gian trễ τ , −)( 2 τσ phương sai mẫu của ước lượng này. Nếu so sánh giá trị tính được của đặc trưng Q với tiêu chuẩn 2 χ của Pierson, ta sẽ đưa vào phân tích những thành phần nào mà trong cấu trúc của nó có chứa những dao động có nghĩa về mặt thống kê. Ý tưởng về phân tích nội hàm những thành phần có cấu trúc mang ý nghĩa của các hàm tự tương quan đang được sử dụng thành công khi nghiên cứu những dao động của các đặc trưng nhiệt và băng biển [102, 128, 154, 175]. Tuy nhiên, trong khuôn khổ phương pháp các thành phần chính kinh điển, không thể bao quát hết những vấn đề phân tích những dao động không gian − thời gian của các quá trình khí tượng thủy văn, chính điều này là lý do để phát triển tiếp những căn cứ lý luận nền tảng của phương pháp. Kỹ thuật các thành phần chính trong miền tần số đã là một kỹ thuật hoàn thiện hơn so với phương pháp các thành phần chính truyền thống [126, 260]. Kỹ thuật này dựa trên các nguyên tắc biểu diễn trực giao ma trận các hàm hiệp phổ của một số chuỗi thời gian. Nghiệm nhận được đã chứa đựng cấu trúc pha của những dao động sóng cơ bản, cấu trúc này được mô tả nhờ biểu diễn các ve ctơ riêng như là những tập hợp các số phức. Kỹ thuật các thành phần chính trong miền tần số dựa trên khái niệm ma trận hiệp biến )( τ C , tạo thành từ các hệ số tương quan chéo ))(),(( txtxc jiji τ += . Ma trận mật độ phổ bậc M M × tính được trên cơ sở ma trận )( τ C  ∞ −∞=τ τλ−τ= )exp()( icS có M giá trị riêng λ , liên hệ với những vectơ riêng trực giao phức A . Trong công trình [265] có một thí dụ rất h ay về ứng dụng thành công kỹ thuật này, ở đó đã nghiên cứu cấu trúc sóng của những dị thường chu kỳ dài, quy mô lớn của nhiệt độ nước ở phần phía bắc Thái Bình Dương. Nhờ kết quả phân tích thống kê, đã phát hiện và mô tả quá trình lan truyền các dị thường nhiệt độ từ phần tây nam vùng nghiên cứu lên hướng đông bắc. Một trong n hững hướng triển vọng nhất phát triển phương pháp luận các thành phần chính là kỹ thuật các thành phần chính phức. Nguyên nhân của điều này là do người ta muốn khắc phục một trong những nhược điểm cơ bản của phương pháp các thành phần chính kinh điển là nó không thể mô tả một cách tin cậy những sóng tiến chuyển động trong không gian. Phương pháp các thành phần chính kinh điển cho phép khái quát một cách tin cậy về những sóng đứng. Còn nếu như trong cấu trúc không gian − thời gian của các quan trắc có những sóng tiến, thì phương pháp các thành phần chính thể hiện một cách sai lệch những sóng này dưới dạng một tập hợp các dao động đứng. Con đường tiến tới mô tả các sóng không gian − thời gian trong phương pháp các thành phần chính là thay đổi hệ phương pháp lập ma trận tương quan (hiệp biến) R . Bước đầu tiên đã được thực hiện khi ma trận R được lập từ những hệ số bất đồng pha của các hàm tương quan chéo [221, 222, 231, 263, 264]. 35 Tuy nhiên, không phải lúc nào hiệu quả của hệ phương pháp này cũng cao, vì lựa chọn những hệ số tương quan chéo tối ưu rất phức tạp. Việc xây dựng phương pháp luận phân tích thành phần chính phức có lẽ hiện là một cấp phát triển cao nhất của phương pháp các thành phần chính [109, 225]. Để ứng dụng phương pháp các thầnh phần chính phức, phải thực hiện biến đổi Gilbert đối với các chuỗi thời gian xuất phát, sau đó, trên cơ sở biểu diễn phức các chuỗi thời gian, tính những hàm tương quan chéo phức của chúng và lập ra ma trận tương quan. Những vectơ riêng phức và những thành phần chính nhận được sau đó sẽ đặc trưng cho cấu trúc biên độ − pha của các dao động trong không gian và thời gian mà ta nghiên cứu. Kinh nghiệm ứng dụng phương pháp này trong nghiên cứu hải dương học còn rất hạn chế, chưa cho phép đánh giá những nhược điểm tiềm ẩn có thể có của các thành phần chính phức. 2.2. PHƯƠNG PHÁP PHÂN TÍCH NHÂN TỐ Phát biểu bài toán và phương trình cơ bản Tính hiệu quả khi sử dụng phương pháp các thành phần chính nghiên cứu những quá trình tự nhiên là một trong những nguyên nhân chính thúc đẩy phát triển những cơ sở lý thuyết của nguyên tắc khai triển trực giao. Sự phát triển của phương pháp các thành phần chính trong khoa học tự nhiên tiến theo con đường cập nhật dần những giai đoạn tính toán bổ sung vào sơ đồ truyền thống của phương pháp. Kết quả là tới nay , trong thống kê đa chiều đã hình thành một lĩnh vực chuyên biệt biến đổi trực giao những số liệu, có tên là phương pháp phân tích nhân tố. Phát triển trên cơ sở phương pháp các thành phần chính, phương pháp phân tích nhân tố hiện đại là một tập hợp phức tạp những thủ tục tính toán có sơ đồ giống như hình cây. Xuất phát từ những mục tiêu và nhiệm vụ nghiên cứu, những đặc điểm của số liệu ban đầu, trong số vô vàn những phương án giải quyết vấn đề khai triển trực giao theo phương pháp phân tích nhân tố, nhà khoa học sẽ chọn lấy một phương án nào đó tỏ ra tối ưu trong những điều kiện đang xét và cho phép đạt được kết quả đơn giản nhất và dễ hiểu nhất về phương diện vật lý. Ý tưởng phân tích nhân tố dựa trên giả thiết rằng những đặc trưng ghi nhận được trong tự nhiên tự nó không phải là những nguyên nhân của những biến đổi đang diễn ra. Chúng chẳng qua chỉ là những hệ quả hay những chỉ thị về sự ảnh hưởng của các ngoại lực và nội lực ẩn dấu đối với người quan sát đang theo dõi động thái phức tạp của những mối liên hệ giữa các biến. Mỗi lực ảnh hưởng cùng một lúc đang tác động đến một số biến quan trắc. Và mặc dù các biến phản ứng với những tác động cưỡng bức ấy theo kiểu của mình, nhưng sự liên hệ lẫn nhau giữa chúng chứa đựng một hạt nhân chung, hạt nhân này mô tả sự biến thiên của lực ảnh hưởng. Ngoài những lực, hay những nhân tố (n hư người ta quy ước gọi như vậy trong phương pháp phân tích nhân tố) chung này, trong tự nhiên còn tồn tại những lực cưỡng bức khác, có tính chất riêng đối với mỗi biến quan trắc và không ảnh hưởng tới những biến khác. Những nhân tố như vậy gọi là những nhân tố đặc thù, vì chúng phản ánh đặc thù biến thiên của một biến cụ thể. Ngoài ra, trong các quan trắc và đo đạc luôn luôn có thêm những lỗi, những sai số ngẫu nhiên, gọi là những nhân tố ngẫu nhiên. Khái quát những điều vừa nói trên, có thể biểu diễn độ biến động chung của các biến quan trắc dưới dạng ba số hạng: EAFX +⋅= T , trong đó − X biến động của các biến quan trắc, −⋅ T AF biến động của những nhân tố chung tiềm ẩn, − E biến động của những nhân tố đặc thù cộng với biến động của những nhân tố ngẫu nhiên. Trong thực tế, rất khó tách bạch phạm vi ảnh hưởng của những nhân tố đặc thù và ngẫu nhiên và mô tả chúng riêng rẽ. Muốn vậy đòi hỏi phải phân tích số liệu một cách rất tinh xảo. Vì vậy, trong phương pháp phân 36 tích nhân tố kinh điển, biến động của các nhân tố đặc thù và ngẫu nhiên cùng được xem xét như một thể duy nhất. Hạn chế này có phần nào làm cho kết quả thô thiển, nhưng cho phép tập trung vào mô tả những nhân tố chung cơ bản hình thành nên biến động chung của các biến. Nhìn vào một hệ thống đa liên hệ phức tạp như đại dương thế giới, ta có thể thấy rất nhiều thí dụ tự nhiên tương ứng với sơ đồ tương tá c nhân tố đã đưa ra trên đây. Chẳng hạn, trường nhiệt độ mặt đại dương toàn cầu sẽ chịu ảnh hưởng trước hết của các lực Mặt Trời − địa vật lý hì nh thành biến trình ngày, mùa và thế kỷ của nhiệt độ. Vì vậy, những lực này có thể xem như những nhân tố chung đối với toàn đại dương. Đồng thời, mỗi điểm ở đại dương có những đặc thù địa phương về tương tác với khí quyển và với các lớp nước nằm dưới, có thể mô tả như là những nhân tố đặc thù. Cuối cùng , độ chính xác quan trắc nhiệt độ trong đại dương rất khác nhau trong không gian và tuỳ thuộc nhiều vào loại dụng cụ đo và điều kiện quan trắc. Nhóm nguyên nhân biến thiên nhiệt độ này có thể xem là ảnh hưởng của các nhân tố ngẫu nhiên. Toàn bộ nội dung hệ phương pháp của phương pháp phân tích nhân tố chính là nhằm làm sao: với độ chính xác và tin cậy tối đa, kiểm tra giả thiết rằng chỉ tồn tại một số nhỏ các nhân tố ảnh hưởng và đưa ra mô tả thống kê về những nhân tố đó. Sơ đồ hình thành độ biến động của các biến quan trắc ( x ) dưới ảnh hưởng của các nhân tố tiềm ẩn chung đối với một số biến ( f ) và những sai số quan trắc đặc thù, cá thể (e ) thể hiện trên hình 2.2 [4, 73, 86]. Ảnh hưởng của các nhân tố lên các biến quan trắc được thực hiện và được ước lượng trên cơ sở những hệ số li ên hệ tuyến tính ( ji a ), những hệ số này cho thấy mức độ liên hệ của nhân tố chung i và biến j . Trên cơ sở những lập luận ở trên, ta viết biểu thức đại số của mô hình phân tích nhân tố: EAFX +⋅= T . (2.8) Ở đây −X ma trận các số liệu xuất phát, gồm N quan trắc (dòng) về M biến (cột), −F ma trận giá trị của các nhân tố chung, gồm N giá trị của K nhân tố, −A ma trận các hệ số liên hệ giữa những nhân tố chung và những biến xuất phát, gồm M dòng và K cột, −E ma trận các phần dư hay các nhân tố đặc thù gồm N giá trị quan trắc của M biến. Để nhận được nghiệm duy nhất của phương trình này, phải đưa thêm những điều kiện về dạng của các ma trận FA , và E . Khi hình thành những điều kiện này, thường người ta giả thiết rằng: trong số vô vàn những mô hình toán về các quá trình diễn ra trong tự nhiên, ta cần một mô hình đơn giản tối đa, nhưng đồng thuận với cấu trúc tương quan của ma trận các số liệu xuất phát [94, 95]. Những điều k iện đó là: − Các nhân tố chung k fff , , , 21 không phụ thuộc nhau (không tương quan): jiffr ji ≠= khi 0),(; − Cá c nhân tố chung k fff , , , 21 cần được quy chuẩn (không thứ nguyên) và dẫn về độ dài đơn vị 1 2 =σ )( j f ; − Các nhân tố chung kh ông được liên hệ với những sai số và những nhân tố đặc thù 0),( = ji efr với mọi ji,; 37 b) M a) x 1 x 2 x 3 x 4 x 5 x 6 e 1 e 2 e 3 e 4 e 5 e 6 f 1 f 2 a 11 a 12 a 13 a 14 a 24 a 25 a 26 X x 1 x 2 x 3 x 4 x 5 x 6 = F f 1 f 2 M K A a 1 a 2 M K E e 1 e 2 e 3 e 4 e 5 e 6 Hình 2.2. Sơ đồ li ên hệ các biến trong mô hình phân tích nhân tố: (a) biểu diễn th ành phần; (b) biểu diễn ma trận − Các sai số không tương quan với nhau: 0),( = ji eer khi ji ≠ ; − Số các nhâ n tố chung không được lớn hơn một nửa số các biến quan trắc 2/MK ≤ ; − Một nhân tố chung phải m ô tả được phần lớn biến động của ít nhất hai biến. Nếu viết lại p hương trình cơ bản của phương pháp phân tích nhân tố, ta có  = += k p jijppiji eafx 1 , (2.9) trong đó − ji x trị số quan trắc thứ i của biến j , − pi f những trị số của K nhân tố chung đối với quan trắc thứ i , − ip a các trị số tỷ trọng của K nhân tố chung lên biến − ji ej , sai số quan trắc, hay nhân tố đặc thù đối với quan trắc thứ i của biến j . Ý nghĩa hình học của phương pháp phân tích nhân tố Lý giải hình học của phân tích nhân tố có phần phức tạp hơn so với phương pháp các thành phần chính, vì thủ tục tính toán của nó phức tạp hơn. Trong phương pháp phân tích nhân tố, người ta chiếu đám mây các quan trắc xuất phát từ không gian các biến M chiều lên không gian các nhân tố chung K chiều (hình 2.3). Vì M K < , chắc chắn sẽ xuất hiện những sai lệch của đám mây quan trắc trong khi chiếu nó lên không gian có chiều nhỏ hơn. Tại giai đoạn thứ nhất của phương pháp phân tích nhân tố, sơ đồ tính thực tế tương đương với thủ tục quay các tọa độ xuất phát để định hướng các trục những nhân tố chung dọc theo các hướng có độ tương quan cực đại giữa các quan trắc (chuyển từ 321 , , xxx sang 321 , , fff trên hình 2.3a), nói chung tương ứng với thủ tục của phương pháp các thành phần chính. Tiếp theo, tiến hành tối ưu hoá việc xác định nhân tố. Muốn vậy, người ta loại bỏ các trục nhân tố đặc thù ( 3 f ), độ biến động dọc theo những trục này nằm trong phạm vi những sai số cho phép. Đồng thời, thực hiện chiếu đám mây quan trắc lên các trục nhân tố chung còn lại (hình 2.3b). Nói cách khác, người ta bỏ bớt những trục tản mạn nào mà đám mây quan trắc xuất phát chiếu lên nó chỉ còn là một vùng với tản mạn cực tiểu. Việc giảm bớt các trục nhân tố như vậy cho phép trong khi giữ lại các sai số quan trắc trên c ác trục nhân tố đặc thù, vẫn bảo tồn những quan trắc xuất phát quan trọng nhất trên các trục nhân tố chung ( 1 f 38 và 2 f trên hình 2.3b). x 2 f 1 x 1 f 2 f 3 x 3 f 1 ' f 1 f 2 ' f 2 a) b) a) chuyển từ các trục biến xuất phát 321 , , xxx sang các trục nhân tố ban đầu 321 ,, fff ; b) chuyển sang các nhân tố chung 321 , , fff ′′′ sau khi quay trực g iao các trục nhân tố ban đầu. Hình 2.3. Ý nghĩa hình học của phương pháp phân tích nhân tố Bây giờ ở trong không gian K chiều mới, người ta tìm vị trí tối ưu của các trục nhân tố. Các trục được quay sao cho các nhân tố được bố trí một cách chính xác tối đa dọc theo những hướng tản mạn lớn nhất, điều này cho phép đạt được điều kiện mô tả cấu trúc các nhân tố một cách đơn giản (xem hình 2.3b). Trong một số trường hợp, có thể phép quay trục trực giao không đảm bảo đạt được cấu trúc đơn giản của các nhân tố. Nhưng bài toán sẽ dễ dàng giải quyết bằng các phép chiếu lên các trục nhân tố không trực giao, góc giữa chúng  90≠ β . Kiểu mô tả các biến như vậy gọi là quay nghiêng và nó là một phương tiện hữu hiệu để mô tả những cấu trúc nhân tố phức tạp. Ở đây sẽ không xem xét vấn đề này, vì thủ tục tính toán của phép quay nghiêng rất phức tạp. Tìm nghiệm nhân tố Quá trình tìm nghiệm nhân tố là một tập hợp những thủ tục cụ thể phân tích ma trận nhằm giải quyết những nhiệm vụ cụ thể. Trong thực tế, mỗi giai đoạn tính toán sẽ xét dưới đây có thể có những cách giải quyết khác, chọn cách nào là tuỳ thuộc vào sự thành thạo của người nghiên cứu và xu hướng tính toán chung. Ở đây sẽ chỉ xét một phương án đơn giản và trực quan trong số những phương án khả dĩ. Quá trình giải bắt đầu từ việc lập m a trận số liệu ban đầu. Trong ma trận số liệu chỉ đưa vào những biến nào, mà theo ý kiến người nghiên cứu, nó tiên định cho phép giải quyết vấn đề tìm những nhân tố tiềm ẩn. Đó có thể là những đặc trưng trạng thái biển được quan trắc thực, cũng có thể là những đặc trưng thứ sinh (như các građien, các dòng vật chất ). Khi lập m a trận số liệu cần nhớ rằng số quan trắc phải lớn hơn số biến ít nhất 3−5 lần để đảm bảo nhận được những ước lượng ổn định của nghiệm nhân tố. Tiếp theo, tiến hành tính những trị số trung bình và độ lệch chuẩn của các biến. Sau đó, ma trận số liệu được chuẩn hoá [86, 95]. Từ những trị số chuẩn hoá, tính các hệ số tương quan cặp giữa các biến, từ đó lập ma trận tương quan R . Ma trận R là ma trận vuông, đối xứng, gồm M dòng và M cột. Toàn bộ thủ tục tính toán của phương pháp phân tích nhân tố được xây dựng trên cơ sở khai triển ma trận tương quan này. Vì vậy, người ta muốn rằng những ước lượng hệ số tương quan phải phản ánh xu thế thực trong các quan trắc xuất phát. Để thuận tiện tín h toán, phương trình cơ bản của phương pháp phân tích nhân tố được viết dưới dạng: 2T UAAR +⋅= , (2.10) trong đó tương quan chung của c ác biến được chia thành hai thành phần: [...]... r11 − u11 r12 − u12  2 2 r − u 21 r22 − u 22 R h = R − U 2 =  21 ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅  2 2 rM 1 − u M 1 rM 2 − u M 2   ⋅ ⋅ ⋅ r1M − u12M  2 ⋅ ⋅ ⋅ r2 M − u 2 M  ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅  2 ⋅ ⋅ ⋅ rMM − u MM   Tiếp theo, tiến hành giải bài toán giá trị riêng và vectơ riêng của ma trận tương quan suy giản R h : − Tìm nghiệm của phương trình đặc trưng dạng R h − ΛI = 0 (2.11) để có ước lượng vectơ các. .. cấp phức tạp, không thể đạt được cấu trúc đơn giản mong muốn trong không gian trực giao của các nhân tố chung Thường thì điều này xảy ra đối với các đám mây quan trắc có dạng quá phức tạp [195, 252] Để đạt được lời giải tương đương trong lớp các mô hình thống kê tuyến 41 tính, người ta thực hiện quay không trực giao các trục nhân tố, dẫn tới không gian nghiêng của nhân tố chung Khi đó, các nhân tố nhận... lộ trong các tình huống khi các biến khảo sát có cấu trúc bên trong phức tạp, lúc đó khai triển thành phần có tốc độ hội tụ không cao, còn phương sai không phân bố đơn trị theo các thành phần Chính ở đây, các thủ tục ước lượng ổn định của phân tích nhân tố sẽ cho phép nhận được những ước lượng tỉ trọng ban đầu tin cậy hơn Còn các thủ quay trực giao hoặc không trực giao các nhân tố chung sẽ "tận thu"... sai số và các nhân tố đặc thù và biểu diễn dưới dạng ma trận U 2 Giả thiết về số nhân tố chung không nhiều buộc ta phải giải bài toán kép: ước lượng số nhân tố tiềm ẩn và xác định dạng của mối liên hệ giữa các nhân tố và các biến xuất phát Trên thực tế, việc giải các bài toán đó quy về xây dựng một thủ tục tính lặp các vectơ tỉ trọng a = {a 1 , a 2 , a 3 , , a M } , từ đó lập ra ma trận các tỉ trọng... sao cho tất cả những tỉ trọng nhân tố hiện có hoặc là xấp xỉ tối đa tới ± 1 , hoặc tới 0 Điều kiện này thường cho phép tránh những nghiệm nửa vời và phác hoạ rõ nét hơn về khoảng ảnh hưởng của các nhân tố lên các biến Trong thực hành, thủ tục quay quy về phép nhân lặp nhiều lần dạng A = A0 ⋅T , trong đó T − ma trận quay kích thước M dòng và M cột với các cột không phụ thuộc và chuẩn hoá Ma trận vuông... phép nhân ma trận A ⋅ A T và kiểm tra một loạt các điều kiện định ra từ trước đối với ma trận tương quan các phần dư U 2 : U2 = R − A ⋅ AT Dạng của ma trận U 2 được xác định bởi những điều kiện không phụ thuộc giữa sai số của các biến Vì vậy u i j = 0 khi i ≠ j Ma trận U 2 là ma trận đường chéo vuông bậc M Trên đường chéo là các trị số phương sai chuẩn của các phần dư: 2  u11   0  2 U = 0   ⋅... hai biến ri j chứa phần biến động hệ thống ( h 2 ) được lý giải bằng những nhân tố chung, và phần ngẫu nhiên ( u 2 ) được xem là phần dư và không có ý ghĩa vật lý Độ biến động hệ thống xuất hiện dưới sự ảnh hưởng của các nhân tố chung lên đối tượng nghiên cứu, vì vậy hi2j được gọi là độ đặc trưng chung của biến j Đại lượng u i2 j xuất hiện do ảnh hưởng của các nhân tố đặc thù, chỉ đặc trưng cho biến. .. hoàn toàn đơn trị về các nhân tố chung Vấn đề là ở chỗ: các đám mây quan trắc có dạng lởm chởm khi chiếu lên các trục nhân tố sẽ có cấu trúc phân bố liên hệ đơn giản, tức tập trung các quan trắc dọc theo các trục với tương tác biến mạnh nhất Cấu trúc đơn giản nhận được được khảo sát bằng mắt hoặc bằng những phương pháp chuyên dụng [82, 168] Trong hải dương học, nội dung ứng dụng của cách phân loại như... E trong phân tích nhân tố có vị trí đặc biệt, vì nó không được cho trước bằng không Ngoài ra, không loại trừ khả năng tiến hành phân tích nhân tố đối với chính ma trận phần dư E và các nhân tố đặc thù [30, 81] Mục đích của việc phân tích như vậy là khảo sát cấu trúc liên hệ phương sai nhỏ của các biến, điều này có thể có vai trò quan trọng trong các hệ thống có độ nhạy chọn lọc cao Trong nghiên cứu... thành công trong ba hướng chính Xây dựng các mô hình vật lý thống kê ít tham số về vận hành của các hệ tự nhiên là bài toán phân tích nhân tố phổ biến nhất Trong trường hợp này, đã đạt được nghiệm đầy đủ của bài toán nhân tố, bao gồm ước lượng tin cậy những giá trị của các nhân tố và hình thành các phương trình hồi quy liên hệ giữa các tham số quan trắc xuất phát và các nhân tố chung tính được Ngoài ra, . dạng các bảng số phân bố theo: không gian − thời gian, không gian − các biến hoặc thời gian − các biến. Mỗi trường hợp cụ thể sẽ có một mức khái quát dữ liệu của nó. Trong hệ tọa độ k hông gian. không gian − các biến, người ta quan tâm mô tả phạm vi ảnh hưởng của từng biến trong số các biến và khái quát sự biến động cùng nhau của các biến. Trong hệ tọa độ thời gian − các biến, mục. gian − thời gian, nhờ phương pháp các thành phần chính, có thể phát hiện ra những quy mô dao động cơ bản trong không gian và trong thời gian của biến được nghiên cứu. Trong hệ tọa độ không gian