phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian doc

43 Chương 3 - PHÂN LOẠI CÁC QUÁ TRÌNH 3.1. PHƯƠNG PHÁP PHÂN LOẠI TỰ ĐỘNG Những quá trình diễn ra trong đại dương, những hiện tượng và đối tượng mà nhà hải dương học tiếp xúc, khác biệt nhau bởi sự đa dạng. Khó mà tìm được hai quá trình hay hai đối tượng giống nhau một cách tuyệt đối. Song trong những quá trình và những đối tượng riêng lẻ bao giờ cũng có thể nhận thấy những tính chất và những đặc điểm chung, cho phép gộp chúng thành những nhóm, kiểu, lớp. Theo nghĩa rộng, lớp có thể đồng nhất với hình tượng, vì trong lý thuyết nhận dạng, hình tượng được hiểu là một tập hợp những hiện tượng liên kết với nhau bởi những tính chất chung. Sự tất yếu phải đưa ra khái niệm hình tượng (lớp) là do nhu cầu thực tiễn tiếp cận tới những phạm trù chung hơn so với khái niệm quá trình hay đối tượng cá thể, cũng như khôn g thể bao quát tất cả những quá trình hay đối tượng tham gia vào lớp này hay lớp kia [12, 107, 182]. Khi xét sự ph ân loại như là cơ sở của mô hình này hay mô hình kia, trước hết phải nhớ rằng: phân loại cần phải không chỉ khái quát thông tin, mà còn phản ánh được những mặt riêng lẻ của thực tế khách quan. Trong phân loại khoa học, chúng ta tiếp cận với những hình tượng, những lớp trừu tượng, với vô vàn tính chất. Từ đó nảy sinh sự cần thiết phải tiếp cận với những hình tượng được cho trong không gian các dấu hiệu đa chiều. Đó là lý do vì sao bài toán nhận dạng có quan hệ trực tiếp với những bài toán phân tích đa chiều. Tuy nhiên, trong trường hợp này, nó có thể được giải chỉ trên cơ sở những phương pháp phân loại bằng máy, tức những phương pháp phân loại tự động, trong đó người nghiên cứu chỉ phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian M dấu hiệu, tạo thành từ tập mẫu X gồm N quan trắc về M biến. Yêu cầu tách ra một cách có căn cứ và tin cậy về mặt thống kê k tập hợp con (nhóm, lớp quan trắc) k ωωωω , 321 ,,, : k ω ωω 21  ⋅⋅⋅=Ω . Để t ách ra những tập con, trước tiên cần phải có những điều kiện sau: 1) Những tập con nhận được không giao nhau: ji ωω  với mọi ji ≠ ; nói cách khác, mỗi vectơ l x chứa M giá trị của các biến quan trắc {} Mllll xxxx ,,, 21 = sẽ chỉ thuộc một trong những tập con được tách ra. 2) Mỗi tập co n không được rỗng: 0≠ω i với ki 2 1 , ,,= , tức trong mỗi lớp tách ra phải có ít nhất một quan trắc l x . Từ đây, hiển nhiên suy ra rằng số các lớp được tách ra không thể vượt quá số quan trắc Nk ≤ . Đồng thời số lớp luôn lớn hơn không − 1≥k . Đặt bài toán Nhiệm vụ phân loại là một trong những nhiệm vụ quan trọng nhất của mọi lĩnh vực khoa học. Trình độ phân loại, độ tin cậy của phân loại quyết định trình độ tri thức thực sự về đối tượng nghiên cứu. Bài toán phân loại trong hải dương học trước hết liên quan tới những vấn đề phân loại khối nước, vấn đề phân vùng đại dương thế giới th eo những dấu hiệu nào đó, hay bài toán phân tách ra những loại biến động đặc trưng của khí hậu đại dương v.v Sự m uôn hình muôn vẻ của những vấn đề thực dụng làm nảy sinh sự đa dạng các phương pháp phân vùng tự động thích ứng để giải quyết 44 những nhiệm vụ cụ thể khá hẹp. Có lẽ đến ngày nay, chưa có một cách tiếp cận chung, vận hành tốt như nhau trong mọi tình huống. Vì vậy, khi xem xét những vấn đề phân loại áp dụng vào nghiên cứu đại dương, trước hết, ta sẽ đề cập tới những hệ phương pháp đã từng được thử thách trong khi giải quyết những nhiệm vụ thuần tuý hải dương học. Phân loại là gì? Đó là qu á trình chia tập đối tượng thành một số những tập con (các lớp). Mỗi tập con bao gồm trong nó những đối tượng giống nhau theo một bộ những dấu hiệu phân biệt đã biết, và gọi là một lớp. Như vậy, kết quả của phân loại có thể biểu diễn dưới dạng những bộ đối tượng nằm trong không gian các dấu hiệu và phân cách bởi các biên của các lớp. Tuy nhiên, cách lý giải này − không phải là duy nhất. Một điều không kém phần quan trọng trong quá trình phân loại là sắp xếp những đối tượng theo mức độ chúng liên hệ lẫn nhau và chỉ ra cấu trúc của sự liên kết các đối tượng thành những lớp. Khía cạnh này của phân loại được thể hiện bằng cách xây dựng "cây phân loại". Cây này dẫn trên hình 3.1. Cây như vậy cho phép phân tích được sự tuỳ thuộc của các lớp và các đối tượng và xây dựng cấu trúc đa tầng của các lớp. Với cách mô tả sự phân loại bằng đồ hoạ như vậy, thay vì một bức tranh phân chia cố định duy nhất, ta có một bộ các nhánh phân chia, mỗi nhánh có một ý nghĩa vật lý của nó. Những bài to án phân loại cụ thể có thể hình thành theo tuần tự sau: − Chọn các biến ban đầu; − Chọn biểu thức định lượng về mức độ giốn g nhau của các quan trắc; − Chọn thuật toán phân loại; − Lý giải kết quả. Việc chọn hệ thống những biến xuất phát bao giờ cũng đi trước thủ tục tính toán thực sự, vì vậy quá trình này có thể xét riêng cùng với những vấn đề lý giải hình học về phương pháp phân loại tự động. Sè hiÖu b−íc Hình 3.1. Thể hiện phân loại các quan trắc dưới dạng cây phân loại −d mức giống nhau của các lớp Ý nghĩa hình học của phương pháp phân loại tự động Ta xét vấn đề này qua thí dụ phân tích các khối nước chỉ dựa vào ba biến: nhiệt độ, độ muối và nồng độ silic. Những dấu hiệu xuất phát tạo thành một không gian dấu hiệu, không gian này có thể được biểu diễn dưới dạng ba trục tọa độ trực giao (hình 3.2). Những quan t rắc thực được biểu diễn trong không gian dấu hiệu này như là những điểm tạo thành đám mây các quan trắc không đồng nhất về mật độ. Một cách trực giác, thấy rằng mỗi khối nước được đặc trưng bởi những giá trị gần nhau của các tham số quan trắc. Do đó, khối nước có thể được biểu thị trong không gian các dấu hiệu như là một khối thể tích khép kín nào đó, bên trong nó các điểm quan trắc tạo thành một nhóm khá đậm đặc và gọn. Thể tích này có thể tách khỏi những điểm còn lại bằng một mặt phân cách nhân tạo. Nếu liên kết tất cả số liệu quan trắc thành những thể tích khép kín tương tự, thì coi như ta đã giải quyết bài toán phân loại. 45 Ta trở lại vấn đề chọn các biến. Giả sử không có số liệu quan trắc về nồng độ silic. Khi đó toàn bộ đám mây quan trắc sẽ chiếu lên mặt phẳng tọa độ ST , . Bây giờ thấy rõ rằng những lớp đã phân chia ra trước đây − những kiểu khối nước, sẽ giao nhau và không thể phân tách ra được nữa, vì mật độ phân bố các quan trắc đại khái đồng đều trong toàn đám mây. Thí dụ nà y trực quan cho thấy rằng phân loại quan trắc chỉ thành công khi những dấu hiệu lựa chọn có khả năng cho phép phân loại dựa theo sự không đồng nhất hiện có trong đám mây số liệu. Vì vậy, theo ý kiến phần lớn những người nghiên cứu, việc lựa chọn các dấu hiệu thực tế quyết định kết cục thành công hay không thành công của sự phân loại. Vậy làm thế nào chọn được những dấu hiệu một cách tốt nhất? Để giải một bài toán đặc thù cụ thể nào đó (thí dụ, phân loại điều kiện băng), thì bộ dấu hiệu là do điều kiện vật lý của hiện tượng được phân loại quyết định. Trong trường hợp tổ chức phân loại vạn năng một đối tượng tự nhiên lớn, thí dụ khi phân vùng Đại dương Thế giới, phải sử dụng tất cả những tham số quan trắc hiện có. Có phải cứ d ùng số lượng lớn các dấu hiệu sẽ luôn luôn đảm bảo sự thành công của bài toán không? Kinh nghiệm cho biết rằng sự phân loại có thể ổn định ngay cả với một số lượng tương đối nhỏ những dấu hiệu. Điều này là do phần lớn những dấu hiệu quan trắc mô tả quá trình, hay hiện tượng, thường liên hệ thống kê với nhau (nếu không thì tình hình chắc chắn sẽ vô vùng lộn xộn). Vì vậy, nếu đưa thêm những biến mới vào một bộ dấu hiệu đã khá lớn, thì chúng cũng không góp thêm thông tin gì đáng kể về vị trí tương hỗ của các đối tượng trong không gian dấu hiệu, vì trong bộ dấu hiệu này, rất có thể có một hoặc một số dấu hiệu đã tương qua n cao với từng biến trong số những biến vừa đưa vào. Nói cách khác, có thể tưởng tượng một tập hữu hạn các dấu hiệu cho phép phản ánh cấu trúc của các đối tượng tự nhiên được nghiên cứu. Tuy nhiên, cần luôn nhớ rằng bộ dấu hiệu lớn này dù sao cũng phản ánh chức năng phân loại toàn diện, nó bù đắp bớt phần trừu tượng từ phía chúng ta. Và với ý nghĩa này − về phương diện hình thành ý tưởng phân loại, thì mọi phép phân loại đều có nét chủ quan. Hình 3.2. Ý nghĩa hình học của phân loại trong không gian ba dấu hiệu (nhiệt độ, độ muối, silic) và hai dấu hiệu (nhiệt độ, độ muối) Trong thực tế nghiên cứu hải dương học, hiếm khi chúng ta có được một bộ dấu hiệu lớn đến mức có thể xem là bão hoà. Vì vậy, trong phần lớn trường hợp phải dựa vào kinh nghiệm truyền thống tuyển chọn các biến. Đánh giá định lượng độ giống nhau của những quan trắc Biểu thức định lượng về sự giống nhau của các quan trắc theo một bộ dấu hiệu có thể là khoảng cách đơn giản giữa hai điểm trong không gian các biến (xem hình 3.2). Tiêu chí giống nhau này được gọi là khoảng cách Ơclit và được xác định theo công thức 2/1 1 2 )(       −=  = M k kjkikji xxwd , (3.1) trong đó − ki x giá trị quan trắc thứ i của biến k , − k w tỷ trọng tương 46 đối của biến k . Khoảng cách Ơclit sử dụng tiện lợi khi tất cả các dấu hiệu có cùng thứ nguyên, nếu các biến không phụ thuộc lẫn nhau và phần đóng góp tương đối của chúng được biết. Trong trường hợp những điều kiện này không thoả mãn, có thể sử dụng khoảng cách Magalonobis, khi tính nó những thứ nguyên của các biến có thể khác nhau. Dưới dạng vectơ, công thức tính khoảng cách Magalonobis có thể viết như sau: )()( 1 ji T jiji d xxSxx −⋅⋅−= − , (3.2) trong đó −− )( ji xx vectơ cột, tạo thành bởi những hiệu các giá trị của M biến ứng với những quan trắc thứ i và thứ j , −S ma trận hiệp phương sai của các biến gồm M dòng và M cột. Khoảng cách Magalonobis là tiêu chí giống nhau rất hiệu quả trong trường hợp các biến tương quan với nhau. Trong thực tế khôn g hiếm những tình huống, khi mà những biến quan trắc được biểu diễn không phải bằng thang đo định lượng, mà bằng thang đo định tính, thí dụ, khi nghiên cứu những thang đo lượng băng, cường độ gió, sóng, hoặc khi phân tích những chuỗi tình huống hiện diện hay không hiện diện của một hiện tượng nào đó. Trong trường hợp này, không nên sử dụng những tiêu chí đã dẫn trên đây, mà nên dùng khoảng cách Hemming:  = −= M k kjkiji xxd 1 . Ở đây − ki x giá trị độ lớn của dấu hiệu k theo thang chuẩn hoá. Khoảng cách He mming chỉ gồm những giá trị số nguyên, cận dưới là số không tương ứng với tình huống trùng hợp hoàn toàn các giá trị của tất cả biến đối với hai quan trắc. Ở đây phải nhận xét rằng sử dụng khoảng cách Hemming rất hiệu quả trong những trường hợp các biến xuất phát chứa các sai số ngẫu nhiên hoặc các nhiễu. Khi đó người ta chia miền biến thiên của các dấu hiệu thành một số khoảng và lấy số hiệu của khoảng làm giá trị của biến và như vậy loại trừ được khá nhiều ảnh hưởng của nhiễu và sự phân loại sẽ tin cậy hơn. Những tiêu chí giốn g nhau liệt kê trên đây biểu thị sự gần nhau của các quan trắc trong không gian tuyến tính và là đặc trưng số hữu hiệu khi tìm các lớp có dạng hình cầu hoặc ellip trong không gian biến đa chiều. Tuy nhiên, hoàn toàn không phải bao giờ cũng gặp dạng đám mây tản mạn đơn giản như thế, vì vậy, người ta buộc phải tìm những biểu thức phi tuyến phức tạp hơn làm tiêu chí giống nhau. Nhằm những mục đích đó, người ta thường ha y sử dụng những hàm thế vị, những hàm này nhận được nhờ kết quả biến đổi phi tuyến những tiêu chí giống nhau tuyến tính đơn giản: )1(/1 jiji dP += , )(exp1 jiji dP += . Những hàm thế vị này sẽ hiệu quả nhất trong khi phân loại những quan trắc có dạng móng ngựa, hình con nhép v.v Chọn một tiêu chí giống n hau cụ thể hoàn toàn tuỳ thuộc vào người nghiên cứu. Thủ tục tính toán của phương pháp phân loại tự động Tất cả những thuật toán của phương pháp phân loại tự động có thể phân chia thành những thuật toán xác suất và thuật toán luận lý. Những thuật toán xác suất dựa trên nguyên tắc tối thiểu hoá độ mạo hiểm trung bình nếu sự phân loại quan trắc bị sai và chúng không được xét ở đây. Những thuật toán luận lý hiện nay thường hay được sử dụng trong hải dương học hơn. Đó là vì tính hiệu quả của nó cao và thủ tục tính toán không phức tạp. Thực chất của các thuật toán luận lý phân loại là ở chỗ trong các thuật toán này, người ta chấp nhận những quy tắc logic, linh cảm, được thừa nhận để tìm các lớp đồng nhất. Vì vậy, các thủ tục tính 47 toán tiên định nhằm tới một dạng cụ thể của các lớp. Có hai loại thủ tục phân loại luận lý: loại thứ nhất thường hay được dùng để phân chia những tập con, đồng tính trong không gian dấu hiệu, loại thứ hai thực hiện những nguyên tắc phân chia những lớp đồng dạng (giống nhau về hình dạng). Người ta thường hiểu những tập con đồng tính là những tập có dạng hình cầu xét theo hình thức vị trí tương hỗ của các quan trắc. Trong không gian dấu hiệu nhiều chiều, dạng này được xem như dạng đa cầu (Гиперсферическая форма). Vì vậy nên các thủ tục tính toán cũng có tên là "những thuật toán đa cầu" [4, 74, 79]. Ý nghĩa của các thuật toán này như sau: Đối với mỗi quan trắc {} mllll xxxx , ,, 21 = người ta dựng một đa cầu với bán kính ρ trong không gian dấu hiệu M chiều. Sau đó xác định số quan trắc rơi vào bên trong đa cầu, và hình thành tập con i ω gồm những quan trắc đứng cách xa quan trắc xuất phát một khoảng d nhỏ hơn bán kính ρ đã cho: ρ ≤d . Người ta chọn lớp thứ nhất là lớp m à rơi vào bên trong nó là số tối đa các quan trắc lân cận. Đối với những quan trắc còn lại, thủ tục dựng được lặp lại cho đến khi hết toàn bộ tập. Những thuật toán phân loại các lớp đồng dạng nhằm phát hiện những cấu trúc tương tự nhau về hình thức phân bố tương hỗ các quan trắc trong không gian dấu hiệu nhiều chiều. Từ linh cảm thấy rõ rằng sự đa dạng các mối liên hệ của các quan trắc sẽ sinh ra những hình thức tụ tập quan trắc rất khác nhau trong không gian dấu hiệu. Trong thực tế phân tích c ác quá trình khí tượng thủy văn, sự tụ tập các quan trắc có dạng những thành tạo "kiểu chuỗi xích" kéo dài. Vì vậy, phương pháp dựng mạng liên hệ ngắn nhất (KCC) [125, 172] được sử dụng phổ biến trong khảo sát hải dương học. Thực chất của phương ph áp này là liên kết từng cặp liên tiếp các quan trắc gần nhau vào mạng chung. Ví thể như, khi một con ếch trong hồ nhảy truyền từ một chiếc lá này sang một chiếc lá khác gần đó, bằng chính những bước nhảy của mình, nó đã liên kết tất cả các lá thành một mạng lưới với chi phí công nhảy cực tiểu. Nguyên tắc tính toán của phương pháp mạng liên kết ngắn nhất là sao cho khi lấy một điểm quan trắc ban đầu tuỳ ý, phải tìm được quan trắc khác giống nhất với nó dựa theo khoảng cách cực tiểu giữa các điểm trong số tất cả những điểm chưa thuộc mạng lưới. Khi đã liên kết điểm này vào mạng, phải tìm cực tiểu của khoảng cách đến những điểm còn lại so với tất cả các điểm đã hoà vào mạng. Sau khi liên kết vào mạng tất cả các điểm quan trắc, người ta chính thức thực hiện phân chia thành những lớp thu gọn. Muốn làm điều đó, người ta đưa ra khoảng cách tới hạn rc d . Theo điều kiện rcji dd ≤ tiến hành phân chia mạng thành những đoạn riêng biệt, đó chính là những lớp cần tìm. Cần đặc biệt chú ý tới vấn đề phân loại tối ưu . Trong bản thân lời phát phát biểu bài toán phân loại, ta đã nhận thấy tính không đơn trị của kết quả cuối cùng. Vì vậy, việc tối ưu hoá sự phân chia thành các lớp được tiến hành ở giai đoạn tính toán cuối cùng, khi đánh giá độ tin cậy tương đối của một số kết quả phân loại nhờ những chỉ tiêu thống kê − thực nghiệm bổ sung. Thông thường nhất, việc chọn mức phân loại tối ưu thực hiện dựa trên tương quan tản mạn dạng: 12 / JJQ = hay 12 JJQ −= , (3.3) trong đó − 1 J khoảng cách trung bình theo toàn tập hợp mẫu giữa các quan trắc phân bố bên trong các lớp (khoảng cách trung bình nội tại lớp); − 2 J khoảng cách trung bình giữa các quan trắc phân bố trong các lớp khác nhau (khoảng cách trung bình giữa các lớp). Ý nghĩa của chỉ tiêu Q ở chỗ nó cho thấy tỷ số giữa mức độ khác biệt trung bìn h của các lớp và mật độ tập trung trung bình các quan trắc 48 bên trong một lớp. Rõ ràng, cực đại của đại lượng Q tương ứng với sự phân loại mà trong đó các quan trắc được nhóm vào những lớp rất gắn bó với nhau, nhưng cách xa nhau tối đa. Phương án phân chia tập hợp thành những lớp như vậy là tối ưu. Những công t hức tính 1 J và 2 J có dạng:  ==         ω∈= k j N l jplpl j j xxd Nk J 11 1 11 ),( ,  − = ω∉ω∈ − = 1 1 2 1 1 k j jpjlpl xxd k J ),( , trong đó −k số lớp được chia ra; − j N số quan trắc trong lớp j ; − pl d khoảng cách giữa các cặp quan trắc thuộc một lớp (đối với 1 J ) hoặc thuộc các lớp khác nhau (đối với 2 J ). Trong một thuật toán phân loại bất kỳ, có một tham số qu yết định sự nhạy cảm của phương pháp đối với cấu trúc phân bố các quan trắc và kết cục là hình thành nên các lớp. Trong các thuật toán đa cầu tham số đó là bán kính đa cầu ρ . ρ càng nhỏ thì sẽ tìm được những lớp càng gắn bó, và ngược lại, khi ρ tăng tính gắn bó trong các lớp sẽ giảm. Thông thường , việc chọn bán kính ban đầu của đa cầu căn cứ vào những kết quả phân tích sơ bộ về cấu trúc thống kê của sự bất đồng nhất quan trắc. Khi thay đổi ρ sẽ nhận được một số phương án phân loại khác nhau, từ đó người ta chọn lấy phương án tối ưu. Đối với những phương pháp có tính đa tầng, như phương pháp mạng liên hệ ngắn nhất đã xét trên đây, thì tất cả những phương án phân loại có thể có đã thể hiện trong mạng nhận được. Ở đây tham số quyết định phân loại là độ lớn của khoảng cách tới hạn rc d , nó có thể được người nghiên cứu thay đổi trong phạm vi từ cực tiểu đối với tập quan trắc đã cho (ta có N lớp) đến cực đại đối với tập (ta có 1 lớp). Có thể dễ dà ng thấy ý nghĩa của việc lựa chọn tối ưu một cách tỉ mỉ từ hình 3.3, trên đó biểu diễn đồ thị khoảng cách giữa các đối tượng liên tiếp được liên kết vào mạng. Rõ ràng rằng những cực đại của trị số d trên đồ thị này tương ứng với tình huống khi liên kết vào mạng những đối tượng rất xa nhau, có thể thuộc về một nhóm khác. Còn bên trong các lớp, ở đó các đối tượng rất giống nhau, thì khoảng cách giữa chúng nhỏ, đó là những dải thấp của đồ thị. Vậy khi ta đề ra một mức tới hạn rc d nào đó, chính là ta đã quy định biên giới giữa các lớp. Với giá trị rc d cực đại, ta nhận được số lớp cực tiểu, và sự phân chia trở thành ít chi tiết. Với giá trị rc d nhỏ, sự phân loại thành ra chi li quá mức. Nếu lấy tối ưu độ lớn của khoảng cách tới hạn giữa các lớp theo chỉ tiêu Q , người nghiên cứu sẽ chọn được phương án phân loại sao cho đối với tập hợp đối tượng đang xét, thì các lớp được phân chia ra khá khác nhau, đồng thời đảm bảo độ gắn bó bên trong mỗi lớp khá cao. Hình 3.3. Đồ thị liên kết các quan trắc vào mạng liên hệ ngắn nhất (Những đường thẳng đứt đoạn là những mức khoảng cách tới hạn giữa các lớp) Ứng dụng phương pháp phân loại tự động trong nghiên cứu hải dương học Một trong những bài toán đầu tiên nhà hải dương học gặp phải khi ứng dụng phương pháp phân loại tự động là tìm một hệ phương pháp hữu Số hiệu bước 49 hiệu phân loại tập quan trắc cụ thể. Bắt tay vào sử dụng các phương pháp phân loại, người nghiên cứu không có trước những quan niệm chắc chắn về cấu trúc các lớp. Anh ta chỉ có thể có một số suy luận ban đầu căn cứ vào những ước lượng định lượng của phép phân tích thống kê sơ bộ, những cơ chế vật lý chung đã biết về sự hình thành những quá trình được nghiên cứu v à linh nghiệm của bản thân. Số lớp, hình thức của chúng và những quan trắc cụ thể thuộc vào lớp nào thì chỉ được phỏng đoán. Khi lựa chọn một hệ phương pháp phân loại chúng ta cần chú ý rằng kết quả cuối cùng phụ thuộc rất nhiều vào sự đúng đắn và có căn cứ của việc lựa chọn này. Cho đến nay, trong nghiên cứu hải dương học sử dụng rộng rãi tất cả những thuật toán đã nêu ở trên, và chưa thể coi trọng một thuật toán nào trong số đó. Nhưng nói chung có một xu thế hướng tới sử dụng những sơ đồ tính toán càng đơn giản càng tốt. Vì vậy những phương pháp phân loại được phát triển trên cơ sở xây dựng mạng liên hệ ngắn nhất và đường không khép kín ngắn nhất được phổ biến trong những năm s áu mươi − bảy mươi [125, 172]. Sự đơn giản tính toán, chỉ yêu cầu ít tài nguyên máy tính kết hợp với tính trực quan và tính lý giải được của kết quả là nguyên nhân phổ cập của phương pháp này. Trong nửa sa u của thập kỷ 70 người ta thường hay sử dụng những thuật toán nhóm hệ thống dựa trên việc xây dựng những đa cầu trong không gian dấu hiệu [79, 199]. Tuy nhiên, kinh nghiệm áp dụng trong hải dương học lại phát hiện ra rằng những thuật toán này ít nhạy cảm với cấu trúc của các lớp được phân chia, do đó rất khó xây dựng hệ phân loại tối ưu. Vì vậy, tới cuối những năm bảy mươi, đầu những năm t ám mươi, khi bắt đầu xử lý những nguồn lưu trữ dữ liệu lớn, thì việc ứng dụng phương pháp phân loại tự động tiến sang một trình độ mới. Trong giai đoạn này, để đạt được kết quả tối ưu, các tác giả thực hiện phân loại tập hợp nhiều lần bằng nhiều phương pháp, bằng nhiều quan điểm đánh giá sự giống nhau của các quan trắc [56, 92, 161, 185]. Sự chú ý đặc biệt được giành cho vấn đề phân chia một cách tin cậy đối với những lớp có hình dạng phức tạp, do đó người ta đã sử dụng những công thức hoàn hảo hơn để tính toán các ước lượng phi tuyến về khoảng cách giữa các lớp và nội lớp [178, 203, 205, 207]. Vào cuối những năm tá m mươi, lần đầu tiên trong hải dương học đã ứng dụng hệ phương pháp phân loại dựa trên lý thuyết "các tập mờ" [110, 232]. Theo cách tiếp cận này, người ta bác bỏ tiên đề xuất phát cơ bản của phân loại kinh điển rằng các lớp đã phân chia ra không được giao nhau. Ngược lại, bản thân khái niệm tập mờ dựa trên giả thiết về sự giao nhau của các lớp, trong điều kiện đó những quan trắc riêng lẻ có thể đồng thời thuộc hai hay một số lớp kề cận [97]. Trong cách tiếp cận này biên giới lớp được hiểu theo một cách hoàn toàn mới. Nếu như trong bài toán kinh điển − biên giới là một đa mặt tách các quan trắc thành các lớp khác nhau, thì trong ngôn ngữ c ác tập mờ, biên giới được hiểu như là một vùng giao nhau của các lớp có những quan trắc thuộc vùng đó. Quan niệm mới cho phép trong khi phân loại các quá trình hải dương chú ý đặc biệt tới những đới chuyển tiếp, những đới biến dạng những tính chất và v.v Kinh nghiệm tích luỹ được khẳng định rằng phương pháp luận phân loại tự động đã được ứng dụng để giải nhiều bài toán hải dương học thực dụng, có lẽ, phổ biến nhất là bài toán phân loại các khối nước của những vùng Đại dương Thế giới [24, 28, 38, 46, 56, 88, 98, 250]. Có nhiều lý do về sự ứng dụng này, nhưng về cơ bản có lẽ do hai nguyên nhân: thứ nhất, người ta muốn tự động hoá phương pháp "thủ công" truyền thống phân chia các khối nước; thứ hai, người ta muốn vươn tới khái quát một cách tin cậy nhất về các khối nước, sử dụng nhiều tham số thủy lý, thủy hoá và sinh học. Quan điểm p hân loại tỏ ra đặc biệt nổi trội khi phân tích cấu trúc thẳng đứng của nước đại dương theo phân bố của các tham số thủy vật lý và thủy âm học [56, 100, 167]. Công việc này cho phép xác lập những tham số điển hình về sự phân tầng nước và sau đó phân vùng đại dương 50 tuân theo sự phân loại nhận được. Trong các bài toán đã liệt kê, việc phân loại thực hiện trong hệ trục tọa độ "không gian − các biến", còn sự biến động thời gian chỉ quyết định kết quả một cách gián tiếp. Sự phân loại các quá trình khí tượng thủy văn có tính tới biến động không gian và thời gian của các quan trắc đóng vai trò quyết định trong phân vùng đại dương. Trong trường hợp này các lớp thường được đồng nhất với những dạn g phân bố không gian điển hình của các trường hải dương và khí tượng học và phản ánh xu thế chung của những quá trình vật lý [123, 130, 149, 174, 185]. Vì vậy, đối tượng phân tích vật lý ở đây sẽ là những đặc điểm cơ bản của các trường điển hình cũng như tuần tự thay thế các lớp trong thời gian. Vấn đề lý giải, tức suy xét về ý nghĩa vật lý của các kết quả phân chia các quan trắc một cách hình thức, là giai đoạn cuối cùng của phương pháp phân loại tự động, kết thúc quá trình tính toán. Đồng thời đây cũng có thể là nấc thang đầu tiên tiến tới khảo sát tiếp về khả năng ứng dụng phân loại đối với tập đã cho. Vấn đề là ở chỗ k hông phải lúc nào cũng có được một lý giải vật lý về các lớp mà ta nhận được lúc phân chia. Sẽ là tốt nếu những nhóm đối tượng đồng nhất cho phép người nghiên cứu xếp đặt chúng theo những tính chất vật lý đã biết trước của đối tượng nghiên cứu. Để thực hiện quy trình này, nên tiến hành tính những trị số trung bình của các dấu hiệu bên trong mỗi lớp, phương sa i và biến phân của các dấu hiệu bên trong các lớp, đánh giá những liên hệ tương quan giữa các dấu hiệu, nói cách khác, tiến hành phân tích sơ bộ các quan trắc theo từng lớp đã nhận được. Những ước lượng này có tính tới khoảng tin cậy của chúng sẽ cho phép tiến hành so sánh định lượng những kết quả phân loại với những tài liệu khảo sát đã tích luỹ trước đây. Một bước lý giải nữa rất quan trọng l à làm sao biểu diễn các lớp quan trắc đã nhận được lên tọa độ không gian − thời gian quen thuộc. Đưa kết quả phân loại lên tọa độ không gian gọi là sự phân vùng. Trong quá trình này có thể nảy sinh những khó khăn do không phù hợp giữa số lớp đã phân chia ra một cách hình thức và số lớp đồng nhất trong tọa độ địa lý các vùng. Hiện tượng này là do sự hiện diện của một số vùng tự nhiên khá xa cách nhau n hưng có những giá trị gần bằng nhau của các dấu hiệu quan trắc. Chẳng hạn, nếu qua y lại với thí dụ đã xét về phân tích các khối nước, phải nhớ rằng những khối nước cận nhiệt đới với những đặc trưng như nhau quan trắc thấy cả ở Đại Tây Dương, Thái Bình Dương và Ấn Độ Dương. Vì vậy, trong trường hợp khác nhau về số lớp đồng nhất và các vùng đồng nhất người nghiên cứu phải thực hiện những biện pháp cần thiết để có được bức tranh phân chia chi tiết và đầy đủ hơn, rồi sau đó tiếp tục phân loại. Trong nhiều t ình huống thực tế, vấn đề phân loại đúng đắn không chỉ tuỳ thuộc vào số lượng quan trắc xuất phát, mà chủ yếu tuỳ thuộc vào tập hợp những dấu hiệu đem ra xem xét. Đối với phương pháp phân loại tự động, vấn đề tuyển chọn các dấu hiệu có nội hàm khác hẳn so với các phương pháp thống kê nhiều biến khác. Biến đổi ma trận dấu hiệu xuất phát Khi phân loại, một phần thông tin xuất phát luôn bị bỏ mất. Đó là do sự liên kết những đối tượng khác nhau ở mức độ nào đó vào một lớp gắn liền với sự loại bỏ những thông tin đặc trưng cho những nét riêng của mỗi đối tượng. Rõ ràng những nét riêng kiểu này là vụn vặt, so với những tính chất chung hơn, đặc trưng cho tất cả các đối tượng của một lớp nào đó. Vậy làm thế nào tách biệt những nét chung nhất này, những tính chất điển hình cho phần lớn các đối tượng? Điều này có thể đạt được bằng cách biến đổi thông tin xuất phát. Biến đổi thông tin xuất phát phản ánh một trong những tư tưởng chính của vấn đề nhận dạng và phân loại. Việc giải quyết nhiều bài toán khó phát biểu có thể sẽ được giảm nhẹ đáng kể nhờ kỹ năng biến đổi thông tin xuất phát thành một số không nhiều các dấu hiệu, vừa đủ để mô 51 tả đầy đủ những đối tượng nghiên cứu. Những dấu hiệu khái quát ấy giúp ta không phải chú ý tới những chi tiết ít đáng kể đối với việc phân loại. Đặc điểm b iến đổi dữ liệu xuất phát cũng phụ thuộc vào dạng dữ liệu. Trong hải dương học, cũng như trong khí tượng thủy văn nói chung, những phương pháp biến đổi là phương pháp các thành phần chính và phân tích nhân tố. Điều qua n trọng là những phương pháp này cho phép nhận được một hệ các dấu hiệu độc lập nhau, làm đơn giản rất nhiều thuật toán phân loại. Phương pháp các thành phần chính được sử dụng phổ biến để biến đổi thông tin khi phân chia các khối nước. 3.2. PHƯƠNG PHÁP PHÂN TÍCH PHÂN BIỆT Đặt bài toán Quá trình tích luỹ tri thức về đại dương gắn liền với việc quy nạp những dữ liệu mới với những thông tin có sẵn và thu gom được trước đây. Thông thường, thông tin có sẵn về đại dương gồm những tri thức dưới dạng những khái quát. Đó là những lớp hay những kiểu hiện tượng và quá trình mà người ta đã phát hiện được nhờ khảo sát toàn bộ khối dữ liệu lưu trữ đã tích luỹ được. Những kiểu là những trạng thái có khả năng nhất, ổn định nhất của các đối tượn g nghiên cứu; đối với những kiểu đó người ta không chỉ đã xác định được những đặc trưng thống kê, mà còn hình thành được những quy luật vật lý về sự xuất hiện, tồn tại và chuyển hoá lẫn nhau của chúng. Sự quy nạp thông tin mới với thông tin đã phân loại chính là nhiệm vụ cơ bản về ứng dụng phươn g pháp phân tích phân biệt. Bản thân hệ phương pháp ở đây đóng vai trò một quy tắc toán học hình thức, theo đó, bằng cách so sánh thống kê những đặc trưng của các quan trắc đang xét và những lớp đã phân chia trước đó mà người ta xếp vectơ quan trắc đang xét vào lớp nào. Vận dụng phương pháp phân tích phân biệt giúp giảm thiểu những sai lầm có thể có khi quy nạp sai một quan trắc vào những lớp đã phân chia, điều này quyết định tính hiệu quả của hệ phương pháp trong thực hành. Dưới hình thức đầy đủ, phương p háp phân tích phân biệt thuộc lĩnh vực khoa học gọi là phép "nhận dạng" [17, 130]. Những đặc trưng thống kê của các lớp đã phân chia trước là những dạng, căn cứ vào những dạng này mà người ta phân tích dạng của một vectơ quan trắc mới cũng hình thành từ những đặc trưng thống kê tương tự. Thí dụ ki nh điển về vận dụng lý thuyết nhận dạng trong nghiên cứu hải dương học có thể là bài toán phân loại phân bố thẳng đứng mật độ nước ở Đại dương thế giới. Thủy vực đại dương đã được phân vùng khá chi tiết theo các kiểu phân bố thẳng đứng của mật độ nước. Đối với từng vùng đã xác định những đặc trưng thống kê về phân bố mật độ (giá trị trung bình, phương sai, độ bất đối xứng), thiết lập quan hệ thống nhất giữa một tập hợp các tham số trạng thái đại dương khác như: chế độ nhiệt m uối, động lực, các đặc trưng quang học và âm học, phân bố các chỉ tiêu sinh học và hoá học, với phân bố mật độ. Nếu ta xác định được một cách khách quan một trắc diện thẳng đứng vừa mới quan trắc thuộc vào lớp nào trong số các lớp đã phân chia, thì có nghĩa rằng ta có được toàn bộ thông tin tương ứng với lớp đó và nắm được bản chất vật lý của các quá trình đang diễn ra. Bây giờ chún g ta chuyển sang phát biểu bài toán của phương pháp phân tích phân biệt. Trong quá trình vận dụng phương pháp phân tích phân biệt đòi hỏi giải quyết hai vấn đề: − Hình thành quy tắc toán học quy kết các đối tượng vào một trong những lớp đã phân chia; − Xá c định một vectơ quan trắc mới thuộc lớp nào. Tập dữ liệu lưu trữ, đã được phân chia thành những lớp đồng nhất, được sử dụng làm tập xuất phát, còn được gọi là tập thầy x , gồm N quan trắc về M biến. Các quan trắc thuộc về k lớp. Đối với mỗi lớp i , 52 đã tính được những đặc trưng thống kê ban đầu (trung bình của M tham số {} iMiii xxx 21 , , ,=x , phương sai của M tham số {} iMiii sss 21 , , ,=s ) và xây dựng những tổ chức đồ ) , , ,( 21 Mi xxxP . Dựa theo tập thầy, người ta phải hình thành quy tắc giải. Quy tắc giải là biểu thức toán học − hàm phân biệt, theo giá trị của hàm này có thể rút ra kết luận đơn trị quy kết vectơ quan trắc thuộc vào lớp cụ thể nào. Ý nghĩa hình học của phương pháp phân tích phân biệt Việc giải bài toán đã phát biểu trong phương pháp phân tích phân biệt có thể giải thích trên ví dụ hình học đơn giản. Ta biểu diễn tập dữ liệu xuất phát, gồm N quan trắc về 2= M biến, dưới dạng những đám mây tản mát trên mặt phẳng tọa độ (hình 3.4). Giả sử có hai đám mây dữ liệu được phân chia rõ rệt, ta tiên định phân nhóm chúng thành hai lớp: lớp 1 và lớp 2. Đối với từng lớp đã tính gi á trị của phương sai và kỳ vọng toán học theo từng dấu hiệu trong hai dấu hiệu. Ngoài ra, đối với mỗi dấu hiệu đã xây dựng các tổ chức đồ tổng quát của các đám mây tản mát: )( 1 xP và )( 2 xP . Từ những tổ chức đồ đã dẫn, thấy rằng một phần những giá trị quan trắc rơi vào vùng giao nhau của các đường cong, bên trong vùng đó không thể định chính xác các quan trắc thuộc lớp nào. Ý nghĩa của phân tích phân biệt là ở chỗ tìm một quy tắc giải, làm giảm thiểu sai lầm phân loại. Về mặt hình học, điều này tương đương với việc tìm ra một đường thẳng z , sao cho các hình chiếu các đám mây của các lớp lên đường thẳng đó sẽ cách xa nhau tối đa, còn diện tích vùng giao nhau của các tổ chức đồ của các lớp trở nên cực tiểu. Khi đó trên đường thẳng z , gọi là hàm phân biệt, các biên giới của các lớp 0 z cũng được chiếu lên. Điểm 0 z đặc trưng cho biên giới các lớp, gọi là chỉ số phân biệt. Hình 3.4. Ý nghĩa hình học của phương pháp phân tích phân biệt − 21 , xx những dấu hiệu xuất phát; −)( ),( 21 xPxP mật độ xác suất quan trắc theo các dấu hiệu; − z hàm phân biệt; −)(zP mật độ xác suất phân bố quan trắc chiếu lên hàm Khi chuyển từ khôn g gian dấu hiệu hai chiều sang không gian nhiều chiều, phải thấy rằng thay vì một đường thẳng, hàm phân biệt sẽ biểu diễn hình học bằng một mặt phân cách các lớp (mặt đa diện đối với số dấu hiệu lớn hơn ba). Tính các hàm phân biệt Giả sử rằng những tổ chức đồ phân bố thực nghiệm theo các lớp tuân theo quy luật phân bố chuẩn. Ta sẽ xét cách xây dựng và tính các hàm phân biệt dựa trên quy tắc Bayes, quy tắc này đảm bảo tối thiểu hoá lỗi phân loại sai. Ký hiệu 1 c là sai số quy kết sai đối tượng từ lớp 1 sang lớp 2, còn − 2 c sai số quy kết sai đối tượng từ lớp 2 sang lớp 1. Khi đó quy tắc giải được thay như sau: [...]... lớp 2 Trong không gian M biến xuất phát, ma trận khác biệt giá trị trung bình U quyết định định hướng của ellip tản mát các khác biệt giữa các lớp Trục lớn của ellip khác biệt trùng hướng với vị trí của hàm phân biệt Vì vậy, những trị số của vectơ riêng thứ nhất của ma trận U sẽ đồng thời là những hệ số của hàm phân biệt Trong trường hợp này nên dựng hàm phân biệt như sau: Đầu tiên phải giải phương... tiêu hiệu quả của việc lựa chọn các dấu hiệu chính là những ước lượng D 2 − 55 khoảng cách Magalonobis và mức thoả mãn các giả thiết phù hợp luật phân bố chuẩn Hiện nay, kỹ thuật của phương pháp phân tích phân biệt phi tham số đang phát triển Hệ phương pháp phân tích phân biệt dựa trên việc giải bài toán các giá trị riêng và các vectơ riêng của ma trận hiệp biến khối đã có ứng dụng trong giải quyết nhiều... công trong dự báo những hiện tượng nguy hiểm [130, 152] và điều kiện băng [129] Tuy nhiên, trong nhiều trường hợp, những ưu việt của phương pháp phân tích phân biệt làm cho nó phổ dụng lại đồng thời trở thành những nhược điểm, làm giảm chất lượng phân loại Thí dụ, sự đơn giản của phương pháp phân tích phân biệt tuyến tính kinh điển là do điều kiện định trước về sự bằng nhau của các ma trận hiệp biến của. .. tốc độ cao của các thuật toán tính toán của phương pháp phân tích phân biệt đã làm cho phương pháp này rất phổ dụng trong khi giải quyết các bài toán xử lý nghiệp vụ những kiểu ảnh khác nhau Nội dung thực dụng quan trọng của các lớp phân biệt còn quyết định một hướng ứng dụng nữa của phương pháp phân tích phân biệt − đó là dự báo sự phát triển của các quá trình khí tượng thủy văn Trong lĩnh vực này,... do Fisher đề xuất Ưu điểm của phương pháp phân tích phân biệt phi tham số là ở đây không yêu cầu những điều kiện về dạng phân bố xác suất theo các lớp, và để giải bài toán nhận dạng chỉ cần biết các quan trắc thuộc lớp nào, những ước lượng của các vectơ giá trị trung bình các dấu hiệu theo các lớp x1 , x 2 , ước lượng ma trận hiệp biến tổng quát cho toàn tập hợp S Lập luận của phương pháp phân tích... 2 (3.6) trong đó S − ma trận hiệp biến của các dấu hiệu, tính theo toàn tập hợp Hàm phân biệt nhận được có những trị số cụ thể đối với mỗi vectơ quan trắc bất kỳ từ tập hợp đang xét Biên phân cách các lớp được cho bởi chỉ số phân biệt, chỉ số này tính như số hạng tự do z 0 Trong thực hành, thủ tục nhận dạng bằng hệ phương pháp phân tích phân biệt quy về việc tính trị số của hàm phân biệt cho vectơ... Nói cách khác, sự cần thiết phải sử dụng tập thầy đã trở nên rõ ràng Vì vậy, trong tương lai việc ứng dụng phương pháp phân tích phân biệt được hình thành trên cơ sở xử lý những tập quan trắc đa chiều, tính phân lớp được của những tập này được quy định bởi chính cấu trúc của dữ liệu Trong ứng dụng khí tượng [84, 85], những lớp đó là dông, hiện tượng dính băng, mưa rào, trong hải dương học [145] − các... quát trong những tình huống cụ thể Sự phong phú các phương pháp dự báo về phía mình lại đặt ra nhiệm vụ liên kết (phối hợp) hiệu quả một số phương pháp nhằm xây dựng dự báo tối ưu Khi suy xét về những nét ưu việt quan trọng của giải pháp phương pháp luận này so với những giải pháp truyền thống, cũng không nên bỏ qua những hạn chế khách quan của nó liên quan tới bản thân tính có dự báo được hay không. .. biệt phi tuyến đã hơn một lần được sử dụng để giải quyết các bài toán thực dụng [180, 217, 269] Vấn đề có tính nguyên tắc thứ hai của phương pháp phân tích phân biệt liên quan tới dạng phân bố các dấu hiệu bên trong các lớp Theo truyền thống người ta giả thiết tồn tại phân bố chuẩn đa chiều Trên thực tế sự sai khác của luật phân bố thực nghiệm trực tiếp dẫn tới sai số trong khi tính toán xác suất các... nhất λ1 , sau đó thế λ1 vào hệ phương trình dạng (3.8) và giải nó theo vectơ riêng thứ nhất B1 Những hệ số của vectơ riêng b11 , b12 , , b1M sẽ là những hệ số của hàm phân biệt Số hạng tự do z 0 của hàm phân biệt trong trường hợp này được tính theo công thức những trị số phương sai của các giá trị j Ứng dụng phương pháp phân tích phân biệt trong hải dương Từ các ma trận U 1 và U 2 lập ma trận tổng . giải của bài toán. Giả sử cho tập hợp Ω trong không gian M dấu hiệu, tạo thành từ tập mẫu X gồm N quan trắc về M biến. Yêu cầu tách ra một cách có căn cứ và tin cậy về mặt thống kê k tập. k tập hợp con (nhóm, lớp quan trắc) k ω ω , 321 ,,, : k ω ω 21  ⋅⋅⋅ =Ω . Để t ách ra những tập con, trước tiên cần phải có những điều kiện sau: 1) Những tập con nhận được không giao. trong trường hợp này, nó có thể được giải chỉ trên cơ sở những phương pháp phân loại bằng máy, tức những phương pháp phân loại tự động, trong đó người nghiên cứu chỉ phải cho trước thuật giải

phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian doc

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan