Ứng dụng của nghiệm Nhớt trong lý thuyết điều khiển tối ưu và trò chơi vi phân

68 312 0
Ứng dụng của nghiệm Nhớt trong lý thuyết điều khiển tối ưu và trò chơi vi phân

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Luận văn được hoàn thành tại Trường Đại học Sư phạm Hà Nội 2 dưới sự hướng dẫn của TS. Trần Văn Bằng. Tác giả xin được gửi lời cảm ơn chân thành tới TS. Trần Văn Bằng. Sự tận tình song rất nghiêm túc của thầy trong suốt quá trình học tập và làm luận văn đã giúp tác giả trưởng thành hơn rất nhiều về cách tiếp cận một vấn đề mới. Cảm ơn các thầy cô giáo giảng dạy chuyên ngành Toán Giải tích đã nhiệt tình cung cấp các tri thức khoa học giúp tác giả nâng cao trình độ tư duy, hoàn thành tốt quá trình học tập và làm luận văn. Tác giả cũng xin được cảm ơn tới trường THPT Việt Trì đã quan tâm giúp đỡ và tạo mọi điều kiện thuận lợi để tác giả yên tâm học tập trong suốt hai năm vừa qua. Cuối cùng, tác giả xin được cảm ơn tới gia đình, bạn bè đã giúp đỡ, động viên kịp thời để tác giả hoàn thành bản luận văn này. Hà Nội, tháng 5 năm 2011 Tác giả LỜI CAM ĐOAN Tôi xin cam đoan Luận văn là công trình nghiên cứu của riêng tôi. Trong khi nghiên cứu luận văn, tôi đã kế thừa thành quả khoa học của các nhà khoa học và đồng nghiệp với sự trân trọng và biết ơn. Hà Nội, tháng 5 năm 2011 Tác giả Mục lục Mở đầu 5 Chương 1. Một số kiến thức chuẩn bị 7 1.1 Về lý thuyết điều khiển tối ưu . . . . . . . . . . . . . . . 7 1.1.1 Hệ điều khiển . . . . . . . . . . . . . . . . . . . . 7 1.1.2 Bài toán điều khiển tối ưu . . . . . . . . . . . . . 11 1.1.3 Nguyên lý quy hoạch động . . . . . . . . . . . . . 13 1.1.4 Phương trình Hamilton-Jacobi-Bellman . . . . . . 17 1.1.5 Phương pháp quy hoạch động . . . . . . . . . . . 20 1.2 Lý thuyết trò chơi vi phân . . . . . . . . . . . . . . . . . 24 1.3 Nghiệm nhớt của phương trình Hamilton-Jacobi . . . . . 30 1.3.1 Khái niệm và tính chất . . . . . . . . . . . . . . . 30 1.3.2 Nguyên lý cực trị và nguyên lý so sánh . . . . . . 32 1.3.3 Tính liên tục Lipschitz của nghiệm nhớt . . . . . 35 1.4 Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . 37 Chương 2. Ứng dụng của nghiệm nhớt 38 2.1 Ứng dụng đối với lý thuyết điều khiển tối ưu . . . . . . . 38 2.1.1 Nghiệm nhớt của phương trình quy hoạch động . 38 2.1.2 Điều kiện cần và đủ của điều khiển tối ưu . . . . 43 2.2 Ứng dụng đối với lý thuyết trò chơi vi phân . . . . . . . 51 2.2.1 Nghiệm nhớt của phương trình quy hoạch động . 51 2.2.2 Ứng dụng của nghiệm nhớt để xây dựng phản hồi tối ưu. . . . . . . . . . . . . . . . . . . . . . . . . 55 2.2.3 Sự hội tụ của lược đồ xấp xỉ bán rời rạc. . . . . . 61 4 2.3 Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . 66 Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . 68 MỞ ĐẦU 1. Lí do chọn đề tài Lý thuyết nghiệm nhớt của phương trình Hamilton- Jacobi cấp một đã được đề xuất bởi M.Crandall và P.L. Lions từ những năm đầu của thập kỷ 80 (xem [7], [3]), mà một trong những động lực chính của nó là để nghiên cứu phương trình Hamilton - Jacobi - Bellman. Nó xuất hiện trong cách tiếp cận quy hoạch động đối với các bài toán điều khiển tối ưu tất định. Cho đến nay lý thuyết về nghiệm nhớt đã được mở rộng cho lớp các phương trình elliptic - parabolic suy biến cấp hai (xem [6]) và đã được ứng dụng trong rất nhiều lĩnh vực khác nhau, đặc biệt là trong lý thuyết điều khiển tối ưu và lý thuyết trò chơi vi phân (xem [4],[5]). Để nâng cao sự hiểu biết về loại nghiệm suy rộng này chúng tôi đã chọn đề tài ”Ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối ưu và lý thuyết trò chơi vi phân". 2. Mục đích nghiên cứu Nghiên cứu khái niệm nghiệm nhớt của phương trình đạo hàm riêng, các tính chất và các ứng dụng có thể của chúng trong lý thuyết điều khiển tối ưu đặc biệt là trong lý thuyết trò chơi vi phân. 3. Nhiệm vụ nghiên cứu • Tìm hiểu về nghiệm nhớt của phương trình đạo hàm riêng cấp một. • Tìm hiểu về lý thuyết điều khiển tối ưu tất định, đặc biệt là cách tiếp cận quy hoạch động. • Tìm hiểu về lý thuyết trò chơi vi phân. • Tìm ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối ưu và lý thuyết trò chơi vi phân. 6 4. Đối tượng và phạm vi nghiên cứu • Nghiên cứu nghiệm nhớt của lớp phương trình Hamilton - Jacobi - Bellman bao gồm các khái niệm, các tính chất; cách tiếp cận quy hoạch động đối với bài toán điều khiển tối ưu tất định. • Lý thuyết trò chơi vi phân và mối quan hệ giữa các đối tượng đó. 5. Phương pháp nghiên cứu • Nghiên cứu tài liệu tham khảo. • Tổng hợp, phân tích, hệ thống lại các khái niệm, tính chất. • Hỏi ý kiến chuyên gia. 6. Những đóng góp của đề tài Đề tài trình bày một cách tổng quan về ứng dụng của nghiệm nhớt đối với lý thuyết điều khiển tối ưu tất định và lý thuyết trò chơi vi phân. Chương 1 Một số kiến thức chuẩn bị 1.1 Về lý thuyết điều khiển tối ưu 1.1.1 Hệ điều khiển Trước hết ta trình bày một số khái niệm và kết quả cần thiết về hệ phương trình vi phân phi tuyến mà chúng ta muốn điều khiển. Ta giả thiết rằng: hàm f(x, a) với x ∈ R N , a ∈ A (tương ứng được gọi là biến trạng thái và biến điều khiển), thỏa mãn các giả thiết sau:  A là một không gian tô pô, f : R N × A → R N là một hàm liên tục; (A0) f bị chặn trên B(0, R) × A, với mọi R > 0; (A1) (tính bị chặn địa phương của f đều theo biến điều khiển a)      tồn tại một mô đun địa phương ω f sao cho |f(y, a) − f(x, a)| ≤ ω f (|x − y|, R), với mọi x, y ∈ B(0, R) và R > 0, (A2) (tính liên tục đều địa phương của f, đều theo biến điều khiển a), trong đó mô đun địa phương là một hàm ω : R + × R + → R + sao cho với mọi R > 0, ω(., R) liên tục, không giảm và ω(0, R) = 0. Ta sẽ chủ yếu quan tâm tới trường hợp A ⊂ R M là tập compac. Khi đó (A1) và (A2) là các hệ quả của (A0). Ta cũng giả thiết (f(x, a) − f(y, a)).(x − y) ≤ L|x − y| 2 , ∀x, y ∈ R N , a ∈ A; (A3) tức là, tồn tại một số L ∈ R sao cho f(x, a) − LI, với I là toán tử đồng nhất, là một ánh xạ đơn điệu (không tăng) với mọi a. 8 Trong luận văn này ta chỉ xét trường hợp f liên tục Lipschitz toàn cục theo biến trạng thái, tức là |f(x, a) − f(y, a)| ≤ L |x − y| , ∀x, y ∈ R N , a ∈ A. Khi đó, tự nhiên f thỏa mãn (A3) và (A2). Chúng ta quan tâm tới nghiệm (hay quỹ đạo) của hệ phi tuyến  y  (t) = f(y(t), a(t)), t > 0, y(0) = x (1.1) với các hàm điều khiển a(.) (gọi là điều khiển lặp mở (open loop), vì không phụ thuộc vào biến trạng thái) thuộc tập tất cả các điều khiển: A := {α : [0; +∞) → A đo được} (về hàm đo được và các tính chất liên quan có thể xem [2]). Kí hiệu y x (., a) = y x (.) là nghiệm của (1.1) ứng với điều khiển a, theo nghĩa y x (., a) là nghiệm của phương trình tích phân y(t) = x +  t 0 f(y(s), a(s))ds, t > 0. Như vậy y x (., a) là một hàm liên tục tuyệt đối trên các tập con compac của [0, +∞) và thỏa mãn (1.1) hầu khắp nơi. Các định lý sau đây chỉ ra sự tồn tại nghiệm cũng như tính chất nghiệm của phương trình tích phân: y(t) = x +  t t 0 f(y(s), a(s))ds. (1.2) Định lý 1.1.1. [Sự tồn tại quỹ đạo địa phương, [4], Định lý 5.4] Giả sử ta có các giả thiết (A0), (A1), x ∈ R N cố định và đặt K = K x := sup{|f(z, a)| : |z − x| ≤ 1, a ∈ A}. Khi đó với mỗi t 0 ∈ R, a ∈ A tồn tại một nghiệm liên tục Lipschitz y của (1.2) trên [t 0 , t 0 + 1/K]. Hơn nữa |y(t) − x| ≤ K(t − t 0 ), ∀t. 9 Định lý 1.1.2. [Sự tồn tại quỹ đạo toàn cục, [4], Định lý 5.5] Giả sử ta có các giả thiết (A0), (A1) và (A3). Khi đó với mỗi t 0 ∈ R, x ∈ R N , a ∈ A tồn tại một nghiệm duy nhất y x : [0, +∞) → R N của (1.2) và thỏa mãn |y x (t)| ≤ (|x| +  2K(t − t 0 ))e K(t−t 0 ) , ∀t > t 0 , trong đó K := L + sup α∈A |f(0, α)|. Nếu y z là nghiệm thỏa mãn điều kiện ban đầu y z (t 0 ) = z thì |y x (t) − y z (t)| ≤ e L(t−t 0 ) |x − z|, ∀t ≥ t 0 . Hơn nữa, ta có |y x (t) − x| ≤ 1 L sup α∈A |f(x, α)|(e Lt − 1). Để xét tính khả vi của nghiệm của (1.1) theo điều kiện ban đầu x, ta nhớ lại rằng: ma trận nghiệm cơ bản M(s, t) của hệ phương trình vi phân tuyến tính ξ  (t) = A(t)ξ(t), t ∈ [t 0 , t 1 ] (1.3) là nghiệm duy nhất của phương trình tích phân M(s, t) = I +  s t A(τ)M(τ, t)dτ, s, t ∈ [t 0 , t 1 ], trong đó t → A(t) là một ánh xạ đo được, bị chặn từ [t 0 , t 1 ] vào tập các ma trận vuông cấp N, I là ma trận đơn vị cấp N. Hơn nữa, cột thứ i, m i của M(., t 0 ), tức là m i (s) = M(s, t 0 )e i là nghiệm của (1.3) với dữ kiện ban đầu là ξ(t 0 ) = e i , tức là nó thỏa mãn m i (s) = e i +  s t 0 A(τ)m i (τ)dτ, s ∈ [t 0 , t 1 ]. Xét hệ phương trình vi phân thường  y  (t) = F (y(t), t), t ∈ (t 0 , t 1 ), y(t 0 ) = x. (1.4) với hàm F : R N × [t 0 , t 1 ] → R N bị chặn trên các tập compac và 10 • với mỗi x, hàm t → F (x, t) đo được; • với mỗi t, hàm x → F (x, t) khả vi liên tục, hơn nữa ma trận Jacobi của nó D x F bị chặn trên K × [t 0 , t 1 ] với mọi tập compac K ⊂ R N . Nghiệm của (1.4) được hiểu theo nghĩa tích phân thông thường và ký hiệu là S(t, t 0 , x) = y(t). Khi đó ta có Định lý 1.1.3. [[4], Định lý 5.8] Với các giả thiết đã nêu trên, gọi ˆy(.) = S(., t 0 , x 0 ) là nghiệm của (1.4) với điểm ban đầu x = x 0 . Khi đó với mọi t ∈ [t 0 , t 1 ], ánh xạ x → S(t, t 0 , x) khả vi liên tục trong một lân cận của x 0 . Hơn nữa, ma trận Jacobi của nó tại x 0 là D x S(t, t 0 , x 0 ) = M(t, t 0 ), trong đó M(., .) là ma trận cơ bản của hệ phương trình tuyến tính ξ  (t) = D x F (ˆy(t), t)ξ(t). Kết quả này cho ta tính khả vi của quỹ đạo của hệ (1.1), tức là nghiệm của (1.3) theo vị trí ban đầu với mỗi điều khiển a ∈ A cố định, tức là tính khả vi của ánh xạ x → y x (t, a) dưới các giả thiết (A0)-(A3) và thêm điều kiện x → f(x, a) khả vi liên tục với mọi a ∈ A và có ma trận Jacobi bị chặn trên các tập compac (tức là, ω f (r, R) = L R r trong (A2)). [...]... phù hợp của nghiệm nhớt đối với khái niệm nghiệm cổ điển Mệnh đề 1.3.2 i) Nếu u ∈ C(E) là một nghiệm nhớt của phương trình (1.16) trong E thì u là nghiệm nhớt của phương trình đó trong E với mọi tập mở E ⊂ E; ii) Nếu u là nghiệm cổ điển của phương trình (1.16) trong E thì u là nghiệm nhớt của phương trình đó trong E; iii) Nếu u ∈ C 1 (E) là nghiệm nhớt của phương trình (1.16) trong E thì u là nghiệm. .. ứng được gọi là trên vi phân và dưới vi phân của hàm u tại x Mệnh đề 1.3.4 Hàm u ∈ USC(E) là nghiệm nhớt dưới của (1.16) khi và chỉ khi F (x, u(x), p) ≤ 0 với mọi x ∈ E và p ∈ D+ u(x) (1.17) Hàm u ∈ LSC(E) là nghiệm nhớt trên của (1.16) khi và chỉ khi F (x, u(x), p) ≥ 0 với mọi x ∈ E và p ∈ D− u(x) (1.18) 32 Hàm u là nghiệm nhớt của (1.16) khi và chỉ khi nó thỏa mãn đồng thời hai điều kiện (1.17) và. .. trưng này của nghiệm nhớt, chúng ta chứng minh được rằng Định lý 1.3.5 a) Nếu u ∈ C(E) là nghiệm nhớt của (1.16) và u khả vi tại x ∈ E thì F (x, u(x), Du(x)) = 0 b) Nếu u liên tục Lipschitz địa phương và là nghiệm nhớt của (1.16) thì F (x, u(x), Du(x)) = 0 hầu khắp nơi trong E 1.3.2 Nguyên lý cực trị và nguyên lý so sánh Khái niệm nghiệm nhớt có liên hệ mật thiết với nguyên lý cực trị và nguyên lý so sánh... (z, a) tương ứng Định nghĩa 1.1.13 Mỗi ánh xạ Φ : RN → A sao cho với mọi x ∈ RN bài toán y = f (y, Φ(y)), y(0) = x, t > 0, 23 có nghiệm duy nhất được gọi là một phản hồi chấp nhận được Phản hồi chấp nhận được Φ được gọi là phản hồi tối ưu ứng với x nếu Φ(y(.)) ∈ A là một điều khiển tối ưu ứng với x Theo Định lý 1.1.10 và Nhận xét 1.1.11, một điều khiển a∗ (t) ∈ A là tối ưu ứng với x khi và chỉ khi a∗... nghiệm của F (x, u, Du) ≤ 0 trong E nếu với mỗi φ ∈ C 1 (E) và với mỗi điểm cực đại địa phương x của u − φ ta có F (x, u(x), Dφ(x)) ≤ 0 Hàm u ∈ LSC(E) là một nghiệm nhớt trên của (1.16) hay là một nghiệm của F (x, u, Du) ≥ 0 trong E nếu với mỗi φ ∈ C 1 (E) và với mỗi điểm cực tiểu địa phương x của u − φ ta có F (x, u(x), Dφ(x)) ≥ 0 Hàm u ∈ C(E) được gọi là nghiệm nhớt của (1.16) nếu nó vừa là một nghiệm. .. người chơi thứ hai, người muốn cực đại hóa phiếm hàm chi phí Để định nghĩa hàm giá trị của trò chơi chúng ta phải đưa ra một vài luật chơi Luật chơi tĩnh: Là mô hình trong đó tại thời điểm ban đầu t = 0 người chơi thứ nhất chọn phương án toàn cục của mình dựa trên dáng điệu toàn cục trong tương lai của người chơi thứ hai, còn người chơi thứ hai đưa ra phương án của mình dựa trên lựa chọn của người chơi. .. Luật chơi với điều khiển phản hồi: Là mô hình trong đó tại mỗi thời điểm t, cả hai người chơi đưa ra quyết định điều khiển của mình chỉ dựa trên vị trí hiện thời của trạng thái y(t) Đây là một mô hình thông tin khá thực tế và nó là một mô hình điển hình trong lý thuyết điều khiển tự động Cụ thể, điều khiển của hai người chơi xác định bởi hai hàm (phản hồi) của trạng thái Φ : RN → A, Ψ : RN → B Nói cách... không thực hiện được trong nhiều trò chơi, chẳng hạn trong các trò chơi trốn- tìm, bởi vì trong trò chơi đó lợi thế của người chơi đã được cho trước khi lựa chọn chiến lược Tuy nhiên nó cho ta một nhận định rằng, bất kỳ trò chơi nào có tính công bằng hơn đều có đầu ra nằm giữa V (x) và U (x) Điều đó dẫn tới định nghĩa sau: Định nghĩa 1.2.6 Nếu V (x) = U (x) thì chúng ta nói rằng trò chơi với vị trí ban... là hàm hằng thì h(s) ≡ h(0) = T (x) Vì thế từ 0 ≤ T (x) < +∞ ta suy ra tx (a) < +∞ và h(tx (a)) = tx (a) bởi vì T ≡ 0 trên tập đích T Vậy T (x) = tx (a) Hay a(.) là điều khiển tối ưu ứng với vị trí ban đầu x Ngược lại, nếu a(.) ∈ A là điều khiển tối ưu ứng với x thì h(0) = T (x) = tx (a) Mà trong chứng minh của nguyên lý quy hoạch động chúng ta có kết quả: tx (a) ≥ h(s) Vậy h(0) = h(s), do h là hàm... pháp quy hoạch động Lý thuyết cổ điển của phương pháp quy hoạch động thực hiện với giả thiết phương trình Hamilton-Jacobi-Bellman có một nghiệm (đôi khi chỉ cần một nghiệm dưới) và dùng nghiệm đó để chỉ ra các điều kiện đủ để tồn tại điều khiển tối ưu Kết quả khi đó thường được gọi là định lý kiểm chứng Sau đây là một ví dụ về kết quả như vậy đối với bài toán chiết khấu thời gian tối thiểu Trước hết . về lý thuyết trò chơi vi phân. • Tìm ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối ưu và lý thuyết trò chơi vi phân. 6 4. Đối tượng và phạm vi nghiên cứu • Nghiên cứu nghiệm nhớt của. tối ưu và lý thuyết trò chơi vi phân (xem [4],[5]). Để nâng cao sự hiểu biết về loại nghiệm suy rộng này chúng tôi đã chọn đề tài Ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối ưu và lý. dụng của nghiệm nhớt 38 2.1 Ứng dụng đối với lý thuyết điều khiển tối ưu . . . . . . . 38 2.1.1 Nghiệm nhớt của phương trình quy hoạch động . 38 2.1.2 Điều kiện cần và đủ của điều khiển tối ưu

Ngày đăng: 23/07/2015, 12:04

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan