Ứng dụng của nghiệm Nhớt trong lý thuyết điều khiển tối ưu và trò chơi vi phân

68 374 0
Ứng dụng của nghiệm Nhớt trong lý thuyết điều khiển tối ưu và trò chơi vi phân

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Luận văn hoàn thành Trường Đại học Sư phạm Hà Nội hướng dẫn TS Trần Văn Bằng Tác giả xin gửi lời cảm ơn chân thành tới TS Trần Văn Bằng Sự tận tình song nghiêm túc thầy suốt trình học tập làm luận văn giúp tác giả trưởng thành nhiều cách tiếp cận vấn đề Cảm ơn thầy cô giáo giảng dạy chuyên ngành Toán Giải tích nhiệt tình cung cấp tri thức khoa học giúp tác giả nâng cao trình độ tư duy, hoàn thành tốt trình học tập làm luận văn Tác giả xin cảm ơn tới trường THPT Việt Trì quan tâm giúp đỡ tạo điều kiện thuận lợi để tác giả yên tâm học tập suốt hai năm vừa qua Cuối cùng, tác giả xin cảm ơn tới gia đình, bạn bè giúp đỡ, động viên kịp thời để tác giả hoàn thành luận văn Hà Nội, tháng năm 2011 Tác giả LỜI CAM ĐOAN Tôi xin cam đoan Luận văn công trình nghiên cứu riêng Trong nghiên cứu luận văn, kế thừa thành khoa học nhà khoa học đồng nghiệp với trân trọng biết ơn Hà Nội, tháng năm 2011 Tác giả Mục lục Mở đầu Chương Một số kiến thức chuẩn bị 1.1 Về lý thuyết điều khiển tối ưu 1.1.1 Hệ điều khiển 1.1.2 Bài toán điều khiển tối ưu 11 1.1.3 Nguyên lý quy hoạch động 13 1.1.4 Phương trình Hamilton-Jacobi-Bellman 17 1.1.5 Phương pháp quy hoạch động 20 1.2 Lý thuyết trò chơi vi phân 24 1.3 Nghiệm nhớt phương trình Hamilton-Jacobi 30 1.3.1 Khái niệm tính chất 30 1.3.2 Nguyên lý cực trị nguyên lý so sánh 32 1.3.3 Tính liên tục Lipschitz nghiệm nhớt 35 Kết luận chương 37 1.4 Chương Ứng dụng nghiệm nhớt 2.1 2.2 38 Ứng dụng lý thuyết điều khiển tối ưu 38 2.1.1 Nghiệm nhớt phương trình quy hoạch động 38 2.1.2 Điều kiện cần đủ điều khiển tối ưu 43 Ứng dụng lý thuyết trò chơi vi phân 51 2.2.1 Nghiệm nhớt phương trình quy hoạch động 51 2.2.2 Ứng dụng nghiệm nhớt để xây dựng phản hồi 2.2.3 tối ưu 55 Sự hội tụ lược đồ xấp xỉ bán rời rạc 61 2.3 Kết luận chương 66 Tài liệu tham khảo 68 MỞ ĐẦU Lí chọn đề tài Lý thuyết nghiệm nhớt phương trình Hamilton- Jacobi cấp đề xuất M.Crandall P.L Lions từ năm đầu thập kỷ 80 (xem [7], [3]), mà động lực để nghiên cứu phương trình Hamilton - Jacobi - Bellman Nó xuất cách tiếp cận quy hoạch động toán điều khiển tối ưu tất định Cho đến lý thuyết nghiệm nhớt mở rộng cho lớp phương trình elliptic - parabolic suy biến cấp hai (xem [6]) ứng dụng nhiều lĩnh vực khác nhau, đặc biệt lý thuyết điều khiển tối ưu lý thuyết trò chơi vi phân (xem [4],[5]) Để nâng cao hiểu biết loại nghiệm suy rộng chọn đề tài ”Ứng dụng nghiệm nhớt lý thuyết điều khiển tối ưu lý thuyết trò chơi vi phân" Mục đích nghiên cứu Nghiên cứu khái niệm nghiệm nhớt phương trình đạo hàm riêng, tính chất ứng dụng chúng lý thuyết điều khiển tối ưu đặc biệt lý thuyết trò chơi vi phân Nhiệm vụ nghiên cứu • Tìm hiểu nghiệm nhớt phương trình đạo hàm riêng cấp • Tìm hiểu lý thuyết điều khiển tối ưu tất định, đặc biệt cách tiếp cận quy hoạch động • Tìm hiểu lý thuyết trò chơi vi phân • Tìm ứng dụng nghiệm nhớt lý thuyết điều khiển tối ưu lý thuyết trò chơi vi phân Đối tượng phạm vi nghiên cứu • Nghiên cứu nghiệm nhớt lớp phương trình Hamilton - Jacobi Bellman bao gồm khái niệm, tính chất; cách tiếp cận quy hoạch động toán điều khiển tối ưu tất định • Lý thuyết trò chơi vi phân mối quan hệ đối tượng Phương pháp nghiên cứu • Nghiên cứu tài liệu tham khảo • Tổng hợp, phân tích, hệ thống lại khái niệm, tính chất • Hỏi ý kiến chuyên gia Những đóng góp đề tài Đề tài trình bày cách tổng quan ứng dụng nghiệm nhớt lý thuyết điều khiển tối ưu tất định lý thuyết trò chơi vi phân Chương Một số kiến thức chuẩn bị 1.1 1.1.1 Về lý thuyết điều khiển tối ưu Hệ điều khiển Trước hết ta trình bày số khái niệm kết cần thiết hệ phương trình vi phân phi tuyến mà muốn điều khiển Ta giả thiết rằng: hàm f (x, a) với x ∈ RN , a ∈ A (tương ứng gọi biến trạng thái biến điều khiển), thỏa mãn giả thiết sau: A không gian tô pô, f : RN × A → RN hàm liên tục; (A0) f bị chặn B(0, R) × A, với R > 0; (A1) (tính bị chặn địa phương f theo biến điều khiển a)   tồn mô đun địa phương ωf cho |f (y, a) − f (x, a)| ≤ ωf (|x − y|, R),   với x, y ∈ B(0, R) R > 0, (A2) (tính liên tục địa phương f, theo biến điều khiển a), mô đun địa phương hàm ω : R+ × R+ → R+ cho với R > 0, ω(., R) liên tục, không giảm ω(0, R) = Ta chủ yếu quan tâm tới trường hợp A ⊂ RM tập compac Khi (A1) (A2) hệ (A0) Ta giả thiết (f (x, a) − f (y, a)).(x − y) ≤ L|x − y|2 , ∀x, y ∈ RN , a ∈ A; (A3) tức là, tồn số L ∈ R cho f (x, a) − LI, với I toán tử đồng nhất, ánh xạ đơn điệu (không tăng) với a Trong luận văn ta xét trường hợp f liên tục Lipschitz toàn cục theo biến trạng thái, tức |f (x, a) − f (y, a)| ≤ L |x − y| , ∀x, y ∈ RN , a ∈ A Khi đó, tự nhiên f thỏa mãn (A3) (A2) Chúng ta quan tâm tới nghiệm (hay quỹ đạo) hệ phi tuyến y (t) = f (y(t), a(t)), t > 0, y(0) = x (1.1) với hàm điều khiển a(.) (gọi điều khiển lặp mở (open loop), không phụ thuộc vào biến trạng thái) thuộc tập tất điều khiển: A := {α : [0; +∞) → A đo được} (về hàm đo tính chất liên quan xem [2]) Kí hiệu yx (., a) = yx (.) nghiệm (1.1) ứng với điều khiển a, theo nghĩa yx (., a) nghiệm phương trình tích phân t y(t) = x + f (y(s), a(s))ds, t > 0 Như yx (., a) hàm liên tục tuyệt đối tập compac [0, +∞) thỏa mãn (1.1) hầu khắp nơi Các định lý sau tồn nghiệm tính chất nghiệm phương trình tích phân: t y(t) = x + f (y(s), a(s))ds (1.2) t0 Định lý 1.1.1 [Sự tồn quỹ đạo địa phương, [4], Định lý 5.4] Giả sử ta có giả thiết (A0), (A1), x ∈ RN cố định đặt K = Kx := sup{|f (z, a)| : |z − x| ≤ 1, a ∈ A} Khi với t0 ∈ R, a ∈ A tồn nghiệm liên tục Lipschitz y (1.2) [t0 , t0 + 1/K] Hơn |y(t) − x| ≤ K(t − t0 ), ∀t Định lý 1.1.2 [Sự tồn quỹ đạo toàn cục, [4], Định lý 5.5] Giả sử ta có giả thiết (A0), (A1) (A3) Khi với t0 ∈ R, x ∈ RN , a ∈ A tồn nghiệm yx : [0, +∞) → RN (1.2) thỏa mãn 2K(t − t0 ))eK(t−t0 ) , ∀t > t0 , |yx (t)| ≤ (|x| + K := L + supα∈A |f (0, α)| Nếu yz nghiệm thỏa mãn điều kiện ban đầu yz (t0 ) = z |yx (t) − yz (t)| ≤ eL(t−t0 ) |x − z|, ∀t ≥ t0 Hơn nữa, ta có |yx (t) − x| ≤ sup|f (x, α)|(eLt − 1) L α∈A Để xét tính khả vi nghiệm (1.1) theo điều kiện ban đầu x, ta nhớ lại rằng: ma trận nghiệm M (s, t) hệ phương trình vi phân tuyến tính ξ (t) = A(t)ξ(t), t ∈ [t0 , t1 ] (1.3) nghiệm phương trình tích phân s M (s, t) = I + A(τ )M (τ, t)dτ, s, t ∈ [t0 , t1 ], t t → A(t) ánh xạ đo được, bị chặn từ [t0 , t1 ] vào tập ma trận vuông cấp N, I ma trận đơn vị cấp N Hơn nữa, cột thứ i, mi M (., t0 ), tức mi (s) = M (s, t0 )ei nghiệm (1.3) với kiện ban đầu ξ(t0 ) = ei , tức thỏa mãn s mi (s) = ei + A(τ )mi (τ )dτ, s ∈ [t0 , t1 ] t0 Xét hệ phương trình vi phân thường y (t) = F (y(t), t), y(t0 ) = x t ∈ (t0 , t1 ), với hàm F : RN × [t0 , t1 ] → RN bị chặn tập compac (1.4) 10 • với x, hàm t → F (x, t) đo được; • với t, hàm x → F (x, t) khả vi liên tục, ma trận Jacobi Dx F bị chặn K × [t0 , t1 ] với tập compac K ⊂ RN Nghiệm (1.4) hiểu theo nghĩa tích phân thông thường ký hiệu S(t, t0 , x) = y(t) Khi ta có Định lý 1.1.3 [[4], Định lý 5.8] Với giả thiết nêu trên, gọi yˆ(.) = S(., t0 , x0 ) nghiệm (1.4) với điểm ban đầu x = x0 Khi với t ∈ [t0 , t1 ], ánh xạ x → S(t, t0 , x) khả vi liên tục lân cận x0 Hơn nữa, ma trận Jacobi x0 Dx S(t, t0 , x0 ) = M (t, t0 ), M (., ) ma trận hệ phương trình tuyến tính ξ (t) = Dx F (ˆ y (t), t)ξ(t) Kết cho ta tính khả vi quỹ đạo hệ (1.1), tức nghiệm (1.3) theo vị trí ban đầu với điều khiển a ∈ A cố định, tức tính khả vi ánh xạ x → yx (t, a) giả thiết (A0)-(A3) thêm điều kiện x → f (x, a) khả vi liên tục với a ∈ A có ma trận Jacobi bị chặn tập compac (tức là, ωf (r, R) = LR r (A2)) 54 Bây định nghĩa A-giá trị liên hệ ngược vA (x) := inf sup J(x, ζ, b) ζ∈F b(.)∈B B-giá trị liên hệ ngược vB (x) := sup inf J(x, a, ξ), ξ∈G a(.)∈A chúng trùng ta gọi vA (x) = vB (x) giá trị liên hệ ngược trò chơi Nhận xét 2.2.5 Ta có V ≤ vA vB ≤ U Nguyên lý quy hoạch động với trò chơi với chiến lược có liên hệ ngược Định lý 2.2.6 (Nguyên lý quy hoạch động) Với x ∈ / T s > nhỏ s e−t dt + vA (yx (s, ζ, b))e−s , vA (x) := inf sup ζ∈F b(.)∈B s e−t dt + vB (yx (s, a, ξ))e−s vB (x) := sup inf ξ∈G a(.)∈A Từ nguyên lý quy hoạch động ta có kết sau: Hệ 2.2.7 Giả sử vA vB hàm liên tục Khi chúng tương ứng nghiệm (2.8) nghiệm (2.9) Kết đủ để chứng minh tồn giá trị liên hệ ngược với điều kiện Isaacs (2.10) nhờ nguyên lý so sánh nghiệm toán Dirichlet (2.8) Định lý 2.2.8 Nếu vA vB hàm liên tục V ≤ vA ≤ U, V ≤ vB ≤ U, ˆ vA = vB = V = U Nói riêng: H = H 55 2.2.2 Ứng dụng nghiệm nhớt để xây dựng phản hồi tối ưu Trong mục quay trở lại vấn đề xây dựng phản hồi tối ưu Đó bước quan trọng phương pháp quy hoạch động ứng dụng Trong Mục 2.1 cách để xây dựng phản hồi tối ưu đa trị từ kiến thức hàm giá trị, hàm giá trị đủ quy, tức hàm giá trị liên tục Lipschitz Tuy nhiên thực tế hàm giá trị biết dạng không hi vọng tính cách xác hàm giá trị hệ phi tuyến nói chung Trong mục cách mà lý thuyết nghiệm nhớt dùng để chứng tỏ hội tụ lược đồ xấp xỉ trường hợp tổng quát Phương pháp minh họa Mục 2.2.3 với lược đồ bán rời rạc đơn giản dựa quy hoạch động cho hệ với thời gian rời rạc Một đặc điểm quan trọng lược đồ tính toán đồng thời hàm giá trị phản hồi tối ưu Vì sử dụng để giải toán điều khiển tối ưu số mà không cần lý thuyết giả thiết Mục 2.1 Có hai khái niệm quan trọng đưa sau là: khái niệm điều kiện biên Dirichlet khái niệm nửa giới hạn theo nghĩa yếu mà thường gọi giới hạn yếu theo nghĩa nhớt Xét toán biên Dirichlet với điều kiện biên theo nghĩa nhớt sau đây: F (x, u, Du) = u = g F (x, u, Du) = Ω, ∂Ω (2.12) Ω ⊆ RN mở F : Ω × R × RN → R liên tục Định nghĩa nghiệm toán biên sau: Định nghĩa 2.2.9 Một hàm U ∈ U SC(Ω) nghiệm nhớt (2.12) nghiệm nhớt phương trình F (x, u, Du) = Ω thỏa mãn điều kiện biên theo nghĩa: với φ ∈ C (Ω), với 56 điểm cực đại địa phương x ∈ ∂Ω u − φ ta có: min{u(x) − g(x), F (x, u(x), Dφ(x))} ≤ (2.13) Một hàm U ∈ LSC(Ω) nghiệm nhớt (2.12) nghiệm nhớt phương trình F (x, u, Du) = Ω, thỏa mãn điều kiện biên theo nghĩa: với φ ∈ C (Ω), với điểm cực tiểu địa phương x ∈ ∂Ω u − φ ta có: max{u(x) − g(x), F (x, u(x), Dφ(x))} ≥ (2.14) Tính chất quan trọng toán biên (2.12) tính ổn định phép toán giới hạn yếu định nghĩa sau Định nghĩa 2.2.10 Giới hạn yếu dãy un : Ω → R u(x) := lim sup ∗ un (x) n→∞ = lim sup un (y) : n ≥ j, y ∈ Ω, |y − x| ≤ j→∞ , j giới hạn yếu u(x) := lim inf ∗ un (x) n→∞ = lim inf un (y) : n ≥ j, y ∈ Ω, |y − x| ≤ j→∞ , j Đây phát biểu cụ thể tính chất ổn định (2.12) Mệnh đề 2.2.11 Nếu un nghiệm (tương ứng: nghiệm trên) (2.12) giới hạn yếu u (tương ứng: giới hạn yếu u ) nghiệm (tương ứng: nghiệm trên) (2.12) Bài toán biên (2.12) thực tế ổn định nhiễu phương trình (2.12), trí nhiễu kì dị việc quy hóa phương pháp triệt tiêu độ nhớt Kết coi ví dụ giải thích cho tên mà ta đưa cho điều kiện biên 57 Mệnh đề 2.2.12 Cho un nghiệm cổ điển toán Dirichlet − n1 ∆un + Fn (x, un , Dun ) = Ω un = g ∂Ω (2.15) với g ∈ C(∂Ω) giả sử Fn hội tụ đến F tập compact với số C ta có: sup |un | ≤ C ∀n (2.16) Ω Thế giới hạn yếu u un nghiệm (2.12) giới hạn yếu u nghiệm (2.12) Các chứng minh Mệnh đề 2.2.11 2.2.12 suy cách dễ dàng từ định nghĩa nghiệm nhớt nhờ bổ đề sau Bổ đề 2.2.13 Cho φ ∈ C (Ω) u = lim sup∗ un với un nửa liên n→∞ tục Nếu un − φ đạt cực đại ngặt x ∈ Ω tồn dãy {nk } cho unk − φ có cực đại địa phương xnk với limxnk = x, k limunk (xnk ) = u(x) k (2.17) Cho φ ∈ C (Ω) u = lim inf ∗ un với un nửa liên tục Nếu n→∞ un − φ đạt cực tiểu ngặt x ∈ Ω tồn dãy {nk } cho unk − φ có cực tiểu địa phương xnk với limxnk = x, k limunk (xnk ) = u(x) k (2.18) Chứng minh Mệnh đề 2.2.12: Theo (2.16) hai giới hạn yếu hữu hạn khắp nơi Gọi φ ∈ C (Ω) x ∈ Ω điểm cực đại u − φ Chúng ta xét trường hợp x ∈ ∂Ω, trường hợp x ∈ / ∂Ω tương tự dễ Bằng cách cộng vào φ biểu thức toàn phương giả thiết x giá trị cực đại ngặt u − φ Chúng ta xét dãy cực đại địa phương un − φ xác định Bổ đề 2.2.13 kí hiệu lại {xn } 58 Trường hợp (a): có dãy {xn } nằm ∂Ω, từ điều kiện biên (2.15) có un (xn ) = g(xn ) nên theo (2.17) ta có u(x) = g(x) (2.13) thỏa mãn u = u Trường hợp (b): trường hợp (a) không xảy ra, tức có dãy {xn } nằm Ω, D(un − φ)(xn ) = 0, ∆(un − φ)(xn ) ≤ Từ phương trình đạo hàm riêng (2.15) nhận − ∆φ(xn ) + Fn (xn , un (xn ), Dφ(xn )) ≤ n cho n → ∞ ta nhận F (x, u(x), Dφ(x)) ≤ Vậy ta có (2.13) với u = u Chứng minh cho u làm tương tự Lập luận chứng minh dùng cách dễ dàng để chứng minh phát biểu sau bao gồm Mệnh đề 2.2.11 Mệnh đề 2.2.12 trường hợp đặc biệt Mệnh đề 2.2.14 [xem [6]] Cho un nghiệm nhớt Fn (x, u, Du, D2 u) = Ω u = g Fn (x, u, Du, D2 u) = ∂Ω (2.19) Fn : Ω × R × RN × S(N ) → R S(N ) tập ma trận thực đối xứng N × N Định nghĩa nghiệm nhớt phương trình cấp hai tương tự Định nghĩa 1.3.1 Giả sử g ∈ C(∂Ω), Fn → F hội 59 tụ tập compact, F liên tục thỏa mãn (2.16) Thế u = lim sup∗ un nghiệm n→∞ F (x, u, Du, D2 u) = Ω u = g F (x, u, Du, D2 u) = ∂Ω (2.20) Tính chất ổn định (2.12) giới hạn yếu đặc biệt hữu ích với định lý so sánh nghiệm cho toán biên (2.12) sau Định lý 2.2.15 Cho u1 ∈ U SC(Ω) u2 ∈ LSC(Ω) tương ứng nghiệm nghiệm phương trình u + H(x, Du) = Ω H thỏa mãn (2.1) Ω tập mở, bị chặn với biên Lipschitz Nếu u1 liên tục điểm ∂Ω u2 thỏa mãn u2 ≥ u1 u2 + H(x, Du2 ) ≥ ∂Ω theo nghĩa nhớt, u1 ≤ u2 Ω Kết luận hoàn toàn cho u2 u2 liên tục điểm thuộc ∂Ω u1 ≤ u2 u1 + H(x, Du1 ) ≤ ∂Ω Dễ dàng kết hợp Mệnh đề 2.2.12 với Định lý 2.2.15 để nhận kết hội tụ sau toán triệt tiêu độ nhớt (2.15) Hệ 2.2.16 Dưới giả thiết Mệnh đề 2.2.12 giả sử thêm F (x, r, p) = r + H(x, p) với H thỏa mãn (2.1), Ω bị chặn với biên Lipschitz Nếu tồn nghiệm v ∈ C(Ω) v + H(x.Du) = Ω v=g ∂Ω un hội tụ đến v (2.21) 60 Chứng minh Từ Mệnh đề 2.2.12 , u = lim inf ∗ un nghiệm n→∞ (2.12), (2.21) khẳng định thứ Định lý 2.2.15 cho ta v ≤ u Tương tự, khẳng định cuối Định lý 2.2.15 cho ta u ≤ v Từ u = u = v, không khó để un hội tụ đến v Lưu ý định lý hội tụ giả thiết tính compact yếu Cụ thể chuyển qua giới hạn toán nhiễu kì dị cho phương trình phi tuyến đầy đủ với điều kiện đánh giá tiên nghiệm xấp xỉ un theo chuẩn L∞ (thực tế cần đánh giá theo chuẩn địa phương đủ) 61 2.2.3 Sự hội tụ lược đồ xấp xỉ bán rời rạc Chúng ta xét lược đồ Euler với bước h > hệ động lực điều khiển hai người chơi (1.13) sau yn+1 = yn + h.f (yn , an , bn ) y0 = x (DS) a := {an } ∈ AN , b := {bn } ∈ B N Chúng ta gọi (DS) hệ động lực với thời gian rời rạc ta xét toán chiết khấu thời gian tối thiểu nêu Mục 1.2 Chi phí trò chơi với thời gian rời rạc cho Jh (x, a, b) := − e−h.nh (x,a,b) nh (x, a, b) := min{n ∈ N : yn ∈ T , y nghiệm (DS)} T tập đích Chú ý mong h.nh (x, a, b) xấp xỉ cho tx (a, b) h nhỏ, a(t) := a[t/h] , b(t) := b[t/h] ([s] kí hiệu phần nguyên s) Chúng ta xét trò chơi làm non thời gian nh người chơi thứ chọn an biết lựa chọn tới bn người chơi thứ hai Giá trị trò chơi Vh (x) := inf supJh (x, α[b ], b ), α∈Λ b Λ tập chiến lược rời rạc không định trước người chơi thứ Λ := {α : B N → AN |bj = ˆbj với j ≤ n ⇒ α[b ]j = α[ˆb ]j với j ≤ n} Trò chơi làm trội định nghĩa cách cho lợi thông tin người chơi thứ hai thay cho người chơi thứ giá trị trò chơi Uh (x) := supinf Jh (x, a , β[a ]), β∈Γ a Γ tập chiến lược rời rạc không định trước người chơi thứ hai Nguyên lý quy hoạch động trò chơi làm non sau 62 Mệnh đề 2.2.17 Với hàm u : RN → R ta định nghĩa Su(x) := sup inf e−h u(x + hf (x, a, b)) + − e−h b∈B a∈A Khi vh (x) = Svh (x) ∀x ∈ / T (2.22) Phương trình (2.22) đóng vai trò phương trình Isaacs cho trò chơi làm non với thời gian rời rạc Tương tự có phương trình hàm giá trị uh trò chơi làm trội Kết mô tả vh nghiệm (2.22) tập B0 (RN ) = {u : RN → R bị chặn u = T } Bổ đề 2.2.18 Ánh xạ S : B0 (RN ) → B0 (RN ) ánh xạ co bảo tồn thứ tự Đặc biệt vh điểm bất động S B0 (RN ) Kết cuối trò chơi với thời gian rời rạc cho thấy ta xây dựng chiến lược phản hồi tối ưu cho người chơi thứ điều khiển tối ưu cho người chơi thứ hai từ hiểu biết hàm giá trị vh cách giải toán hữu hạn chiều sau với y ∈ RN maxminvh (y + hf (y, a, b)) b∈B a∈A Mệnh đề 2.2.19 Cho F : RN × B → A cho F (y, b) ∈ argminvh (y + hf (y, a, b)) a∈A Với dãy b ∈ B N x ∈ RN xét dãy {zn [b]} RN xác định zn+1 = zn + hf (zn , F (zn , ¯bn ), ¯bn ), z0 = x, (2.23) gọi α∗ [b]n := F (zn , bn ) Khi α∗ ∈ Λ tối ưu điểm ban đầu x, tức vh (x) = supJh (x, α∗ [b], b) b 63 Hơn ∗ ∗ vh (x) = Jh (x, α∗ [b ], b ) ∗ ∗ với b ∈ B N cho ¯b∗n ∈ G(zn [b ]), G(y) := argmax minvh (y + hf (y, a, b)) b∈B a∈A Định lý 2.2.20 Giả sử ta có giả thiết Mục 1.2 Ω := RN \ T bị chặn với biên Lipschitz Nếu hàm giá trị V (tương ứng: hàm giá trị U ) trò chơi vi phân liên tục vh hội tụ đến V (tương ứng: uh hội tụ đến U ) h → Từ Định lý 2.2.20 Hệ 2.2.3 ta có định nghĩa tương đương cho giá trị trò chơi sau w(x) := limvh (x) = limuh (x) h→0 h→0 (2.24) Hệ 2.2.21 Giả sử có tất giả thiết Định lý 2.2.20 điều kiện Isaacs (2.10) Khi hai giới hạn (2.24) w = U = V Phác họa chứng minh Định lý 2.2.20 Chứng minh dựa ý tưởng mô tả mục 2.2.2 Chúng ta xét giới hạn yếu vh v(x) := lim sup ∗ vh (x) h→0 = lim sup vh (y) : < h < δ, y ∈ Ω, |y − x| < δ , δ→0 v(x) := lim inf ∗ vh (x) h→0 = lim inf vh (y) : < h < δ, y ∈ Ω, |y − x| < δ δ→0 Chú ý ≤ vh ≤ nên ≤ v ≤ v ≤ Ta chứng minh v v tương ứng nghiệm nghiệm u + H(x, Du) = Ω u = u + H(x, Du) = ∂Ω, (2.25) 64 theo nghĩa Định nghĩa 2.2.9, H(x, p) = minmax{−f (x, a, b).p} b∈B a∈A Tương tự chứng minh Hệ 2.2.16: Vì V nghiệm (2.25) (Định lý 2.2.1) V = ∂Ω, nên theo Định lý so sánh 2.2.15 ta có v ≤ V ≤ v Vì từ v = V = v ta có v, v tương ứng nghiệm dưới, nghiệm (2.25) Tiếp theo ta chứng minh vh → v Ω trường hợp đơn giản hơn, toán tìm thời gian tối thiểu chiết khấu Chứng minh cho toán có chiết khấu giống toán chiết khấu, tính toán dài Hàm giá trị wh toán thời gian rời rạc chiết khấu thỏa mãn Nguyên lý quy hoạch động sau wh (x) = sup inf wh (x + hf (x, a, b)) + h (2.26) b∈B a∈A chứng minh giới hạn yếu w = lim sup∗ wh h→0 nghiệm H(x, Du) = Ω (2.27) Lấy ϕ ∈ C (Ω) cho x ∈ Ω điểm cực đại ngặt w − ϕ (trường hợp x ∈ ∂Ω sử lý tương tự chứng minh Mệnh đề 2.2.12) Giả sử đơn giản wh nửa liên tục trên, áp dụng Bổ đề 2.2.13 (nếu không nửa liên tục ta thay wh bao nửa liên tục nó) Khi tồn hn → xn → x cho whn − ϕ có cực đại xn Chúng ta kí hiệu yn := xn + hn f (xn , a, b), wn := whn Từ (2.26) tính chất xn ta nhận ϕ(xn ) − ϕ(yn ) wn (xn ) − wn (yn ) ≤ inf sup ≤ b∈B a∈A b∈B a∈A hn hn inf sup 65 Từ tính khả vi ϕ nhận inf sup {Dϕ(xn ).f (xn , a, b) + o(hn )} ≤ b∈B a∈A Cuối cho n → ∞ ta nhận H(x, Dϕ(x)) ≤ 1, chứng tỏ w nghiệm (2.27) Một cách tự nhiên có câu hỏi: liệu phản hồi tối ưu với toán thời gian rời rạc xây dựng Mệnh đề 2.2.19 có gần với phản hồi tối ưu trò chơi vi phân ban đầu hay không, có hội tụ tới điều khiển tối ưu trò chơi hay không Đã có số câu trả lời toán thời gian vô hạn người chơi giả thiết thích hợp Chẳng hạn, giả sử cho ah ∈ AN điều khiển tối ưu toán với thời gian hữu hạn rời rạc với bước h > điểm ban đầu x, tức vh (x) = Jh (x, ah ), mở rộng xét điều khiển khúc ah (.) ∈ A cách tự nhiên ah (t) := ah[t/h] Khi ah (.) dãy cực tiểu hóa toán thời gian liên tục, tức limJ(x, ah (.)) = v(x) h→0 Hơn có dãy hn → cho [0, T ], ahn (.) hội tụ yếu∗ L∞ đến ”điều khiển tối ưu” a∗ (.) quỹ đạo tương ứng yx (., ahn ) hội tụ đến yx (., a∗ ) với T > 66 2.3 Kết luận chương Chương trình bày ứng dụng nghiệm nhớt lý thuyết điều khiển tối ưu lý thuyết trò chơi vi phân Đối với lý thuyết điều khiển tối ưu, đưa ứng dụng nghiệm nhớt việc khắc phục khó khăn phương pháp quy hoạch động cổ điển, đặc trưng hóa hàm giá trị nghiệm nhớt toán biên thích hợp Đưa điều kiện cần đủ để tồn điều khiển tối ưu Đối với lý thuyết trò chơi vi phân, giới thiệu ứng dụng nghiệm nhớt để xây dựng phản hồi tối ưu Đây bước quan trọng phương pháp quy hoạch động ứng dụng Đã xây dựng phản hồi tối ưu cho người chơi hệ động lực điều khiển hai người chơi KẾT LUẬN Luận văn trình bày kiến thức nghiệm nhớt phương trình Hamilton- Jacobi, lý thuyết điều khiển tối ưu, lý thuyết trò chơi vi phân ứng dụng nghiệm nhớt lý thuyết điều khiển tối ưu lý thuyết trò chơi vi phân Trên sở xây dựng kiến thức chuẩn bị, cố gắng đưa ứng dụng nghiệm nhớt lý thuyết điều khiển tối ưu đặc biệt lý thuyết trò chơi vi phân Luận văn dừng toán mà phương trình quy hoạch động phương trình đạo hàm riêng phi tuyến cấp (cụ thể phương trình HamiltonJacobi-Benman).Trong tình cụ thể thường lấy toán chiết khấu thời gian tối thiểu làm toán mẫu Với phạm vi luận văn thời gian khả hạn chế, việc đưa ứng dụng nghiệm nhớt dừng việc giới thiệu lý thuyết Việc giải toán đặt thực tế, khoa học cần nghiên cứu sâu Tài liệu tham khảo [1] Nguyễn Hữu Dư (2005), Điều khiển tối ưu hệ tất định ngẫu nhiên, NXB ĐHQG Hà Nội [2] Hoàng Tụy (2005), Hàm thực giải tích hàm, NXB ĐHQG Hà Nội [3] Trần Đức Vân (2005), Lý thuyết phương trình vi phân đạo hàm riêng, NXB ĐHQG Hà Nội [4] M Bardi, I Capuzzo-Dolcetta (1997), Optimal control and viscosity solutions of Hamilton-Jacobi-Bellman equations, Birkh¨auser, Boston, Basel, Berlin [5] I Capuzzo-Dolcetta, P L Lions (1997), Viscosity solutions and applications (Montecatini, 1995), volume 1660 of Lecture notes in mathematics, Berlin, Springer [6] M.G Crandall, H Ishii and P.L Lions (1992), User’s Guide to Viscosity Solutions of Second Order Partial Differential Equations, Bull A.M.S., 27, 1-67 [7] M.G Crandall and P.L Lions (1983), Viscosity solutions of Hamilton-Jacobi equations, Trans Amer Math Soc., 277, 1-42

Ngày đăng: 05/11/2016, 22:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan