Giáo trình hướng dẫn tạo chuỗi dùng phương thức Tostring sử dụng biểu thức quy tắc qua lớp regex p4 ppsx

5 169 0
Giáo trình hướng dẫn tạo chuỗi dùng phương thức Tostring sử dụng biểu thức quy tắc qua lớp regex p4 ppsx

Đang tải... (xem toàn văn)

Thông tin tài liệu

Ngôn Ngữ Lập Trình C# { // tạo các chuỗi để làm việc string s1 = “Mot, hai, ba Trung Tam Dao Tao CNTT”; // tạo ra hằng ký tự khoảng trắng và dấu phẩy const char Space = ‘ ‘; const char Comma = ‘,’; // tạo ra mảng phân cách char[] delimiters = new char[] { Space, Comma }; string output = “”; int ctr = 1; // thực hiện việc chia một chuỗi dùng vòng lặp // đưa kết quả vào mảng các chuỗi foreach ( string subString in s1.Split(delimiters) ) { output += ctr++; output += “: ”; output += subString; output += “\n”; }// end foreach Console.WriteLine( output ); }// end Main }// end class } // end namespace  Kết quả: 1: Mot 2: 3: hai 4: 5: ba 6: Trung 7: Tam 8: Dao 9: Tao Xử Lý Chuỗi 288 Ngôn Ngữ Lập Trình C# 10: CNTT Đoạn chương trình bắt đầu bằng việc tạo một chuỗi để minh họa việc phân tích: string s1 = “Mot, hai, ba Trung Tam Dao Tao CNTT”; Hai ký tự khoảng trắng và dấu phẩy được dùng làm các ký tự phân cách. Sau đó phương thức Split() được gọi trong chuỗi này, và truyền kết quả vào mỗi vòng lặp: foreach ( string subString in s1.Split(delimiters) ) Chuỗi output chứa các chuỗi kết quả được khởi tạo là chuỗi rỗng. Ở đây chúng ta tạo ra chuỗi output bằng bốn bước. Đầu tiên là nối giá trị của biến đếm ctr, tiếp theo là thêm dấu hai chấm, rồi đưa chuỗi được chia ra từ chuỗi ban đầu, và cuối cùng là thêm ký tự qua dòng mới. Và bốn bước trên cứ được lặp đến khi nào chuỗi không còn chia ra được. Có một vấn đề cần nói là kiểu dữ liệu string không được thiết kế cho việc thêm vào một chuỗi định dạng sẵn để tạo ra một chuỗi mới trong mỗi vòng lặp trên, nên chúng ta mới phải thêm vào từng ký tự như vậy. Một lớp StringBuilder được tạo ra để phục vụ cho nhu cầu thao tác chuỗi tốt hơn. Thao tác trên chuỗi dùng StringBuilder Lớp StringBuilder được sử dụng để tạo ra và bổ sung các chuỗi. Hay có thể nói lớp này chính là phần đóng gói của một bộ khởi dựng cho một String. Một số thành viên quan trọng StringBuilder được tóm tắt trong bảng 10.2 như sau: System.StringBuilder Phương thức Ý nghĩa Capacity() Truy cập hay gán một số ký tự mà StringBuilder nắm giữ. Chars() Chỉ mục. Length() Thiết lập hay truy cập chiều dài của chuỗi MaxCapacity() Truy cập dung lượng lớn nhất của StringBuilder Append() Nối một kiểu đối tượng vào cuối của StringBuilder AppendFormat() Thay thế định dạng xác định bằng giá trị được định dạng của một đối tượng. EnsureCapacity() Đảm bảo rằng StringBuilder hiện thời có khả năng tối thiểu lớn như một giá trị xác định. Insert() Chèn một đối tượng vào một vị trí xác định Replace() Thay thế tất cả thể hiện của một ký tự xác định với những ký tự mới. Bảng 10.2 Phương thức của lớp StringBuilder Xử Lý Chuỗi 289 Ngôn Ngữ Lập Trình C# Không giống như String, StringBuilder thì dễ thay đổi. Khi chúng ta bổ sung một đối tượng StringBuilder thì chúng ta đã làm thay đổi trên giá trị thật của chuỗi, chứ không phải trên bản sao. Ví dụ minh họa 10.4 thay thế đối tượng String bằng một đối tượng StringBuilder.  Ví dụ minh họa 10.4 : Sử dụng chuỗi StringBuilder. namespace Programming_CSharp { using System; using System.Text; public class StringTester { static void Main() { // khởi tạo chuỗi để sử dụng string s1 = “Mot, hai, ba Trung Tam Dao Tao CNTT”; // tạo ra hằng ký tự khoảng trắng và dấu phẩy const char Space = ‘ ‘; const char Comma = ‘,’; // tạo ra mảng phân cách char[] delimiters = new char[] { Space, Comma }; // sử dụng StringBuilder để tạo chuỗi output StringBuilder output = new StringBuilder(); int ctr = 1; // chia chuỗi và dùng vòng lặp để đưa kết quả vào // mảng các chuỗi foreach ( string subString in s1.Split(delimiters) ) { // AppendFormat nối một chuỗi được định dạng output.AppendFormat(“{0}: {1}\n”, ctr++, subString); }// end foreach Console.WriteLine( output ); } } } Xử Lý Chuỗi 290 Ngôn Ngữ Lập Trình C# Chúng ta chỉ thay phần cuối của đoạn chương trình 10.3. Rõ ràng việc sử dụng StringBuilder thuận tiện hơn là việc sử dụng các toán tử bổ sung trong chuỗi. Ở đây chúng ta sử dụng phương thức AppendFormat() của StringBuilder để nối thêm một chuỗi được định dạng để tạo ra một chuỗi mới. Điều này quá dễ dàng và khá là hiệu quả. Kết quả chương trình thực hiện cũng tượng tự như ví dụ minh họa 10.3 dùng String: 1: Mot 2: 3: hai 4: 5: ba 6: Trung 7: Tam 8: Dao 9: Tao 10: CNTT Các biểu thức quy tắc (Regular Expression) Biểu thức qui tắc là một ngôn ngữ mạnh dùng để mô tả và thao tác văn bản. Một biểu thức qui tắc thường được áp dụng cho một chuỗi, hay một tập hợp các ký tự. Thông thường một chuỗi là toàn bộ văn bản hay tài liệu. Kết quả của việc áp dụng một biểu thức qui tắc đến một chuỗi là trả về một chuỗi con hoặc là trả về một chuỗi mới có thể được bổ sung từ một vài phần của chuỗi nguyên thủy ban đầu. Chúng ta nên nhớ rằng string là không thể thay đổi được và do đó cũng không thể thay đổi bởi biểu thức qui tắc. Bằng cách áp dụng chính xác biểu thức qui tắc cho chuỗi sau: Mot, hai, ba, Trung Tam Dao Tao CNTT chúng ta có thể trả về bất cứ hay tất cả danh sách các chuỗi con (Mot, hai, ) và có thể tạo ra các phiên bản chuỗi được bổ sung của những chuỗi con (như : TrUng TAM, ). Biểu thức qui tắc này được quyết định bởi cú pháp các ký tự qui tắc của chính bản thân nó. Một biểu thức qui tắc bao gồm hai kiểu ký tự:  Ký tự bình thường (literal): những ký tự này mà chúng ta sử dụng để so khớp với chuỗi ký tự đích.  Metacharacter: là các biểu tượng đặc biệt, có hành động như là các lệnh trong bộ phân tích (parser) của biểu thức. Bộ phân tích là một cơ chế có trách nhiệm hiểu được các biểu thức qui tắc. Ví dụ nếu như chúng ta tạo một biểu thức qui tắc như sau: ^(From|To|Subject|Date): Xử Lý Chuỗi 291 Ngôn Ngữ Lập Trình C# Biểu thức này sẽ so khớp với bất cứ chuỗi con nào với những từ như “From”, “To”, “Subject”, và “Date” miễn là những từ này bắt đầu bằng ký tự dòng mới (^) và kết thúc với dấu hai chấm (:). Ký hiệu dấu mũ (^) trong trường hợp này chỉ ra cho bộ phân tích biểu thức qui tắc rằng chuỗi mà chúng ta muốn tìm kiếm phải bắt đầu từ dòng mới. Trong biểu thức này các ký tự như “(”,”)”, và “|” là các metacharacter dùng để nhóm các chuỗi ký tự bình thường như “From”, “To”,”Subject”, và “Date” và chỉ ra rằng bất cứ sự lựa chọn nào trong số đó đều được so khớp đúng. Ngoài ra ký tự “^” cũng là ký tự metacharacter chỉ ra bắt đầu dòng mới. Tóm lại với chuỗi biểu thức qui tắc như: ^(From|To|Subject|Date): ta có thể phát biểu theo ngôn ngữ tự nhiên như sau: “Phù hợp với bất cứ chuỗi nào bắt đầu bằng một dòng mới được theo sau bởi một trong bốn chữ From, To, Subject, Date và theo sau là ký tự dấu hai chấm”. Việc trình bày đầy đủ về biểu thức quy tắc vượt quá phạm vi của cuốn sách này, do sự đa dạng và khá phức tạp của nó. Tuy nhiên, trong phạm vi trình bày của chương 10 này, chúng ta sẽ được tìm hiểu một số các thao tác phổ biến và hữu dụng của biểu thức quy tắc. Sử dụng biểu thức quy tắc qua lớp Regex MS.NET cung cấp một hướng tiếp cận hướng đối tượng (object- oriented approad) cho biểu thức quy tắc để so khớp, tìm kiếm và thay thế chuỗi. Biểu thức quy tắc của ngôn ngữ C# là được xây dựng từ lớp regexp của ngôn ngữ Perl5. Namspace System.Text.RegularExpressions của thư viện BCL (Base Class Library) chứa đựng tất cả các đối tượng liên quan đến biểu thức quy tắc trong môi trường .NET. Và lớp quan trọng nhất mà biểu thức quy tắc hỗ trợ là Regex. Ta có thể tạo thể hiện của lớp Regex và sử dụng một số phương thức tĩnh trong ví dụ minh họa 10.5.  Ví dụ minh họa 10.5: Sử dụng lớp Regex. namespace Programming_CSharp { using System; using System.Text; using System.Text.RegularExpressions; public class Tester { static void Main() { // khởi tạo chuỗi sử dụng string s1 = “Mot, hai, ba, Trung Tam Dao Tao CNTT”; Xử Lý Chuỗi 292 . phổ biến và hữu dụng của biểu thức quy tắc. Sử dụng biểu thức quy tắc qua lớp Regex MS.NET cung cấp một hướng tiếp cận hướng đối tượng (object- oriented approad) cho biểu thức quy tắc để so khớp,. tượng liên quan đến biểu thức quy tắc trong môi trường .NET. Và lớp quan trọng nhất mà biểu thức quy tắc hỗ trợ là Regex. Ta có thể tạo thể hiện của lớp Regex và sử dụng một số phương thức tĩnh. Tao 10: CNTT Các biểu thức quy tắc (Regular Expression) Biểu thức qui tắc là một ngôn ngữ mạnh dùng để mô tả và thao tác văn bản. Một biểu thức qui tắc thường được áp dụng cho một chuỗi, hay một

Ngày đăng: 26/07/2014, 04:22

Tài liệu cùng người dùng

Tài liệu liên quan