Một phương pháp nhận dạng văn bản tiếng việt nghiên cứu các phép xử lý và nhận dạng văn bản, ứng dụng mô hình markov ẩn trong nhận dạng cấu trúc chữ việt

86 872 1
Một phương pháp nhận dạng văn bản tiếng việt  nghiên cứu các phép xử lý và nhận dạng văn bản, ứng dụng mô hình markov ẩn trong nhận dạng cấu trúc chữ việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẨM Ơ N Vui mừng khi hoàn thành 6ản Cuận văn, tôi kịiông quên công Cao to (ơn của (anfi đạo, của các th ầ y cô g iá o , của g ia đìn h và 6ạn bè ấồng nghiệp. T o i JQU g h i nhận và chân th à nh b iế t on các th ầ y cô g iá o đã quan tâm tẩ cíiứ c c h ỉ đạo và tíiự c hà nh g iả n g dạ y íịíio ả cao Học tíiu ộ c íịíio a Công N g fiê j (Đ ạ i học Quốc g ia J {à N ộ i; (Đặc b iệ t cảm ơn các th ầ y fvuxmg ẩẫn : T s. Luxrng c h i 94a i và T s. N g ô Quốc Tạo, n íiừ rig chuyên g ia g ià u k in íi nghiêm & V iệ n Công nghệ T íiô n g tin , đã (fin fi íiư óng n ghiên cứu và tfie o c íõ ị c íiỉ dẫ n từ ng bước; cảm 071 Ç S tfSTtyC J ỉổ Tủ (Bảo, V iệ n % Ịioa học và Công nghệ tiê n tiê n N íiậ t (Bản, trong th ò i g ia n ngắn n g ủ i ở V iệ t N am củng đã nghe phầ n báo cáo tóm tắ t và cho những ý kịển g ợ i mer qu ý 6áu. ^Tất cả những ngư ời th ầ y đó ng oà i việ c tậ n tu y truyề n th ụ kiến thức, còn íả tấm gưong sáng về những đức tín h cần có tro n g nghiên cứu ^hoa fiọ c. T ô i củng jç in chân th ành 6 iế t 071 íã n íi đạo trư ờ n g (Đ ại học S ư phạm ‘H à N ộ i, mà trự c tiế p íằ (K jio a Toán—T ín Học, củng n hư g ia đình , bạn Sè đổng n ghiệp đã d à nh cho tô i nhiều ưu ả i tro n g s u ố t quá trìn h học tậ p củng n hư tro n g th ò i g ia n thự c hiệ n ấề tà i. T u y n hiê n, (ÍO bản th â n m ói b ắ t đầu trê n con đ ư ò tig nghiên cứu khoa Học đ ầy thách thức, nên chắc chắn 6ản Cuận v ăn còn nhiề u th iế u s ót, 6 ấ t cập mà tô i chưa đủ k ịiả năng nfiâ n tíiâ ỳ Hoặc í t n hiề u n hận th ấ y n íim ig chưa ấ ủ sức vư ợ t qua . cRẠt mong đĩtxỵc các th ầ y cô tiế p tụ c c h í g iáo. J fà N ộ i, th ả n g 12 - 2001 Lẽ CMinfi ĩío à n g Lc Minh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt «£* IV. Kết luận 68 Chương V: Xử lý và nhận dạng văn bản 70 I. Tiền xử lý văn bản 70 II. Tách dòng 73 III. Tách tò 73 IV. Nhận dạng 74 V. Hậu xử lý 74 Kết luận 75 I. Đánh giá tóm tắt kết quả đạt được 75 II. Nhừng vấn đề còn chưa khắc phục được và đề xuất cách giải quyết 76 III. Hướng nghiên cứu tiếp theo của đề tài 78 Phụ lục: Cài đặt thử nghiệm 80 I Các chức năng của hệ thống thử nghiệm 80 11. Một số kết quả thử nghiệm 83 Tài liệu tham khao 85 Luận vãn tốt nghiệp cao học Lê M inh Hoàng Một phương pháp nhận dạng văn ban tiếng Việt SÉ* LỜI NÓI ĐẢU > « P | à từ lâu, nhân loại mơ ước có thể chế tạo ra được các máy móc có một số khả năng của con người, như khả năng nghe, hiểu tiếng nói hay nhìn và nhận định được các vật thề xung quanh. Nhưng mãi tới gần đây khi những tiến bộ công nghệ cho phép cùng với sự phát triển của những lý thuyết trong lĩnh vực xử lý thông tin, mơ ước đó mới đang dần trở thành hiện thực. Chúng ta biết rằng, con người nhận thức được thế giới khách quan bằng các giác quan và tư duy của mình. Hiện nay, chúng ta đã có nhiều thiết bị cảm nhận (sensor) có khả năng thu nhận thông tin của môi hường xung quanh giống với chức năng cua các giác quan con người. Đơn giản như một chiếc micro để có thể thu nhận âm thanh cho đến những chiếc camera có khả năng thu nhận hình ảnh. vấn đề tiếp đó là phải xử lý các thông tin thu được như thế nào. Đối với con người thì quá trình xử lý thông tin là quá trình tư duy dựa trên cơ chế hoạt động của bộ não. Đây là một quá trình rất phức tạp mà cho đến ngày nay, chúng ta mới chỉ nắm bắt được một phần nhỏ cơ chế hoạt động của nó. Có lẽ sẽ chăng bao giờ máy móc mới đạt tới khả năng tư duy của con người, nhưng trong sự nồ lực từng bước của mình, các nhà khoa học đã phân tách các mảng thông tin ra từng phần nhất định và xử lý riêng trong những khuôn khổ đó. Chính sự xử lý riêng biệt này đã tạo ra được những thành công nhất định trong việc tạo ra những hệ thống kỳ thuật có một số năng lực "tư duy" gần với con người. Việc tạo ra các hệ thống có khả năng nhận định thông tin là một trong những hướng nghiên cứu đã có những thành công. Trong các hệ thống này, từ một dạng thông tin thu nhận được, hệ thống sẽ phân tách ra thành các mẫu thông tin riêng biệt, sau đó biểu diễn các mẫu thông tin này, sắp xếp, phân loại chúng, và dùng những kỹ thuật xu lý để nhận ra ý nghĩa của các thông tin đó. Đây chính là tư tưởng chủ đạo của bài toán nhận dạnu mầu (Pattern Recognition). Phạm vi ứng dụng của lý thuyết nhận J Luận văn tôt nghiệp cao học Lô Minh Hoàng Một phương pháp nhận dạng văn bán tiéng Việt «é* dạng mẫu đã được áp dụng cho các lĩnh vực như: Nhận dạng tín hiệu, nhận dạng tiếng nói, nhận dạng ảnh v.v Nhận dạng anh có thể coi là công đoạn cuối cùng của quá trình xử lý ảnh. Rất nhiều lý thuyết và kỹ thuật xử lý ảnh đã được phát triển với mục đích để nhận dạng tốt hơn các đối tượng trong bức ảnh thu được. Kỹ thuật nhận dạng ảnh cơ bản dựa vào việc phân tích và biến đổi các mẫu để rút ra được những đặc trưng của đối tượng cần nhận dạng. Việc gán ý nghĩa cho các lớp mẫu cũng chính là việc nhận dạng được các mẫu sẽ xếp vào lóp đó. Nhận dạng chữ (chữ in và chữ viết tay) là một trong những vấn đề nhận dạng ảnh nhằm mục đích tự động hoá quá trình thu nhận các thông tin dạng chữ. Trên thế giới đà có một số hệ thống nhận dạng chữ viết cỡ lớn có độ chính xác tương đối cao. Ngoài yếu tố bí mật công nghệ, chữ viết của mỗi dân tộc có những đặc thù riêng, đòi hỏi những người con của dân tộc đó phải quan tâm nghiên cứu, khai thác triệt đế các yếu tố đặc thù của tiếng mẹ đẻ nhằm phát triển các hệ thống nhận dạng chữ viết phù hợp. Cách thức thu thập thông tin bằng phương pháp nhận dạng tự động chữ viết mang nhiều ý nghĩa thực tiễn. Có thể kể ra đây một số ứng dụng dựa trên khả năng nhận dạng chữ đã được nghiên cứu và đưa vào sử dụng như: Tự động đọc văn bản chữ in, hệ thống kiểm tra các thông số ghi tiên sản phẩm, hệ thống số liệu hoá bản đồ, hệ thống tự động phân loại các thư từ và bưu kiện, hệ thống thống kê tự động các phiếu điều tra v.v Nghiên cứu vấn đề này, ngay từ đầu tôi đã thấy có nhiều khó khăn, bởi ngay cả với những hệ thống nhận dạng chữ viết cỡ lớn trên thế giới, thành công mới chỉ đạt được trên một số bộ kí tự phổ biến. Mặt khác, chữ viết của dân tộc ta, ngoài các nguyên âm ă, â, ê, ô ơ, ư còn có các dấu thanh đặc trưng. Song vì nhu cầu khám phá đẽ có thêm hiểu biết, sau khi tham khảo một số tài liệu đã được nghiên cứu trong và ngoài nước, tôi mạnh dạn hoàn thành luận văn với đề tài: "Một phương pháp nhận dạng văn bản Tiếng Việt" sử dụng mô hình Markov ấn trong nhận dạng chữ in và Luận văn tốt nghiệp cao học Lê Minh Hoàng <*& Một phương pháp nhận dạng văn bản tiếng Việt SP* chừ viết tay có ràng buộc, với mong muốn trưởng thành hơn trên con đường nghiên cứu khoa học và hiểu rõ hơn ngôn ngữ của dân tộc mình. Luận văn được trình bày cụ thề qua 6 nội dung chính: • Tông quan. • Trình bày cơ sở lý thuyết toán học cho vấn đề cần nghiên cứu • Xây dụng các mô hình nhận dạng cấu trúc chữ Việt • Xây dựng mô hình nhận dạng từ Tiếng Việt • Xử lý văn bản và nhận dạng văn bản • Ket quả cài đặt thử nghiệm Luận văn tôi nghiệp cao học Lê Minh Hoàng Một phương pháp nhặn dạng văn bán tiếng Việt «é* Chương I: TỎNG QUAN I. MỤC ĐÍCH NGHIÊN cứu CỦA ĐÈ TÀI Xử lý ảnh ngày nay đã trở thành một ngành khoa học lớn và có mặt ứong nhiều lĩnh vực của cuộc sống. Điều này hoàn toàn có thể lý giải được từ một định nghĩa đơn giản về ngành khoa học này: Xử lý ảnh là ngành khoa học nghiên cứu các quá trình xử lý thông tin dạng hình ảnhịBí\ mà hình ảnh là một trong những dạng thông tin phong phú nhất đối với chúng ta. Bamera Bcaner Kensor Hình 1: Phân cấp các hoạt dộng của quá trình xử lý ảnh số Khử nhiễu Hiệu chỉnh các đặc tính của ảnh Lưu trữ, hiển thị và truyền dẫn Nhận dạng Luận văn tốt nghiệp cao học Lê Minh Hoàng Một phương pháp nhận dạng văn bàn tiếng Việt SP* Khi quan sát một bức ảnh, ngoài sự cảtn nhận về kích thước và màu sắc thì các đối tượng trong bức ảnh đó cũng mang lại những ý nghĩa nhận thức nào đó cho người quan sát. Vì thế xử lý ảnh không phải chỉ dừng lại ở việc nâng cao chất lượng ảnh, lưu trữ ảnh hay phân tích kết cấu của nó mà còn thêm một bước nữa là tự động nhận dạng các đối tượng trong ảnh để rút ra được các thông tin mà chúng chứa đựng. Nhận dạng ảnh (image recognition) có thể được nhìn nhận một cách đơn giản là việc gán tên cho các đối tượng trong ảnh. Ví dụ đối với nhận dạng chữ viết, các đối tượng trong ảnh cần nhận dạng là các mẫu chừ, ta cần tách riêng các mẫu chữ đó ra và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫu chữ thu được trong ảnh. Đe tài "Một phương pháp nhận dạng văn bản tiếng Việt" thuộc về vấn đề nhận dạng chừ viết (Optical Character Recognition - OCR), với mục đích xây dựng một hệ thống nhận dạng văn bản tiếng Việt sử dụng mô hình Markov ẩn - một kỹ thuật nhận dạng mẫu đă giữ vị trí thống lĩnh trong suốt 15 năm qua. II. MỌT SỐ KHÁI NIỆM ■ ■ II. 1. Mẩu và Ió’p mẫu Người ta mô tả tất cả những vật thể có kích thước vật lý thu nhận được trong thế giới xung quanh bằng các mẫu. Nhận dạng mẫu chính là việc xử lý, mô tả và diễn dịch các mẫu. Các mẫu thường được mô tả bằng tập các thuộc tính đặc trưng của đối tượng. Vì đối tượng ở đây là hình ảnh nên những thuộc tính đó có thể là đặc trưng về đường nét, mảng, khối, màu sắc Tập tất cả các mẫu tạo nên không gian mẫu. Nhờ vào quá trình phân lóp (classification) của bài toán nhận dạng mà các mẫu được nhóm lại thành các lóp mẫu riêng biệt. Mồi lóp mẫu chứa các mẫu đồng dạng với nhau, tính đồng dạng ở đây được xét trên tập các đặc tính biếu diễn mẫu. Mỗi lớp mẫu sẽ được gán một tên, tập các tên gọi của các đối tượng lập thành một không gian diễn dịch và việc nhận Luận văn tỏt nghiệp cao học Lc Minh Hoàng Một phương pháp nhận dạng văn bàn tiếng Việt «é* dạng trở thành quá trình gán một tên trong không gian diễn dịch cho một mẫu cần nhận dạng. II.2. Khoảng cách mẫu và hàm phân biệt Khoang cách là một công cụ tốt đế đánh giá các đối tượng có ở "gần nhau" hay không. Khi khoang cách nhỏ hơn một ngưỡng nào đó thì có thể coi hai đối tượng là đồng dạng với nhau, tức là được xếp vào cùng một lóp. Hàm đo khoáng cách có thể coi là hàm đo mức tương tự. Trong trường hợp ta có một số mẫu chuân đủ lớn đã được phân lớp một cách họp lý thì khi cần nhận dạng một mẫu, ta chỉ cần tìm lóp chuẩn gần với mẫu đó nhất và xếp luôn mẫu đó vào lớp này. Chính vì vậy hàm khoảng cách có ý nghĩa quyết định tới tính chính xác của quá trình nhận dạng. Với khái niệm khoảng cách Iĩiẫu, người ta xây dựng khái niệm hàm phân biệt: Hàm phân biệt là một hàm có đối số là mẫu, dùng đế phân lớp mầu. Mỗi lớp có một hàm phân biệt đặc trưng riêng và hàm này luôn cho giá trị "tốt" hơn đối với các mẫu thuộc lớp của nó. , Luận văn tôt nghiệp cao học Lê Minh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt «£* 11.3. Tiến trình nhận dạng ảnh ảnh Hình 2: Lưu dồ tiến trình nhận dạng ảnh 'r Thu thập dữ liệu (Data Collection): Đây là công đoạn đầu tiên, quyết định nhiều đến kết quả nhận dạng. Việc lựa chọn thiết bị thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đối tượng cần nhận dạng. Ví dụ, nếu đối tượng là chữ viết thì kích cỡ của các chữ sẽ quyết định độ phân giải cần thiết cho camera hay máy quét. Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh. Cuối cùng, ảnh phải được lưu trữ theo một định dạng phù hợp với các bước xử lý sau này. > Tiền xử lý (Preprocessing): Đẻ nâng cao khả năng nhận dạng chính xác, các bước tiền xử lý được yêu cầu với vai trò nâng cao chất lượng ảnh trước khi đem phân tích và nhận dạng. Công việc của bước này thường là khử nhiễu, biến đổi anh và nâng cao một số đặc tính quan trọng của ảnh. Với nhận dạng chữ thì công đoạn này thường thực hiện các công việc như lọc bỏ nhiễu đốm, tăng độ tương phản, làm trơn biên chữ, làm đầy/mảnh chữ v.v Quá trình tiền xử lý thường được thực hiện bởi các bộ lọc Luận văn tôt nghiệp cao học Lê Minh Hoàng «X Một phương pháp nhận dạng văn bàn tiếng Việt Sỉ* 'r Phân đoạn (Segmentation): Quá trinh này sẽ chia ảnh ra các vùng con khác nhau mà trong mồi vùng chứa các thực thế có ý nghĩa cho việc phân lớp. Với nhận dạng chữ, việc phân tách sẽ là xác định các vùng chữ rồi tách ra thành các chữ đơn. r Chuẩn hoá (Normalization): Sự biến đổi là thuộc tính vốn có của mọi đối tượng trong tự nhiên và cũng là sự đa dạng về hình thức của một đối tượng. Câu hỏi chính đặt ra cho bài toán nhận dạng là những biến đổi đó có thế giải quyết như thế nào. Có những đặc trưng của đối tượng là bất biến đối với những tác động bên ngoài nên quá trình trích chọn đặc trưng có thể vẫn hoạt động tốt nhưng cũng có những đặc trưng rất khó nắm bắt được khi đối tượng biến đổi. Chính vì vậy mà bước chuẩn hoá này thường có trong các hệ thống nhận dạng. Nó thực hiện việc giảm bớt những hiệu ứng xấu do ảnh hưởng của những biến đổi. Ví dụ như trong nhận dạng chữ viết tay, các chữ có thể quá nghiêng hoặc bị lệch hàng do bản chụp và bước tiêu chuẩn hoá phải đánh giá được độ nghiêng và xoay chúng lại cho thẳng đứng. Quá ưình tiêu chuẩn hoá này cần được tính toán để những thông tin bị loại bỏ sẽ không ánh hưởng nhiều đến các đặc trưng cần trích chọn. r- Trích chọn đặc trưng (Feature Extraction): Đây chính là bước biểu diễn các mẫu bằng các đặc trưng của đối tượng. Trong quá trình này số liệu ảnh sẽ được thu gọn lại. Điều này hết sức cần thiết vì sẽ giảm nhỏ được dung lượng bộ nhớ cần dùng và thời gian tính toán. Một phương pháp trích chọn đặc trưng tốt nếu như nó duy trì và làm nổi bật được các nét đặc trưng của đối tượng mà những đặc trưng đó sẽ giúp cho việc phân biệt được các lóp mẫu khác nhau, đồng thời nó cũng miễn trừ được những biến đổi do các thiết bị thu nhận ảnh tạo ra. > Phân lóp (Classification): Đây là bước quyết định trong quá ừinh nhận dạng. Tất cả các bước xử lý trước đều nhằm mục đích cho việc phân lớp các mẫu một cách thành công. Quá trình phân lóp có thể hiểu một cách đơn giản là quá trình biến đối các số liệu định lượng ở đầu vào sang các số liệu định tính ở đầu ra . Luận văn tốt nghiệp cao học [...]... đường biên các hình chiếu dưới dạng mã Freeman và sừ dụng mô hình Markov ẩn để nhận dạng đạt độ chính xác 96.7%, đây là một hiệu suất cao trong nhận dạng chữ tượng hình IV ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN c ứ u CỦA ĐÊ TÀI Đề tài này trình bày phương pháp sử dụng mô hình Markov ẩn (Hidden Markov Models - HMM) trong nhận dạng chừ viết tay hạn chế dựa theo cấu trúc biên cua chữ Tư tưởng chính là sử dụng các tiến... pháp khi xử lý những thông tin không chắc chắn hoặc không đầy đủ • Phương pháp nhận dạng từ Việt và các kỹ thuật xử lý văn bản Phạm vi nghiên cứu của đề tài là Tiếng Việt, vì vậy nội dung đề tài chỉ đề cập đến các cách thức xử lý trong nhận dạng chữ và từ Tiếng Việt, những ký hiệu và từ không phải tiếng Việt (Các bộ kí tự tượng hình, Sanskrit, Hy Lạp hay CnobeHufl ) không thuộc phạm vi nghiên cứu của... nhận dạng được thành các từ, các đoạn văn, tái hiện lại văn bản, đồng thời kiểm tra chính tả, ngữ nghĩa từng tò trong văn cảnh đê phát hiện ra lỗi nhận dạng II.4 Chữ viết trực tuyến và ngoại tuyến Các dữ liệu viết tay thường được số hoá bằng cách quét văn bản hoặc bằng cách viết trực tiếp lên các thiết bị cảm nhận Điều này làm nảy sinh hai kiểu tín hiệu vào và hai phương pháp tiếp cận trong nhận dạng chữ. .. «*v Một phương pháp nhận dạng văn bán tiéng Việt S * Ê mẫu|M Phương pháp phân tích cấu trúc thích họp với nhận dạng chừ viết tay, khi onl mà các chữ được viết có thể coi là không theo một khuôn mẫu nào cả a) Phương pháp phân tích đường đơn Năm 1960, Sherman đề xuất cách mô tả cấu trúc chữ bằng các đường mảnh (có thể coi như khung xương của chữ được tạo thành nhờ các thuật toán làm mảnh) Với cách mô. .. phương pháp không có độ chính xác cao, nhưng vẫn được nhiều tài liệu đề cập đến, bởi các hệ thống nhận dạng sử dụng phương pháp này có tốc độ tốt và tận dụng được những ưu điểm của hình chiếu so với bản thân mẫu chữ Phương pháp này đặc biệt hiệu quả trong trường hợp chỉ cần nhận dạng trong một tập hợp nhở các ký hiệu khó gây nên sự nhập nhằng (chẳng hạn như các chữ "Y" và "N", "C" và "K", ) và cho phép một. .. khiến cho hình chiếu không rõ ràng) Mặc dù trong các chừ in tiếng Việt, không có hai ký tự nào giống nhau trên cả 4 loại hình chiếu nhung đối với chữ viết tay, rất có thể 4 loại hình chiếu kể trên là chưa đủ đế phân biệt Luận văn tôt nghiệp cao học Lc Minh Hoàng Một phương pháp nhận dạng văn bần tiếng Việt S5* Việc đưa phương pháp sử dụng hình chiếu vào lớp các phương pháp phân tích cấu trúc là chưa... Hoàng Một phương pháp nhận dạng văn bản tiéng Việt SP* Đầu ra của bộ phân lớp có thể là sự chọn lựa rời rạc một lớp trong số các lóp đã được định nghĩa trước Cũng có thế là một dãy số biểu diễn các giá trị có thể thừa nhận mẫu đó được hỉnh thành từ lớp tương ứng Trong nhận dạng chữ, thuật toán phân lớp chủ yếu được chia thành hai phương pháp chính, đó là phương pháp thống kê (staticstical) và phương pháp. .. đó có nghĩa là: A (n) = A n f -Luận văn tôt nghiệp cao học Một phương pháp nhận dạng văn bản tiéng Việt «£* Le Minh Hoàng III M ô HÌNH XÍCH MARKOV Có nhiều loại mô hình xích Markov: Mô hình kiểm kê, mô hình bình, mô hình phục vụ đám đông v.v Tuy nhiên dưới đây ta chỉ xét tới một ví dụ quan trọng liên quan tới việc xây dựng lý thuyết về mô hình Markov ẩn Trò chơi nhặt bóng (Urns and balls model|R... Mmlì Hoàng Một phương pháp nhận dạng văn bàn tiếng Việt s?» -^3 0 ^ » phái suy diễn từ các tham số của mô hình và bản thân dãy quan sát đó Tức là suy diễn tù những thông tin đã biết và những gì quan sát được để dự đoán gần đúng dãy trạng thái ẩn Đó chính là vấn đề nhận dạng sử dụng HMM Mô hình Markov ẩn rất hữu hiệu đối với những vấn đề dự báo, nhận dạng khi mà phép quan sát được thực hiện trong những... lại tương tự như phương pháp lưới Luận văn tỏt nghiệp cao học Lc M inh Hoàng Một phương pháp nhận dạng văn bản ticng Việt «£* Hình 5: Phương pháp cung d) Phương pháp chia miền và đo mật độ Trong phương pháp này, mỗi ảnh tương ứng với một mẫu chừ được chia thành Iihừng miền tách biệt và trên mỗi miền người ta đo mật độ những vùng thuộc chữ Những số đo này được dùng làm đặc trưng cho mẫu và được dùng làm . nghiên cứu • Xây dụng các mô hình nhận dạng cấu trúc chữ Việt • Xây dựng mô hình nhận dạng từ Tiếng Việt • Xử lý văn bản và nhận dạng văn bản • Ket quả cài đặt thử nghiệm Luận văn tôi nghiệp cao. kê các phiếu điều tra là một ví dụ ứng dụng cho phương pháp sử dụng hình chiếu. Luận văn tốt nghiệp cao học Lê Minh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt Phương pháp sư dụng hình. như phương pháp lưới. Luận văn tỏt nghiệp cao học Lc Minh Hoàng Một phương pháp nhận dạng văn bản ticng Việt «£* Hình 5: Phương pháp cung d) Phương pháp chia miền và đo mật độ Trong phương pháp

Ngày đăng: 08/07/2015, 20:09

Từ khóa liên quan

Mục lục

  • Lời cảm ơn

  • LỜI NÓI ĐẦU

  • I. MỤC ĐÍCH NGHIÊN CỨU CỦA ĐỀ TÀI

  • II. MỘT SỐ KHÁI NIỆM

  • II. 1. Mẫu và lớp mẫu

  • II.2. Khoảng cách mẫu và hàm phân biệt

  • 11.3. Tiến trình nhận dạng ảnh

  • II.4. Chữ viết trực tuyến và ngoại tuyến

  • III. VÀI NÉT LỊCH SỬ VÀ HƯỚNG NGHIÊN CỨU TRONG NHẬN DẠNG CHỮ VIẾT

  • III. 1. Phương pháp đối sánh mẫu

  • II 1.2. Phương pháp phân tích cấu trúc

  • IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU CỦA ĐÊ TÀI

  • I.TÍNH MARKOV

  • II. XÍCH MARKOV RỜI RẠC VÀ THUẦN NHẤT

  • III. MÔ HÌNH XÍCH MARKOV

  • IV. MÔ HÌNH MARKOV ẨN (HIDDEN MARKOV MODEL - HMM)

  • V. BA BÀI TOÁN ĐẶT RA ĐỐI VỚI MÔ HÌNH MARKOV ẨN

  • VI. GIẢI PHÁP CHO BA BÀI TOÁN

  • VI. 1. Bài toán 1

  • VI.2. Bài toán 2

Tài liệu cùng người dùng

Tài liệu liên quan