Báo cáo thực tập chuyên ngành LDA y sinh : Mô hình chủ đề ẩn trích xuất thực thể y sinh

23 768 2
Báo cáo thực tập chuyên ngành LDA y sinh : Mô hình chủ đề ẩn trích xuất thực thể y sinh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Định hướng nghiên cứu Mục đích nghiên cứu: Xây dựng các cụm từ vựng(word clusters) liên quan đến nhau thuộc miền dữ liệu y sinh dựa vào mô hình học không giám sát Nghiên cứu các phương pháp sinh ra các cụm từ vựng: Mô hình chủ đề: LSA, LDA (thực tập chuyên ngành) Gom cụm từ vựng (Word clustering) Phương pháp biểu diễn từ vựng Word2vector Tìm hiểu nguồn dữ liệu và các tài nguyên ngôn ngữ trong miền dữ liệu y sinh Xây dựng mô hình đánh giá chất lượng các cụm từ vựng tự động

Đề tài: Mơ hình chủ đề ẩn trích xuất thực thể y sinh Nhóm: Trần Thắng Bình Ngơ Mạnh Quyền Chu Thị Phương Thảo Hà nội, tháng 11 năm 2013 Nội dung  Mơ hình chủ để: LSA, LDA  Nguồn liệu tài nguyên: Pubmed Central, UMLS  Cơng cụ: Mallet  Mơ hình  Kết  Đánh giá chất lượng cụm tự động  Hướng nghiên cứu tiếp Định hướng nghiên cứu  Mục đích nghiên cứu:  Xây dựng cụm từ vựng(word clusters) liên quan đến thuộc miền liệu y sinh dựa vào mơ hình học khơng giám sát  Nghiên cứu phương pháp sinh cụm từ vựng:  Mơ hình chủ đề: LSA, LDA (thực tập chun ngành)  Gom cụm từ vựng (Word clustering)  Phương pháp biểu diễn từ vựng Word2vector  Tìm hiểu nguồn liệu tài nguyên ngôn ngữ miền liệu y sinh  Xây dựng mơ hình đánh giá chất lượng cụm từ vựng tự động LSA (Latent Semantic Analysis)  Là mơ hình chủ đề sử dụng để phân tích tài liệu đưa ý nghĩa tài liệu [ls]  Các bước thực hiện:  Tạo ma trận chủ đề - từ (đếm số lần xuất từ tài liệu)  Sử dụng giá trị tf-idf để đánh trọng số cho từ  Loại bỏ từ nhiễu tạo lại ma trận  Gom cụm tài liệu, gom cụm từ LSA (Latent Semantic Analysis)  Một số hạn chế mơ hình LSA:  LSA sử dụng phân phối Gaussian khơng phù hợp với nhiều trường hợp Ví dụ từ tài liệu thường có phân phối tuân theo phân phối Poisson  LSA xử lý trường hợp đa nghĩa (một từ có nhiều nghĩa)  Khó cập nhật lại có tài liệu xuất LDA (Latent Dirichlet Allocation)  LDA giả sử mơ hình sinh cho tài liệu  Sinh ngẫu nhiên phân bố chủ đề văn  Với từ văn  Chọn ngẫu nhiên chủ đề từ phân bố chủ đề  Chọn ngẫu nhiên từ phân bố từ chủ đề  Input: Tập tài liệu  Output:  Ma trận Từ - Chủ đề  Ma trận Chủ đề - Tài liệu LDA (Latent Dirichlet Allocation)  LDA bao gồm bước lặp sau vịng lặp tối ưu hóa lại giá trị xác suất ma trận Từ - Chủ đề Chủ đề - Tài liệu [bl11]  Vòng lặp dừng lại hội tụ chạy hết số vòng lặp cho trước Nguồn liệu tài nguyên  Pubmed Central  PMC kho lưu trữ tài liệu y sinh tạp chí khoa học Thư viện y khoa quốc gia Hoa kỳ(NLM) – thư viện y khoa lớn giới Các báo full – text (các đầy đủ)[pm]  Cách thu thập liệu:  Lấy tất báo theo tên tạp chí định dạng tgz: ftp://ftp.ncbi.nlm.nih.gov/pub/pmc  Lấy báo id: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?id=PMC13901  Lấy theo ngày: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01   Lấy 1000 tập kết quả: http ://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?resumptionToken=843921!20120101000000!!!6e8a2c112f595273 Lấy có định dạng PDFs : http ://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01&format=pdf Nguồn liệu tài nguyên  Pubmed Central  Số lượng liệu thu thập: 623.989 báo y sinh từ PMC( 02/10/2013)  Xử lý liệu:  Dữ liệu down dạng nén “tar.gz” chứa file dạng “nxml” Nguồn liệu tài nguyên  Pubmed Central  Xử lý liệu: Nguồn liệu tài nguyên  UMLS:  UMLS tập file phần mềm đưa nhiều tập từ vựng y sinh [um]  công cụ UMLS:  Metathesaurus: Thuật ngữ mã số từ nhiều tập từ vựng CPT, ICD-10-CM, MeSH,…  Semantic Network: loại ngữ nghĩa quan hệ chúng  SPECIALIST lexicon Lexical Tools: công cụ xử lý ngôn ngữ tự nhiên  Số liệu thống kê: UMLS có 133 nhãn lĩnh vực chủ đề y sinh gồm khoảng triệu từ vựng Nguồn liệu tài nguyên  UMLS có cấu trúc rõ ràng: Nguồn liệu tài nguyên  UMLS:  Thu thập:   Local Installation: Cài đặt UMLS máy tính down file Có thể lưu liệu tải vào hệ thống sở liệu MySQL, Oracle   Web browsers: Tìm kiếm liệu thông qua ứng dụng Web Services APIs: Sử dụng giao diện chương trình ứng dụng để yêu cầu UMLS ứng dụng Xử lý liệu:  Từ 623.989 báo y sinh trên, lọc qua từ vựng UMLS thu triệu từ có UMLS có liệu Cơng cụ • Mallet viết bởi: Andrew McCallum cộng • Trang chủ: http://mallet.cs.umass.edu/index.php • Mallet cơng cụ cho xử lí ngơn ngữ tự nhiên, phân loại tài liệu, gom cụm, mô hình chủ đề, trích xuất thơng tin ứng dụng học máy khác thống kê • Bộ cơng cụ Mallet cho mơ hình chủ đề hoạt động dựa thi hành Latent Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA Công cụ  Input  File liệu text đầu vào với dòng document  Tham số k(số chủ đề muốn sinh từ tập liệu đầu vào)  Output Ma trận từ/chủ đề Mơ hình Download Tiền xử lý PMC UMLS Docs Website Tiền xử lý Longest matching Dict K=200 Mallet UMLS term Ma trận từ/chủ đề Model Ma trận tài liệu/chủ đề Loại bỏ từ có trọng số thấp Web UMLS Kết Bảng Bảng Kết cụm từ Kết cụm từ  Big question: Làm đánh giá chất lượng cụm từ vựng ?  Phương pháp thông thường: đánh giá thủ công dựa tư tưởng Một cụm đánh giá tốt tập chung vào vài chủ đề có liên quan đến (1)  Key: Mỗi từ UMLS thuộc số nhãn ngữ nghĩa  Dựa (1),(2) Có thể sử dụng nhãn ngữ nghĩa UMLS để đánh giá chất lượng cụm từ vựng Kết Cụm tốt Các từ hướng đến nhãn (biểu đồ có số cột trội) Kết Cụm nhiễu Các từ cụm hướng đến nhiều nhãn (không xuất cột trội) Công việc  Hoàn thành đánh giá chất lượng cụm sinh mơ hình chủ đề  Hồn thành thực tập chuyên ngành (20/11/2013)  Viết báo cáo gửi Workshop sinh viên EACL 2013 (deadline: 22/11/2013)  Nghiên cứu tiếp nhóm phương pháp sinh cụm từ vựng  Áp dụng cụm từ vựng cho toán cụ thể (dự kiến: active re-ranking model for biomedical search engine) Tài liệu tham khảo  [bl03] 03_#Latent Dirichlet Allocation_BleiNgJordan2003  [bl11] Blei2011_Probabilistic topic models  [ls] http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-l atent-semantic-analysis-tutorial.html?start=5  [pm] http://www.ncbi.nlm.nih.gov/pmc/  [um] http://www.nlm.nih.gov/research/umls/ ... cứu:  X? ?y dựng cụm từ vựng(word clusters) liên quan đến thuộc miền liệu y sinh dựa vào mơ hình học khơng giám sát  Nghiên cứu phương pháp sinh cụm từ vựng:  Mơ hình chủ đ? ?: LSA, LDA (thực tập. .. (không xuất cột trội) Công việc  Hoàn thành đánh giá chất lượng cụm sinh mơ hình chủ đề  Hồn thành thực tập chuyên ngành (20/11/2013)  Viết báo cáo gửi Workshop sinh viên EACL 2013 (deadline: 22/11/2013)... thư viện y khoa lớn giới Các báo full – text (các đ? ?y đủ)[pm]  Cách thu thập liệu:  L? ?y tất báo theo tên tạp chí định dạng tgz: ftp://ftp.ncbi.nlm.nih.gov/pub/pmc  L? ?y báo id: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?id=PMC13901

Ngày đăng: 25/11/2014, 10:36

Từ khóa liên quan

Mục lục

  • Slide 1

  • Nội dung

  • Định hướng nghiên cứu

  • LSA (Latent Semantic Analysis)

  • LSA (Latent Semantic Analysis)

  • LDA (Latent Dirichlet Allocation)

  • LDA (Latent Dirichlet Allocation)

  • Nguồn dữ liệu và tài nguyên

  • Nguồn dữ liệu và tài nguyên

  • Nguồn dữ liệu và tài nguyên

  • Nguồn dữ liệu và tài nguyên

  • Nguồn dữ liệu và tài nguyên

  • Nguồn dữ liệu và tài nguyên

  • Công cụ

  • Slide 15

  • Mô hình

  • Kết quả

  • Kết quả các cụm từ

  • Kết quả các cụm từ

  • Kết quả

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan