(Luận Văn Thạc Sĩ Khoa Học Máy Tính) Nghiên Cứu, Phát Triển Công Cụ Sinh Mô Tả Sản Phẩm Cho Thương Mại Điện Tử

Trang 1

Đ¾I HàC QUÞC GIA HÀ NàI TR¯äNG Đ¾I HàC CÔNG NGHà

Nguyßn Quang Minh

NGHIÊN CþU, PHÁT TRIàN CÔNG CĀ SINH MÔ TÀ SÀN PHÀM CHO TH¯¡NG M¾I ĐIàN TĀ

LU¾N VN TH¾C SỸ KHOA HàC MÁY TÍNH

HÀ NàI - 2021

Trang 2

Đ¾I HàC QUÞC GIA HÀ NàI TR¯äNG Đ¾I HàC CÔNG NGHà

Nguyßn Quang Minh

NGHIÊN CþU, PHÁT TRIàN CÔNG CĀ SINH MÔ TÀ SÀN PHÀM CHO TH¯¡NG M¾I ĐIàN TĀ

Ngành: Khoa hác máy tính Chuyên ngành: Khoa hác máy tính Mã sß: 8480101.01

LU¾N VN TH¾C SỸ KHOA HàC MÁY TÍNH

NG¯äI H¯âNG DÂN KHOA HàC: PGS.TS TR¯¡NG ANH HOÀNG

HÀ NàI - 2021

Trang 3

VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Nguyen Quang Minh

BUILDING PRODUCT DESCRIPTION GENERATOR BASED ON GPT-2

THE MASTER THESIS Major: Computer Science

Supervisor: Assoc Prof., Dr Truong Anh Hoang

HANOI - 2021

Trang 4

i

LäI CAM ĐOAN

Tôi là Nguyễn Quang Minh, học viên cao học lßp K26-KHMT, chuyên ngành Khoa học máy tính Tôi xin cam đoan bài luận văn <Nghiên cāu, phát triển công cụ sinh mô tÁ sÁn phẩm cho th°¢ng m¿i điện tử= do tôi đề ra và thực hiện d°ßi sự h°ßng dẫn cÿa PGS.TS Tr°¢ng Anh Hoàng Các nội dung nghiên cāu và kết quÁ trong luận văn là xác thực

Tất cÁ các tài liệu tham khÁo từ các nghiên cāu liên quan đều có nguồn gốc rõ ràng từ danh mục tài liệu tham khÁo trong luận văn Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cāu cÿa ng°ái khác mà không chỉ rõ về tài liệu tham khÁo

Hà Nội, ngày & tháng & năm 2021 Học viên cao học

Nguyễn Quang Minh

Trang 5

ii

LäI CÀM ¡N

Đầu tiên, tôi xin gửi lái cÁm ¢n sâu sắc đến PGS.TS Tr°¢ng Anh Hoàng và TS Nguyễn Văn Vinh đã giúp đỡ tận tình tôi trong suốt quá trình thực hiện đề tài luận văn này Tôi cũng xin cÁm ¢n ThS Nguyễn Minh Thuận cùng b¿n Trần M¿nh Tùng đã hỗ trợ tôi trong suốt quá trình nghiên cāu

Tôi cũng xin gửi lái cÁm ¢n chân thành đến các thầy cô, cán bộ tr°áng Đ¿i Học Công Nghệ - Đ¿i Học Quốc Gia Hà Nội đã tận tình giÁng d¿y và hỗ trợ tôi trong suốt quá khóa học th¿c sĩ

Cuối cùng, tôi xin gửi lái cÁm ¢n đến gia đình và b¿n bè, những ng°ái đã hỗ trợ tôi trong cuộc sống

Trang 6

iii

Tóm tắt

Trong những năm gần đây, th°¢ng m¿i điện tử đã đ¿t đ°ợc những b°ßc tiến triển m¿nh mẽ và trã thành một xu h°ßng gần nh° không thể tách rái trong nhiều khía c¿nh cÿa cuộc sống Những tiến bộ công nghệ cùng lợi ích xuất phát từ lĩnh vực này đã thu hút nhiều đối t°ợng tham gia, bao gồm cÁ các cá nhân và doanh nghiệp, t¿o ra một sân ch¢i sôi động và mang tính c¿nh tranh cao Để tồn t¿i và phát triển trong một môi tr°áng nh° vậy, những đối t°ợng này cần liên tục cÁi thiện chất l°ợng đồng thái đẩy m¿nh việc quÁng bá sÁn phẩm trên các kênh truyền thông Bên c¿nh đó, họ cũng cần quan tâm đến một yếu tố quan trọng nữa chính là nội dung truyền đ¿t cÿa sÁn phẩm, đặc biệt là nội dung văn bÁn hay mô tÁ sÁn phẩm, bãi đây sẽ đóng vai trò là cầu nối, cung cấp thông tin về đặc tr°ng hàng hóa đến khách hàng Một mô tÁ chính xác, đầy đÿ thông tin và hấp dẫn không chỉ giúp ng°ái tiêu dùng đ°a ra nhận định đúng đắn mà còn thúc đẩy đến quyết định mua hàng cÿa họ Mặc dù đóng vai trò quan trọng là vậy, việc t¿o ra những mô tÁ chất l°ợng còn v°ßng phÁi nhiều vấn đề khó khăn do nhiều yếu tố, ví dụ nh° kinh phí và con ng°ái Do đó, luận văn này h°ßng đến mục tiêu xây dựng một giÁi pháp sinh dữ liệu văn bÁn cho phép t¿o ra những mô tÁ sÁn phẩm có nội dung thu hút và có thể áp dụng trong những tr°áng hợp thực tế GiÁi pháp này sẽ āng dụng những kỹ thuật, tiến bộ mßi, đặc biệt là những thành quÁ nghiên cāu nổi bật trong lĩnh vực học sâu để cÁi thiện chất l°ợng nội dung mô tÁ Đồng thái, giÁi pháp cũng sẽ đ°ợc chāng minh có khÁ năng ho¿t động ổn định trong điều kiện thiếu thốn dữ liệu huấn luyện

Tÿ khóa: Th°¢ng m¿i điện tử, học sâu, sinh mô tÁ sÁn phẩm

Trang 7

iv

Abstract

In recent years, e-commerce has made strong progress and has become an almost inseparable trend in many aspects of life Technological advancements and benefits stemming from this sector have attracted a wide range of participants, including individuals and businesses, creating a vibrant and highly competitive playing field In order to survive and thrive in such an environment, these entities need to continuously improve their quality and promote their products on media channels Besides, they also need to pay attention to another important factor which is the communication content of the product, especially textual content or product description, because this will act as a bridge, providing information about product characteristics to customers An accurate, informative and attractive description not only helps consumers make the right judgment, but also motivates their purchase decision Despite playing such an important role, creating quality descriptions is fraught with difficulties due to many factors, such as funding or people Therefore, this thesis aims to build a textual data generation solution that allows to create product descriptions with attractive content and can be applied in real cases This solution will apply new techniques and advances, especially outstanding research results in the field of deep learning to improve the quality of description content At the same time, the solution will also be proven to be able to work stably in the condition of lack of training data

Keywords: E-commerce, deep learning, product description generation

Trang 10

vii

Danh māc thu¿t ngữ và chữ viết tắt

vị ngữ nghĩa trong xử lý ngôn ngữ, trong nhiều tr°áng hợp token là các từ

Task-Adaptive Pretraining Tiền huấn luyện thích āng vßi nhiệm vụ Feedforward Neural Networks M¿ng truyền thẳng

Multi-Head Attention Chú ý đa đầu

từ tiếp theo trong quá trình huấn luyện mô hình xử lý ngôn ngữ tự nhiên

Byte-Pair Encoding Thuật toán nén dữ liệu sử dụng các thành phần từ (Subword)

Unicode Bộ mã chuẩn quốc tế đ°ợc thiết kế để trã thành bộ mã duy nhất cho tất cÁ các ngôn ngữ

Trang 11

viii

Downstream task Có thể đ°ợc dịch là nhiệm vụ phía sau, nhiệm vụ cụ thể - những tác vụ học giám sát đ°ợc cÁi thiện dựa trên những mô hình tiền huấn luyện

Pipeline Một chuỗi chu trình, chuỗi thuật toán

Kernel Hàm ánh x¿ dữ liệu từ không gian ít chiều sang không gian nhiều chiều h¢n

sang chuỗi

Trang 12

ix

Danh māc hình vẽ

Hình 2.1 Ví dụ các dữ liệu cÿa sÁn phẩm trên trang Amazon 8

Hình 2.2 S¢ đồ kiến trúc tổng thể cÿa Transformer 9

Hình 2.3 Kiến trúc lßp cÿa bộ mã hóa và bộ giÁi mã trong Transformer 11

Hình 2.4 Kiến trúc chi tiết một lßp cÿa bộ mã hóa trong Transformer 12

Hình 2.5 Mô tÁ kiến trúc Multi-Head Attention 14

Hình 2.6 Kiến trúc cÿa một lßp trong khối giÁi mã 15

Hình 2.7 Tổng quan quá trình biến đổi vect¢ đầu ra cÿa các lßp giÁi mã thành từ vựng t°¢ng āng 17

Hình 2.8 Thống kê số lßp cÿa từng phiên bÁn GPT-2 18

Hình 2.9 Mô tÁ kiến trúc cÿa GPT-2 19

Hình 2.10 C¢ chế mã hóa đầu vào cÿa GPT-2 20

Hình 2.11 S¢ l°ợc kiến trúc mô hình BART 22

Hình 2.12 BÁng so sánh hiệu suất cÿa BART vßi các mô hình ngôn ngữ nổi tiếng [22] 23

Hình 2.13 Các thí nghiệm chāng minh tính hiệu quÁ khi lo¿i bỏ nhiệm vụ NSP và sử dụng định d¿ng đầu vào Full-sentences [23] 26

Hình 3.1 Định d¿ng dữ liệu huấn luyện trong ph°¢ng pháp đề xuất 30

Trang 13

x

Danh māc bÁng biáu

BÁng 2.1 Các thông tin đầu vào cần thiết trong quá trình sinh mô tÁ 7

BÁng 4.1 Số l°ợng mô tÁ tổng quan và mô tÁ thuộc tính sÁn phẩm 35

BÁng 4.2 Tổng hợp kết quÁ đánh giá trên độ mất mát và độ đa d¿ng từ vựng 38

BÁng 4.3 Tổng hợp kết quÁ đánh giá trên hai tập dữ liệu đã thấy và ch°a thấy 39

BÁng 4.4 Một số mô tÁ sÁn phẩm đ°ợc t¿o ra bãi các mô hình 40

Trang 14

Mặc dù có sāc Ánh h°ãng sâu rộng đối vßi nhiều nền kinh tế và xã hội, trên thực tế lịch sử phát triển cÿa th°¢ng m¿i điện tử còn khá non trẻ Hình thāc có thể đ°ợc coi là nguyên mẫu đầu tiên cÿa xu h°ßng này xuất hiện vào cuối những năm 70 t¿i Anh Quốc, đ°ợc phát minh bãi nhà sáng chế Michael Aldrich1 Ông đã t¿o ra một hệ thống cho phép kết nối giữa máy tính cÿa doanh nghiệp vßi vô tuyến cÿa khách hàng thông qua đ°áng dây điện tho¿i, đây trã thành nền móng c¢ bÁn cÿa mua sắm trực tuyến Đến năm 1982, công ty Boston Computer Exchange2đ°ợc thành lập, đ°ợc xem là một trong những công ty th°¢ng m¿i điện tử đầu tiên, cung cấp giÁi pháp mua sắm trực tuyến máy tính cũ Vào các năm tiếp theo - 1995, 1998, các tập đoàn công nghệ hàng đầu trong TMĐT hiện nay - Amazon3 và Paypal4 lần l°ợt ra đái Năm 2006, lập trình viên Tobias Lutke5t¿o ra Shopify6, nền tÁng cho phép t¿o website bán hàng tự động, sau này cũng trã thành một trong những công ty công nghệ nổi tiếng nhất trong lĩnh vực này Năm 2007, Iphone7 ra mắt lần đầu tiên, t¿o nên một hiện t°ợng công nghệ trên toàn thế gißi, thay đổi các ph°¢ng thāc t°¢ng tác cÿa ng°ái sử dụng, mã rộng c¢ hội tiếp cận cÿa ng°ái dùng vßi các dịch vụ trực tuyến Và trong những năm trã l¿i đây, những doanh nghiệp th°¢ng m¿i điện tử thế

1 https://en.wikipedia.org/wiki/Michael_Aldrich

2 https://en.wikipedia.org/wiki/Boston_Computer_Exchange 3 https://www.amazon.com/

4 https://www.paypal.com/

5 https://en.wikipedia.org/wiki/Tobias_L%C3%BCtke 6 https://www.shopify.net

7 https://en.wikipedia.org/wiki/IPhone_(1st_generation)

Trang 15

Để t¿o ra những nội dung văn bÁn chất l°ợng, th°áng sẽ có hai cách chính Một là sao chép các nội dung sÁn phẩm t°¢ng tự trên các trang web th°¢ng m¿i điện tử lßn, nội dung trên các trang này th°áng đã đ°ợc đầu t° sÁn xuất một cách chuyên nghiệp Nh°ợc điểm cÿa ph°¢ng pháp này là các nội dung trùng lặp th°áng bị đánh giá rất thấp bãi các công cụ tìm kiếm, từ đó khiến cho trang web cÿa bên bán hàng khó tiếp cận vßi khách hàng h¢n Cách làm thā hai là thuê ng°ái viết mô tÁ sÁn phẩm, đây là một ph°¢ng án cho phép t¿o ra những mô tÁ sÁn phẩm có nội dung phong phú

8 https://shopee.com/ 9 https://www.lazada.com/

Trang 16

3

nh°ng l¿i ẩn chāa hai bất cập chính là: Yêu cầu sự đầu t° đáng kể về tài chính và bị phụ thuộc hoàn toàn vào yếu tố con ng°ái Trong đó, yếu tố về con ng°ái là một rÿi ro đáng cân nhắc bãi con ng°ái th°áng có năng suất gißi h¿n, khó có thể đáp āng yêu cầu về tần suất công việc cao và còn có thể bị Ánh h°ãng bãi các vấn đề nh° sāc khỏe, tâm lý,

Có thể nói, những vấn đề đề cập ã trên đây vô hình chung sẽ gây ra những khó khăn cho các cá nhân, doanh nghiệp có nhu cầu tham gia thị tr°áng số, đặc biệt là những đối t°ợng có khÁ năng đầu t° h¿n chế Do đó, cần thiết một công cụ có thể tự động hóa việc sinh nội dung sÁn phẩm để hỗ trợ các đối t°ợng kinh doanh th°¢ng m¿i điện tử vừa có thể gia tăng khÁ năng c¿nh tranh, vừa có thể tiết kiệm tối đa chi phí Để xây dựng đ°ợc công cụ này, cần xem xét bài toán sinh văn bÁn (text generation) trong lĩnh vực Xử lý ngôn ngữ tự nhiên Bài toán này đ°ợc định nghĩa là quá trình sinh văn bÁn đầu ra dựa trên điều kiện đầu vào vßi mục tiêu bắt ch°ßc càng giống càng tốt vßi văn phong do con ng°ái viết ra

1.2 Các nghiên cÿu liên quan

Trong những năm gần đây, sinh văn bÁn nói chung và sinh mô tÁ sÁn phẩm nói riêng đã và đang nhận đ°ợc nhiều sự quan tâm và đầu t° nghiên cāu Đã có nhiều giÁi pháp đ°ợc công bố, một vài trong số đó đã cho thấy những kết quÁ hāa hẹn, cho phép mã ra những h°ßng đi mßi trong lßp bài toán này Tuy vậy, vẫn tồn t¿i một số vấn đề còn ch°a đ°ợc giÁi quyết, cần đ°ợc tiếp tục cÁi thiện và phát triển trong thái gian t°¢ng lai Trong ch°¢ng này, luận văn sẽ đi qua một số công trình tiêu biểu về sinh văn bÁn nói chung và sinh mô tÁ sÁn phẩm nói riêng, từ đó phân tích những °u nh°ợc điểm cÿa chúng cùng những liên hệ vßi ph°¢ng pháp mßi

1.2.1 Sinh vn bÁn

Sinh văn bÁn tự động vẫn luôn là một bài toán quan trọng trong xử lý ngôn ngữ tự nhiên và đã thu hút đ°ợc những sự đầu t° nghiên cāu từ rất sßm Một trong số những h°ßng tiếp cận đầu tiên có thể kể đến là tập hợp những ph°¢ng pháp mô hình hóa cấu trúc diễn ngôn và học các biểu diễn quan hệ giữa các đ¢n vị văn bÁn Những công trình nổi bật trong lßp giÁi pháp này có thể kể đến nh° Lý thuyết cấu trúc tu từ (Rhetorical Structure Theory) cÿa Mann và Thompson [1] hay Lý thuyết thể hiện diễn ngôn đ°ợc phân đo¿n (Segmented Discourse Representation Theory) cÿa Asher và Lascarides [2] Ngoài ra, còn có một số h°ßng nghiên cāu khác tập trung vào việc

Trang 17

4

xây dựng các mô hình sinh dựa trên khuôn mẫu kết hợp cùng những kỹ thuật dựa trên lý thuyết thống kê nh° nén câu, diễn giÁi từ vựng, chuyển đổi cú pháp, & để cÁi thiện chất l°ợng sinh văn bÁn nh° công trình cÿa Sporleder [3], hay cÿa Clarke và M Lapata [4] Đặc điểm chung cÿa những nghiên cāu trong thái gian này là đều ch°a t¿o ra đ°ợc những kết quÁ thật sự đột phá Tuy nhiên, đây có thể coi là những b°ßc tiến quan trọng đầu tiên, góp phần t¿o nên nền móng vững chắc để phát triển những ý t°ãng mßi về sau này

Trong những thập kỷ tiếp theo, cùng sự nổi lên cÿa học máy và sự sẵn có cÿa những nguồn dữ liệu mã, sinh văn bÁn đã đ¿t đ°ợc những b°ßc phát triển v°ợt bậc, những nghiên cāu trong thái kỳ này có xu h°ßng dịch chuyển từ việc áp dụng những mô hình đ¢n giÁn nh° sử dụng luật, khuôn mẫu sang āng dụng những kỹ thuật tiến bộ cÿa học máy Sự thay đổi này bắt đầu diễn ra trong khoÁng từ những năm đầu cÿa thập niên 2010, vßi những nghiên cāu chÿ yếu tập trung vào việc āng dụng những m¿ng n¢-ron hồi quy (Recurrent Neural Network) nh° công trình cÿa Graves (2013) [5] đề xuất việc āng dụng mô hình Bộ nhß dài ngắn h¿n (Long short-term memory [6], một biến thể cÿa m¿ng n¢-ron hồi quy) để t¿o ra những văn bÁn phāc t¿p hay giÁi pháp cÿa Cho và các cộng sự [7] vßi việc xây dựng m¿ng Nút hồi tiếp có cổng (Gated Recurrent Unit - GRU) cho việc học các biểu diễn ngôn ngữ và đặc biệt là sự xuất hiện cÿa mô hình chuỗi sang chuỗi (Sequence-to-Sequence - Seq2Seq) [8] - một mô hình đột phá vßi kiến trúc mã hóa-giÁi mã kết hợp cùng m¿ng tuần tự Mô hình hoàn toàn mßi này đã chāng minh đ°ợc tính hiệu quÁ trong rất nhiều tác vụ khác nhau nh° sinh văn bÁn, dịch máy, sinh hội tho¿i, & Tuy nhiên, các giÁi pháp dựa trên Seq2Seq trong thái điểm này cũng đã gặp phÁi một vấn đề nan giÁi là không thể nắm bắt đ°ợc sự phục thuộc ngữ nghĩa xa trong văn bÁn dài Điều này đã thúc đẩy những nỗ lực nghiên cāu mßi nh° công trình xây dựng các m¿ng <attention= (Bahdanau cùng các cộng sự [9]) hay các m¿ng <pointer= (Vinyals cùng các cộng sự [10]) Đến năm 2017, Google đã công bố kiến trúc Transformer vßi c¢ chế mã hóa kết hợp kỹ thuật attention mềm dẻo (soft attention) trên bộ giÁi mã đã thực sự giÁi quyết đ°ợc phần nào vấn đề trên Mô hình này cũng đã trã thành một tiêu chuẩn mßi trong sự phát triển cÿa những mô hình ngôn ngữ thế hệ tiếp theo, tiêu biểu là BERT, GPT-2, GPT-3, XLNet,

Trang 18

5

1.2.2 Sinh mô tÁ sÁn phÁm

Giống nh° Sinh văn bÁn, Sinh mô tÁ sÁn phẩm cũng đã trÁi qua một thái gian dài nghiên cāu và phát triển Một trong những nỗ lực đầu tiên để giÁi quyết bài toán này có thể kể đến nh° ph°¢ng pháp sử dụng khuôn mẫu kết hợp vßi các kỹ thuật thống kê cÿa Wang cùng các cộng sự [11] Trong nội dung giÁi pháp, các tác giÁ đã đ°a ra một số kỹ thuật mßi bao gồm: Lựa chọn giá trị thuộc tính cÿa sÁn phẩm khi điền vào mẫu (Value Preference); Trích trọn xác suất xuất hiện cÿa thuộc tính theo ph°¢ng pháp thống kê (Attribute Prior); Tính toán điểm cấu trúc cÿa văn bÁn dựa trên các câu cÿa nó cùng xác suất có điều kiện giữa các thuộc tính trong từng câu; Đánh giá, xếp h¿ng các mô tÁ dựa trên các thông tin đã đ°ợc trích xuất cùng ph°¢ng pháp SVM vßi h¿t nhân tuyến tính (linear kernel) [12] Kết quÁ báo cáo cÿa nghiên cāu cũng đã cho thấy giÁi pháp có thể t¿o ra tính liên kết giữa các giá trị thuộc tính cÿa sÁn phẩm đầu vào vßi nội dung cÿa những khuôn mẫu có sẵn Tuy nhiên, ph°¢ng pháp này vẫn còn gặp nhiều h¿n chế, tiêu biểu là việc không thể t¿o ra những văn bÁn có cấu trúc phong phú và chāa hàm l°ợng thông tin cao Để giÁi quyết vấn đề này, một vài công trình nghiên cāu khác chuyển h°ßng sang áp dụng những kỹ thuật học sâu nh° công trình cÿa Chen cùng các cộng sự [13] đã sử dụng mô hình Transformer để cÁi tiến chất l°ợng ngữ nghĩa cÿa mô tÁ sÁn phẩm Mặc dù nghiên cāu này cho kết quÁ đầu ra t°¢ng đối khÁ quan nh°ng vẫn đối mặt một nh°ợc điểm quan trọng là mô hình đòi hỏi rất nhiều dữ liệu trong quá trình huấn luyện Đây là một vấn đề cần đ°ợc cân nhắc kỹ l°ỡng trong nhiều tình huống áp dụng bãi vì dữ liệu có thể thu thập trong thực tế sẽ rất có thể bị gißi h¿n trong một số điều kiện nhất định

1.3 Māc tiêu

Từ những phân tích trên, luận văn này sẽ h°ßng đến mục tiêu xây dựng một giÁi pháp sinh dữ liệu văn bÁn cho phép t¿o ra những mô tÁ sÁn phẩm có nội dung thu hút và có thể áp dụng đ°ợc trong những tr°áng hợp thực tế GiÁi pháp này sẽ āng dụng những kỹ thuật, tiến bộ mßi, đặc biệt là những thành quÁ nghiên cāu nổi bật trong lĩnh vực học sâu để cÁi thiện chất l°ợng nội dung mô tÁ Đồng thái, giÁi pháp cũng sẽ đ°ợc chāng minh khÁ năng ho¿t động ổn định trong điều kiện thiếu thốn dữ liệu huấn luyện Ngoài ra, luận văn cũng sẽ đ°a ra chi tiết những thử nghiệm, đánh giá trên những mô hình / ph°¢ng pháp có sử dụng trong quá trình nghiên cāu để phân tích những °u, nh°ợc điểm cÿa chúng khi áp dụng vào bài toán này

Trang 19

6

1.4 Cấu trúc lu¿n vn

Luận văn này đ°ợc chia thành 5 phần, vßi Ch°¢ng 1 gißi thiệu bài toán cùng việc phân tích những nghiên cāu liên quan đã đ°ợc trình bày ã trên Tiếp theo, Ch°¢ng 2 sẽ trình bày cách mô hình hóa cùng một số kiến thāc về nền tÁng học sâu có liên quan đến ph°¢ng pháp mßi Chi tiết triển khai, các kỹ thuật xử lý sẽ đ°ợc nêu ã Ch°¢ng 3 Ch°¢ng 4 sẽ trình bày báo cáo, đánh giá kết quÁ thực nghiệm cÿa giÁi pháp và cuối cùng Ch°¢ng 5 sẽ nêu lên kết luận cÿa luận văn cùng những định h°ßng phát triển cÿa nghiên cāu này trong thái gian sắp tßi

Trang 20

7

Ch°¢ng 2 C¢ sở lý thuyết

Trong phần này, luận văn sẽ mô tÁ cách thāc mô hình hóa bài toán, chuyển từ bài toán sinh dữ liệu mô tÁ sÁn phẩm sang bài toán Seq2Seq có điều kiện Một số kiến thāc phục vụ trong quá trình triển khai ph°¢ng pháp đề xuất cũng sẽ đ°ợc gißi thiệu và trình bày tổng quan, nh° mô hình Transformer, GPT-2, Độ đa d¿ng từ vựng,

2.1 Phát biáu bài toán

Đầu tiên, luận văn sẽ mô hình hóa bài toán ã d¿ng c¢ bÁn â b°ßc này, có thể phát biểu nội dung bài toán nh° sau: <Đối vßi một đầu vào văn bÁn là tên sÁn phẩm, xây dựng một hệ thống cho phép tự động t¿o ra một mô tÁ t°¢ng āng, giÁ định rằng tiêu đề sÁn phẩm và mô tÁ cÿa chúng đ°ợc định nghĩa là và

.=

Mục tiêu ã b°ßc này là phân tích xác suất có điều kiện giữa kết quÁ đầu ra đối vßi chuỗi đầu vào thành tích các xác suất có điều kiện cÿa các token trong chuỗi đối vßi các token đ°ợc t¿o ra tr°ßc đó cÿa chúng cùng chuỗi đầu vào:

(1) Tuy nhiên, có thể dễ dàng nhận thấy rằng đầu vào văn bÁn đ°ợc đề xuất trong phát biểu trên ch°a thật sự cung cấp những thông tin bao quát về sÁn phẩm Điều này là cần thiết bãi vì để đi đến quyết định mua hàng, ng°ái tiêu dùng cần nắm đ°ợc nhiều thông tin về sÁn phẩm h¢n là chỉ tiêu đề cÿa chúng Do đó, đầu vào cần đ°ợc bổ sung một số thông tin quan trọng cÿa sÁn phẩm nh° cấu trúc danh mục, th°¢ng hiệu và các thuộc tính chi tiết Mô tÁ ngắn gọn cÿa những dữ liệu này sẽ đ°ợc tóm tắt nh° trong BÁng 2.1:

BÁng 2.1 Các thông tin đầu vào cần thiết trong quá trình sinh mô tÁ

Category structure Cấu trúc danh mục sÁn phẩm

Trang 21

8

attribute Thuộc tính cÿa sÁn phẩm

BÁng 2.1 đã liệt kê những thông tin đầu vào cần thiết trong quá trình sinh mô tÁ Lý do những thông tin này đ°ợc chọn là bãi cấu trúc danh mục có thể giúp ng°ái tiêu dùng phân lo¿i đ°ợc sÁn phẩm, th°¢ng hiệu giúp định vị đ°ợc độ tin cậy lẫn nguồn gốc xuất xā và cuối cùng các thuộc tính sẽ cung cấp cái nhìn chi tiết về những đặc tr°ng cÿa sÁn phẩm

Hình 2.1 Ví dụ các dữ liệu cÿa sÁn phẩm trên trang Amazon

Nh° trong ví dụ cÿa Hình 2.1, một sÁn phẩm tai nghe trên trang TMĐT Amazon có thể có những dữ liệu quan trọng nh° tiêu đề, cấu trúc th° mục, thuộc tính và các mô tÁ chi tiết về sÁn phẩm

Trang 22

9

2.2 Transformer

Transformer là một mô hình ngôn ngữ đ°ợc Google phát triển và công bố vào năm 2017 trong bài báo <Attention is All You Need= [14] Kiến trúc cÿa mô hình này bao gồm hai thành phần chính là Bộ mã hóa và Bộ giÁi mã Nhiệm vụ cÿa chúng là biến đổi nội dung đầu vào thành một nội dung đầu ra t°¢ng āng Cụ thể h¢n, bộ mã hóa sẽ ánh x¿ chuỗi token đầu vào thành một chuỗi liên tục t°¢ng āng và bộ giÁi mã sẽ sử dụng chuỗi này để t¿o ra một chuỗi đầu ra D°ßi đây là s¢ đồ kiến trúc tổng thể cÿa mô hình

Hình 2.2 S¢ đồ kiến trúc tổng thể cÿa Transformer

Nh° trong Hình 2.2, câu <Tôi là sinh viên= là một văn bÁn nguồn đã đ°ợc bộ mã hóa xử lý thông qua các phép biến đổi để trã thành đầu vào cÿa bộ giÁi mã Sau đó, bộ giÁi mã l¿i biến đổi tiếp đầu vào này thành kết quÁ cuối cùng là <I'm a student= Để làm rõ h¢n quy trình cũng nh° tính hiệu quÁ cÿa kiến trúc này, trong những phần nội dung tiếp theo, luận văn sẽ đi vào chi tiết h¢n về những thành phần cấu t¿o cùng những kỹ thuật, lý thuyết liên quan đến mô hình

Trang 23

10

2.2.1 Mã hóa vß trí

Nh° chúng ta đã biết, tr°ßc khi các từ trong văn bÁn thực sự đ°ợc xử lý bãi mô hình, chúng phÁi trÁi qua quá trình mã hóa để chuyển sang một hình thāc biểu diễn thông tin khác mà ch°¢ng trình có thể hiểu đ°ợc Hình thāc biểu diễn thông tin này đ°ợc gọi là các từ nhúng, vect¢ từ nhúng hoặc word embedding Các vect¢ này sau đó đ°ợc nối vßi nhau trã thành một ma trận hai chiều và đ°ợc xử lý bãi các tiến trình tiếp theo cÿa mô hình Quá trình này rất phổ biến và không có vấn đề gì khi đ°ợc áp dụng ã các mô hình tuần tự Nh°ng trong Transformer, có một vấn đề khác nÁy sinh là mô hình không thể nhận biết đ°ợc vị trí cÿa các từ thông qua word embedding do c¢ chế xử lý các từ song song cÿa mô hình Để giÁi quyết vấn đề này, các tác giÁ đã gißi thiệu c¢ chế mã hóa mßi có tên gọi là mã hóa vị trí (position encoding), vßi mục tiêu mã hóa vị trí cÿa các từ bằng một vect¢ có kích th°ßc bằng word embedding và sẽ đ°ợc cộng trực tiếp vào vect¢ embedding t°¢ng āng D°ßi đây là công thāc mã hóa vị trí đ°ợc nêu trong bài báo:

(2) Trong đó:

(3) â công thāc (2), t là vị trí cÿa từ trong văn bÁn, i là vị trí cÿa chiều trong không gian embedding, các tác giÁ dùng hàm sin để tính giá trị t°¢ng āng vßi vị trí chiều chẵn và cos vßi vị trí chiều lẻ

2.2.2 Bá mã hóa 2.2.2.1 Kiến trúc

Nh° đã đ°ợc mô tÁ trong Hình 2.2, Bộ mã hóa là một trong hai thành phần quan trọng cÿa mô hình Transformer, đóng vai trò mã hóa đầu vào thành một biểu diễn mßi giàu thông tin h¢n gọi là <vect¢ ngữ cÁnh= Kiến trúc cÿa bộ mã hóa đ°ợc t¿o nên bằng cách xếp chồng các lßp mã hóa vßi nhau (th°áng là 6 lßp), t¿o thành một m¿ng truyền thẳng (Feedforward Neural Networks) Kiến trúc này cho phép các lßp xử lý đồng thái các từ, thay vì xử lý tuần tự giống các mô hình khác nh° LSTM

Trang 24

11

Hình 2.3 Kiến trúc lßp cÿa bộ mã hóa và bộ giÁi mã trong Transformer

Nh° trong Hình 2.3, khối bộ mã hóa bÁn chất là một chuỗi các lßp xếp chồng lên nhau, có nhiệm vụ xử lý dữ liệu đầu vào để cung cấp thông tin cho các lßp trong khối Decoder

Tiếp theo, trong mỗi bộ mã hóa l¿i có hai thành phần chính là tầng tập trung đa đầu (multi-head attention) và m¿ng truyền thẳng (feedforward network), ngoài ra còn có bỏ kết nối (skip connection) và lßp chuẩn hóa (normalization) S¢ đồ kiến trúc chi tiết cÿa một lßp mã hóa sẽ đ°ợc trình bày nh° d°ßi đây:

Trang 25

12

Hình 2.4 Kiến trúc chi tiết một lßp cÿa bộ mã hóa trong Transformer

Nh° trong hình, sau khi nhận đ°ợc đầu vào là ma trận biểu diễn cÿa các từ đã đ°ợc thêm thông tin ã b°ßc mã hóa vị trí (Positional Encoding), mô đun chú ý đa đầu sẽ là n¢i xử lý đầu tiên cÿa dữ liệu Mô đun này là một phần trong c¢ chế chú ý, bao gồm nhiều lßp tự chú ý (self-attention) để có thể xử lý nhiều mẫu khác nhau trong dữ liệu

2.2.2.2 Tự chú ý

Tự chú ý hay Self Attention là một c¢ chế cho phép mô hình xem xét những thông tin có liên quan tßi một từ trong ngữ cÁnh văn bÁn (th°áng là những từ khác trong

Trang 26

13

chính văn bÁn đó) để tìm ra manh mối có thể giúp dẫn đến mã hóa tốt h¢n cho từ này Ví dụ trong một câu <Tôi đã mua một quyển sách vào chiều thā bÁy và nó có giá 100 nghìn đồng=, khi <nó= đ°ợc mã hóa, mô hình sẽ đặc biệt chú ý vào các từ có liên quan nh° <quyển sách=, điều này cũng rất hợp lý khi trong thực tế không phÁi bất kỳ cặp từ nào cũng có mối t°¢ng quan giống nhau Việc áp dụng kỹ thuật này sẽ giúp mô hình cÁi thiện khÁ năng học phụ thuộc xa, giÁm thiểu sự phāc t¿p trong mỗi lßp đồng thái song song hóa khối l°ợng tính toán, qua đó tăng tốc các tác vụ cÿa mô hình Tự chú ý cũng đã đ°ợc āng dụng rất thành công trong nhiều bài toán khác nhau nh° đọc hiểu, tóm tắt trừu t°ợng văn bÁn,

Để tính toán giá trị attention cho toàn bộ các từ trong một câu, mô hình Transformer đã sử dụng ba ma trận là Query, Keys và Values (viết tắt là Q, K, V t°¢ng āng) Trong đó, Query dùng để chāa thông tin cÿa từ đ°ợc tìm kiếm, mỗi dòng cÿa Q sẽ là một vect¢ đ¿i diện cho các từ đầu vào, Key dùng để biểu diễn thông tin cÿa các từ đ°ợc so sánh vßi từ cần tìm kiếm đó (mỗi dòng cũng là một vect¢ cÿa từ đầu vào) và Values dùng để biểu diễn nội dung, ý nghĩa cÿa các từ Hai ma trận Q, K sẽ đ°ợc sử dụng để tính giá trị attention cÿa các từ trong câu đối vßi một từ xác định Tiếp theo, các giá trị này sẽ đ°ợc sử dụng để tính ra các vect¢ attention dựa trên việc trung bình hóa có trọng số vßi ma trận V Ph°¢ng trình tính toán Attention đ°ợc mô tÁ nh° sau:

(4) Trong đó:

● là số chiều cÿa vect¢ Key Việc chia cho là nhằm mục đích tránh tràn luồng nếu số mũ trã nên quá lßn

2.2.2.3 T¿ng chú ý đa đ¿u

Áp dụng kỹ thuật tự chú ý, Transformer có thể học đ°ợc những mối quan hệ giữa các từ vßi nhau trong một văn bÁn Tuy nhiên, trong thực tế những mối quan hệ này cũng rất đa d¿ng và phong phú, không thể chỉ gói gọn trong một hình thāc thể hiện nhất định Do đó, để mã rộng cũng nh° cÁi thiện hiệu suất cÿa mô hình, các tác giÁ đã đề xuất sử dụng nhiều lßp tự chú ý nhằm mục đích nắm bắt nhiều nhất có thể những mối quan hệ trong văn bÁn Và để phân biệt các lßp tự chú ý vßi nhau, các ma

Trang 27

14

trận trọng số Query, Key, Value sẽ có thêm một chiều <depth= chāa định danh cÿa lßp

Hình 2.5 Mô tÁ kiến trúc Multi-Head Attention

Trên hình có thể thấy, mô-đun chú ý đa đầu (Multi-Head Attention) bao gồm nhiều lßp Attention, cùng xử lý dữ liệu đầu vào là Embedding sau khi đã đ°ợc thêm dữ liệu mã hóa vị trí và cho ra các kết quÁ đầu ra t°¢ng āng

2.2.2.4 Kết nßi ph¿n d° và Lãp chuÁn hóa

Trong mỗi lßp encoder, các kết nối phần d° (residual connection) và lßp chuẩn hóa đóng vai trò giúp mô hình có thể hội tụ nhanh h¢n và tránh mất mát thông tin trong quá trình huấn luyện Chi tiết minh họa cÿa hai thành phần này đã đ°ợc đề cập đến trong Hình 3.3

Trang 28

15

2.2.3 Bá giÁi mã 2.2.3.1 Kiến trúc

Giống nh° bộ mã hóa, bộ giÁi mã cũng có kiến trúc xếp chồng vßi 6 lßp t¿o thành m¿ng truyền thẳng Mỗi lßp sẽ nhận thông tin đầu vào từ bộ mã hóa để thực hiện tác vụ giÁi mã vect¢ cÿa câu nguồn thành đầu ra t°¢ng āng Kiến trúc cÿa những lßp này c¢ bÁn giống vßi những lßp trong bộ mã hóa, ngo¿i trừ có thêm một lßp chú ý đa đầu nằm ã giữa đóng vai trò học mối quan hệ t°¢ng quan giữa các từ đang đ°ợc dịch vßi các từ trong văn bÁn gốc D°ßi đây là mô tÁ kiến trúc chi tiết cÿa từng lßp giÁi mã

Hình 2.6 Kiến trúc cÿa một lßp trong khối giÁi mã

Nh° trong Hình 2.6, mỗi lßp giÁi mã sẽ bao gồm 3 thành phần chính là tầng tập trung đa đầu có mặt n¿ (Masked Multi Head Attention), chú ý đa đầu (Multi-Head Attention) và m¿ng truyền thẳng (Feedforward) Trong đó ngoài lßp truyền thẳng đã biết thì tập trung đa đầu có mặt n¿ là lßp có chāc năng mã hóa các token trong văn bÁn đích trong quá trình dịch nh°ng có ẩn đi những từ ch°a đ°ợc mô hình dịch đến Đầu ra cÿa lßp này và đầu ra cÿa khối mã hóa đ°ợc lßp chú ý đa đầu sử

Trang 29

16

dụng để học ra mối t°¢ng quan giữa từ nguồn và từ đang đ°ợc dịch nh° đã đề cập ã phần trên

2.2.3.2 Lãp tuyến tính cußi cùng và lãp Softmax

Sau tất cÁ quá trình xử lý, các lßp giÁi mã sẽ cho ra đầu ra cuối cùng là một vect¢ bao gồm những số thực Để chuyển hóa kết quÁ này thành một từ có ý nghĩa, mô hình sẽ sử dụng lßp tuyến tính cuối cùng (Final Linear) cùng lßp Softmax Trong đó, lßp tuyến tính cuối cùng bÁn chất là một m¿ng n¢-ron kết nối đầy đÿ có nhiệm vụ biến đổi vect¢ đầu vào thành một vect¢ lßn h¢n rất nhiều đ°ợc gọi là vect¢ <logits" Vect¢ này có số chiều bằng vßi số từ trong tập từ vựng cÿa mô hình, mỗi ô trong vect¢ chāa giá trị t°¢ng đ°¢ng vßi một điểm cÿa một từ duy nhất Những điểm này sẽ đ°ợc chuyển hóa thành giá trị xác suất thông qua lßp Softmax Cuối cùng mô hình sẽ chọn ra từ t°¢ng āng vßi ô chāa giá trị xác suất cao nhất trong vect¢ trên