Một số kỹ thuật ứng dụng để lắp ráp hệ gen với dữ liệu trình tự ngắn trong tin sinh học

i LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn công trình nghiên cứu thực cá nhân hướng dẫn khoa học TS Nguyễn Cường Các số liệu, kết luận nghiên cứu trình bày luận văn trung thực chưa công bố hình thức Tôi xin chịu trách nhiệm nghiên cứu Học viên Nguyễn Thị Thanh Ngọc ii LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn Tiến sĩ Nguyễn Cường, người thày trực tiếp hướng dẫn hoàn thành luận văn Thày tận tình hướng dẫn, bảo cung cấp tài liệu liên quan đồng thời động viên tinh thần giúp vượt qua nhiều khó khăn trình thực luận văn Tôi xin chân thành cảm ơn quý Thầy (Cô) giảng dạy chương trình cao học chuyên ngành “ Khoa học máy tính” truyền đạt kiến thức hữu ích giúp thực nghiên cứu Xin cảm ơn quý Thầy, Cô công tác Trường Đại học Công nghệ thông tin truyền thông – Đại học Thái Nguyên tạo điều kiện cho tham gia hoàn thành khoá học Tôi xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2014 Học viên Nguyễn Thị Thanh Ngọc iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT………………………………………… …iv DANH MỤC BẢNG BIỂU vi DANH MỤC HÌNH ẢNH vii MỞ ĐẦU Chương 1: CƠ SỞ LÝ THUYẾTCỦA BÀI TOÁN LẮP RÁP TRÌNH TỰ GEN 1.1 Bài toán lắp ráp trình tự gen 1.2 Định dạng sở liệu sai số thường gặp toán lắp ráp .7 1.3 Ứng dụng công nghệ đọc trình tự gen 13 Chương 2: MỘT SỐ KỸ THUẬT LẮP RÁP HỆ GEN VỚI DỮ LIỆU TRÌNH TỰ ĐOẠN NGẮN TRONG TIN SINH HỌC 15 2.1 Thuật toán Overlap Layout Consensus (OLC) 15 2.2 Thuật toán sử dụng Đồ thị De Bruijn 17 2.3 Thuật toán Short Sequence Assembler (SSA) 20 2.3.1 Giới thiệu thuật toán SSA 21 2.3.2 Sửa lỗi 22 2.3.3 Xây dựng Overlap graph 22 2.3.3.1 Bảng băm……………………………………………………………23 2.3.3.2 Xây dựng cạnh Overlap graph………………………………… 23 2.3.3.3 Hạn chế cạnh bắc cầu………………………………………….…….26 2.3.3.4 Rút gọn tuyến ghép………………………………….………… 33 Chương 3: CÀI ĐẶT THỬ NGHIỆM THUẬT TOÁN SSA 36 3.1 Yêu cầu đầu vào đầu thuật toán: 36 3.2 Đánh giá thuật toán Kết thí nghiệm: 41 KẾT LUẬN 55 TÀI LIỆU THAM KHẢO 56 iv DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt/thuật ngữ Nghĩa/Mô tả ADN (DNA) Deoxyribo Ducleic Acid BP Base pair GB (G base) Giga base pair NST Nhiễm sắc thể DNA senquencing Đọc trình tự DNA HGP Dự án hệ giải trình tự hệ gen người DdNTP Dideoxynucleotide Nucleotide Các trình tự A,T,G,C Sanger (SAGE) Tên thiết bị đọc trình tự đoạn ngắn (1500bp) 10 ABI SOLID Tên thiết bị đọc trình tự 11 Dntp Deoxynucleotide 12 Gdna DNA thuộc nhiễm sắc thể 13 SBL Đọc trình tự gắn nối (sequencing by ligation) 14 GS20 Tên thiết bị đọc trình tự 15 Illumina Solexa 1G Tên thiết bị đọc trình tự 16 Roche 454 FLX Tên thiết bị đọc trình tự 17 Scaffold (Super cotig)chuỗi cotig Tandem Repeat Các khối nhỏ có kích thước từ vài base đến vài 18 chục base bị lặp lặp lại nhiều lần 19 Large repeat regions Chuỗi lặp lớn lên tới vài nghìn base 20 Fragment Mảnh DNA 21 Read Đoạn trình tự ngắn 22 Cotig Đoạn trình tự dài 23 De Bruijn Tên thuật toán lắp ráp hệ gen với liệu 24 pyrosequencing Đọc trình tự đoạn ngắn (100bp) 25 Insert size (fragment khoảng cách đoạn read xuôi ngược v length) 26 27 Coverage số chép hệ gen gốc giải mã paired-end short Lắp ráp trình tự sử dụng cặp read ngắn reads 28 Ligation error Lỗi giải trình tự 29 ALLPAHTS Tên phương pháp lắp ráp hệ gen với liệu 30 overlap graph Đồ thị 31 Node Nút đồ thị Tip node đồ thị mà từ vị trí 32 33 cạnh dẫn tới node khác Bubble Lỗi đồ thị, xuất tồn hai đường dẫn hai điểm node 34 SSA (Short Sequence Assembler) thuật toán lắp ráp 35 Neighbour Hàng xóm – điểm lân cận vi DANH MỤC BẢNG BIỂU Bảng 3.1 Bảng tóm tắt kết lắp ráp thuật toán SSA Velvet 53 Bảng 3.2: Thống kê tỉ lệ trình tự sử dụng để lắp ráp 54 vii DANH MỤC HÌNH ẢNH Hình 1.1 Quy trình phân tích hệ gen sinh vật từ liệu giải trình tự Hình 1.2 Minh họa phép lắp ráp hệ gen Hình 1.3 Công nghệ giải mã hệ gen Hình 1.4 Nguyên lý lắp ráp trình tự ngắn thành contig Hình 1.5 Sequencing error 10 Hình 1.6 Ligation error 10 Hình 1.7 Sửa lỗi giải trình tự sử dụng nhiều 11 Hình 1.8.Không phải lỗi giải trình tự 12 Hình 1.9 Một ví dụ ‘Tandem repeat’ 12 Hình 2.1: Overlap graph 16 Hình 2.2 Đồ thị De Bruijn 17 Hình 2.3 Đồ thị De Bruijn 18 Hình 2.4: Mô tả thuật toán ‘Breadcrumbs’ 20 Hình 2.5 Chuỗi băm Read 24 Hình 2.6 Sử dụng bảng băm để tìm đoạn giống chuỗi 24 Hình 2.7 Đồ thị Overlap graph với 10 read 25 Hình 2.8.Các Read trùng lặp 26 Hình 2.9 Tập hợp read đầu vào 29 Hình 2.10 Các loại Read trùng lặp 33 Hình 2.11: Đồ thị Overlap Graph sau hạn chế cạnh bắc cầu 33 Hình 2.12: Đồ thị sau rút gọn tuyến ghép 34 Hình 3.1 File config định dạng số liệu đoạn trình tự đầu vào 38 Hình 3.2 File H37Rv.scafStatistics thống kê số liệu lắp ráp 41 Hình 3.3 Chất lượng trung bình đoạn trình tự liệu 44 Hình 3.4 Chất lượng trình tự theo vị trí base 45 Hình 3.5 Chiều dài đoạn trình tự liệu 46 Hình 3.6 Tỉ lệ base chưa xác định trình tự 47 Hình 3.7 Tỉ lệ thành phần base 48 viii Hình 3.8 Tỉ lệ thành phần GC 49 Hình 3.9 Tỉ lệ lặp trình tự 50 Hình 3.10 Minh họa hoạt động SSA 51 Hình 3.11 Minh họa hoạt động Velvet 52 MỞ ĐẦU Tin sinh học (bioinformatics) lĩnh vực khoa học sử dụng công nghệ ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính toán sinh học (biomathematics) để giải vấn đề sinh học Những nghiên cứu ngành tin sinh học (bioinformatics) thường trùng lặp với sinh học tính toán (computational biology) sinh học hệ thống (system biology).Những lĩnh vực nghiên cứu bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structural prediction), dự đoán biểu gen (gene expression), tương tác protein-protein (protein-protein interaction), mô hình hoá trình tiến hoá.Thuật ngữ tin sinh học sinh học tính toán thường dùng hoán đổi cho nhau, nói cách nghiêm túc trước tập sau Mối quan tâm tin sinh học sinh học tính toán việc sử dụng công cụ toán học để phân chiết thông tin hữu ích từ liệu hỗn độn thu nhận kỹ thuật sinh học với lưu lượng mức độ lớn Như vậy, phương diện lĩnh vực khai phá liệu (data mining) có trùng lặp với sinh học tính toán Bài toán đặc trưng sinh học tính toán bao gồm việc lắp ráp (assembly) trình tự ADN chất lượng cao từ đoạn ngắn ADN thu nhận từ kỹ thuật xác định ADN việc dự đoán quy luật điều hoà gen (gene regulation) với liệu từ mARN, microarray hay khối phổ (mass-spectrometry) Các lĩnh vực nghiên cứu tin sinh học gồm hệ gen học phân tích trình tự, tìm kiếm gen, tìm kiếm đột biến, phân loại học phân tử, bảo tồn đa dạng sinh học, phân tích chức gen hay biểu nhận diện chuỗi polypeptid dự đoán cấu trúc protein hệ thống sinh học kiểu mẫu, phân tích hình ảnh mức độ cao, công cụ phần mềm Trong đó, toán lắp ráp trình tự toán khó phân tích trình tự hệ gen học Do đó, nhận thấy tính thiết thực vấn đề với định hướng giáo viên hướng dẫn TS Nguyễn Cường, chọn đề tài “Một số kỹ thuậtứng dụngđể lắp ráp hệ gen với liệu trình tự ngắn tin sinh học” Đề tài trình bày số kỹ thuật lắp ráp đoạn trình tự ngắn (read) thành đoạn trình tự dài (contigs) từ thiết bị đọc trình tự hệ thử nghiệm cài đặt chương trình có chức lắp ráp đoạn reads ngắn thành đoạn contigs dài 43 chưa xác định Đồ thị dựng dựa tỉ lệ ký tự N xuất vị trí base - Phân bố độ dài trình tự: Một số thiết bị giải trình tự tạo đoạn trình tự có kích thước nhau, nhiên, phần lớn máy giải trình tự phổ biến tạo liệu trình tự với kích thước không Tiêu chí thể dạng đồ thị giúp hình dung phân bố số lượng trình tự độ dài khác - Tỉ lệ lặp trình tự: Trong thư viện trình tự, phần lớn trình tự xuất lần, mức độ lặp trình tự thấp cho biết việc giải trình tự có độ bao phủ cao hệ gen gốc Tiêu chí đưa kết tỉ lệ số trình tự có xảy trùng lặp liệu - Các chuỗi nucleotide lặp lại nhiều lần liệu: Báo cáo chất lượng FastQC cho ta bit đoạn trình tự xuất với tần số cao đột biến, nhờ ta dễ dàng dự đoán nguồn gốc đoạn trình tự Kết cho thấy chất lượng trung bình trình tự tương đối tốt, phần lớn đoạn trình tự có chất lượng trung bình 30 (tức xác suất xảy lỗi 0.01%) (Hình 3.3) Tuy nhiên chất lượng trình tự theo base (Hình 3.4) cho thấy chất lượng trình tự tương đối tốt có base có chất lượng xấu 44 Read Read Hình 3.3 Chất lượng trung bình đoạn trình tự liệu 45 Hình 3.4 Chất lượng trình tự theo vị trí base Phần lớn trình tự liệu có độ dài từ 230bp trở lên, phần nhỏ trình tự có độ dài ngắn (Hình 3.5).Điều khắc phục bước tiền xử lý, loại bỏ trình tự có kích thước ngắn mà không làm ảnh hưởng nhiều đến tính đầy đủ thuyết phục liệu 46 Read Read Hình 3.5 Chiều dài đoạn trình tự liệu Bước đánh giá chất lượng liệu cho thấy, tỉ lệ base chưa xác định đoạn trình tự mức thấp, không ảnh hưởng đến trình lắp 47 ráp Hình 3.6 Tỉ lệ base chưa xác định trình tự Ngoài ra, số tiêu chí khác tỉ lệ thành phần base, tỉ lệ thành phần GC trình tự hay mức độ lặp trình tự liệu cho thấy đáp ứng tốt việc lắp ráp hoàn chỉnh hệ gen (Hình 3.7, 3.8, 3.9) 48 Hình 3.7 Tỉ lệ thành phần base 49 Hình 3.8 Tỉ lệ thành phần GC 50 Hình 3.9 Tỉ lệ lặp trình tự Để đảm bảo chất lượng liệu đáp ứng tốt trình lắp ráp, tiến hành loại bỏ đoạn trình tự có chất lượng nhỏ 25 độ dài 100 base Công đoạn làm liệu thực với công cụ cutadapt FastX 51 Toolkit.Trước hết, bảng liệt kê chuỗi nucleotide lặp lại nhiều lần tìm FastQC bước đánh giá chất lượng, chuỗi có tần suất lặp lại lớn 1% có khả cao đoạn adapter, đoạn mồi PCR gây nhiễu trình lắp ráp Do chuỗi nucleotide loại bỏ sử dụng cutadapt cutadapt hoạt động dựa nguyên tắc tìm kiếm chuỗi nucleotide khai báo hai đầu 3’ 5’ tất trình tự thư viện, sau cắt bỏ chuỗi nucleotide khỏi liệu Tiếp đó, chức fastq_quality_trimmer nằm công cụ FastX Toolkit sử dụng để xử lý trình tự chất lượng thấp kích thước ngắn theo ngưỡng định sẵn Sau bước tiền xử lý, liệu lắp ráp thành contig sử dụng thuật toán SSA.Nhằm mục đích đối chiếu, liệu đồng thời lắp ráp sử dụng thuật toán phổ biến Velvet Hình 3.10 Minh họa hoạt động SSA 52 Hình 3.11 Minh họa hoạt động Velvet Kết thuật toán SSA so sánh với kết lắp ráp liệu với phần mềm Velvet (phần mềm phổ dụng nay) để đối chiếu kết thực nghiệm.Kết lắp ráp tóm tắt bảng sau 53 Bảng 3.1 Bảng tóm tắt kết lắp ráp thuật toán SSA Velvet Thống kê SSA Velvet Thời gian chạy 14 phút 16 phút Tổng số contigs 20.757 40.145 Số contigs >= 500 bp 3.009 1.568 Số contigs >= 1000 bp 301 994 Độ dài lớn (bp) 4.327 23.848 Tổng độ dài genome 7.074.682 9.477.030 N50 5.237 5.012 N75 10.688 2.612 L50 368 268 L75 277 566 67.05 69.7 GC (%) Kết cho thấy, thuật toán SSA đạt kết định việc lắp ráp liệu giải trình tự hệ so với công cụ sẵn có sử dụng rộng rãi Velvet với thời gian lắp ráp nhanh hơn, 14 phút so với 16 phút Chỉ số N50, số quan trọng để đánh giá chất lượng lắp ráp trình tự, SSA cao so với Velvet Lý để SSA có N50 cao N50 Velvet SSA áp dụng thêm số điều kiện tối ưu loại bỏ Tip Bubble xử lý đồ thị Độ dài contig lắp ráp phần lớn nằm khoảng từ 500 đến 1000 base pair, đồng so với kết lắp ráp thành contig Velvet Tuy nhiên, khả lắp ráp contig lớn 1000 base SSA hạn chế, tổng độ dài genome lắp ráp nhỏ so với Velvet Ngoài ra, Bảng 3.2 cho thấy, chương trình SSA có kết lắp ráp tương đương với phần mềm Velvet Tỉ lệ số trình tự lắp ráp SSA tương đương với tỷ lệ Velvet Số lượng trình tự không sử dụng để lắp ráp khoảng 18% thường trình tự không bắt cặp với trình 54 tự khác có nguồn gốc lây nhiễm trình tiến hành tách chiết ADN Với mẫu có chất lượng tách chiết không cao, tỷ lệ lây nhiễm lên tới 30% chí 45% Bảng 3.2: Thống kê tỉ lệ trình tự sử dụng để lắp ráp SSA Velvet Tỷ lệ trình tự lắp ráp 81.8% 83.1% 55 KẾT LUẬN Những kết luận luận văn Luận văn đạt hai kết sau đây: 1) Nắm bắt khái niệm tin sinh học bao gồm: khái niệm gen, hệ gen, công nghệ giải mã hệ gen đặc biệt công nghệ giải trình tự gene từ thiết bị đọc trình tự hệ 2) Nắm bắt thuật toán để giải toán lắp ráp hoàn chỉnh hệ gen từ đoạn trình tự thu công nghệ giải trình tự hệ Từ tìm thuật toán cải tiến để lắp ráp hoàn chỉnh hệ gen sát với lý thuyết Thuật toán cài đặt thử nghiệm có thời gian chạy nhanh với số lượng contig lắp ráp nhỏ hơn, độ dài contig lớn hơn, thuật toán có tiến đáng kể việc lắp ráp liệu giải trình tự hệ so với công cụ sẵn có sử dụng rộng rãi Velvet Tuy nhiên thuật toán hạn chế số lượng contig lắp ráp tăng lên thuật toán không đạt mong muốn đề Hướng phát triển Tiếp tục nghiên cứu thử nghiệm thuật toán nhằm khắc phục hạn chế thuật toán nghiên cứu 56 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật, Hà Nội [2] Nguyễn Cường (2013), Định dạng liệu FastA FastQ, http://www.tinsinhhoc.org/genomics/104-fasta-fastq-formats, ngày 25/11/2013 Tiếng Anh [3] Hogeweg P, Hesper (1984) The alignment of sets of sequences and the construction of phylogenetic trees An integrated method J Mol E vol 20, p 175-186 [4] Iafrate AJ, Feuk L, Rivera MN, Listewnik ML, Donahoe PK, Qi Y, Scherer SW, Lee C (2004 Sep) Detection of large-scale variation in the human genome Nat Genet [5] Lars Feuk, Andrew R Carson and Stephen W Scherer (2006): Structural variation in the human genome, Nature Renew Gennetics, 7(2), p 85-97 [6].Alkan C., Coe B.P and Eichler E.E (2011), Genome structural variation discovery and genotyping Nat Rev Genet., vol 12, p 363-376 [7] Teague, B et al High-resolution human genome structure by singlemolecule analysis (2010) Proc Natl Acad Sci USA 107, p 10848–10853 [8] Poehlmann, A., D Kuester, et al (2007) "K-ras mutation detection in colorectal cancer using the Pyrosequencing technique." Pathology, research and practice203(7): 489-497 [9] Li H.: Wgsim - Read simulator for next generation sequencing http://github.com/lh3/Wgsim [10] Homer, N, and Merriman, B TMAP: the Torrent Mapping Alignment Program In Preparation [11] Li H and Durbin, R (2010) Fast and accurate long-read alignment with Burrows-Wheeler transforms Bioinformatics, 26, 589–595 57 [12] Chen, K et al (2009) BreakDancer: an algorithm for highresolution mapping of genomic structural variation Nat Methods 6, 677-681 [13] Wang L, Jiang T (1994), On the complexity of multiple sequence alignment, J Comput Biol T 1, Vol 4, p337 – 348 [14] David Edwards, Jason Stajich, David Hansen (2009) Bioinformatics: Tools and Applications, Springer Science & Business Media [...]... tìm hiểu các kỹ thuật lắp ráp hệ gen với dữ liệu từ các đoạn trình tự ngắn này thành các đoạn trình tự dài hơn Hình 1.1 Quy trình phân tích hệ gen sinh vật từ dữ liệu giải trình tự 5 Lắp ráp trình tự đoạn ngắn được phát biểu như sau:“Cho một tập các cặp reads trong đó mỗi cách đọc trình tự xuôi và ngược bị chia bởi một khoảng cách xác định trong hệ gen nguồn, hãy dựng lại hoàn chỉnh hệ gen nguồn đó”... TOÁN LẮP RÁP TRÌNH TỰ GEN 1.1 Bài toán lắp ráp trình tự gen Đọc trình tự gen (DNA sequencing) là việc xác định thứ tự các nucleotide gắn kết với nhau dọc theo chiều dài của gen (DNA), và trình tự gắn kết nhau của các nucleotide được gọi là trình tự gen Thông tin về trình tự gen rất hữu ích cho các nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng như chẩn đoán, công nghệ sinh học, sinh học. .. đoạn trình tự được đọc có độ dài nhỏ.Vì vậy, một thế hệ mới các thuật toán và ứng dụng phục vụ lắp ráp đoạn ngắn đã ra đời để khắc phục những chướng ngại đi kèm với loại dữ liệu trình tự mới này Các công nghệ lập trình thế hệ mới sử dụng trong lắp ráp có thể được chia thành 3 nhóm lớn gồm: lắp ráp tham lam, lắp ráp overlap-layout-consensus (OLC) và lắp ráp dựa trên đồ thị De Bruijn Đã có nhiều thuật. .. 2 x số đoạn read / độ dài hệ gen (áp dụng cho thư viện cặp read) - Contig: một đoạn trình tự đã được lắp ráp (biết trình tự) được giả thiết tạo thành một khoảng liên tục trên hệ gen gốc - Scaffold (super contig): Là chuỗi AND được tạo ra khi lắp ráp các contig lại với nhau mà được giả thiết sắp xếp theo cùng một thứ tự trên trong hệ gen đích, có thể bị chia cắt bởi những đoạn chưa rõ trình tự Trong. .. nghệ đọc trình tự mới luôn hướng tới làm tăng dung lượng (throughput) và làm giảm thời gian, giảm giá thành (Schadt, Turner et al 2010) Từ dữ liệu thô ban đầu, các nhà khoa học tiến hành tiền xử lý dữ liệu bằng 4 hoá chất được dữ liệu tinh sạch, dữ liệu sạch này qua thiết bị đọc trình tự thế hệ mới sẽ thu được các đoạn trình tự ngắn ADN dưới dạng A,C,G,T Các đoạn trình tự ngắn này là một khối dữ liệu. .. lỗi Các bộ dữ liệu thực thường chứa một số lỗi gây khó khăn cho việc lắp ráp hệ gen Do đó, nhiều công cụ lắp ráp phải thực hiện riêng bước tiền xử lý dữ liệu để loại bỏ những lỗi này .Thuật toán SSA sử dụng RACER để sửa lại đúng các đoạn trình tự trước khi lắp ráp chúng Tất cả các bộ dữ liệu đã được dùng để thử nghiệm thuật toán SSA đều được sửa lỗi bởi RACER 2.3.3 Xây dựng Overlap graph Để dựng được... nghệ đọc trình tự Trước đây, kỹ thuật Sanger 1500 bp (Sanger) chỉ có thể đọc được vài nghìn cho đến vài chục nghìn basepair cho một lần đọc, nhưng với công nghệ đọc trình tự thế hệ mới dữ liệu trình tự thu được cho một lần đọc từ 8 tỷ basepair (8Gb) đến 600 tỷ basepair (Gb), có nghĩa là cho phép đọc trình tự toàn bộ hệ gen của các loài (hệ gen người chỉ có 3.2 tỷ basepair) (Hình 1.3) Do vậy đọc trình. .. LẮP RÁP HỆ GEN VỚI DỮ LIỆU TRÌNH TỰ ĐOẠN NGẮN TRONG TIN SINH HỌC 2.1 Thuật toán Overlap Layout Consensus (OLC) Ở phương pháp này, phép lắp ráp được thực hiện thông qua việc xây dựng một đồ thị overlap Đồ thị overlap dùng để hiển thị các đoạn trình tự và đoạn gối chồng giữa chúng Các đoạn gối chồng được tính toán bằng một chuỗi các phép gióng hàng đôi một các đoạn trình tự. Ở đây trình tự được biểu diễn... của một loài hoặc một cá thể, bước khởi đầu thiết yếu cần được thực hiện là giải trình tự, lắp ráp hoàn chỉnh và phân tích hệ gen của chúng.Công nghệ giải trình tự thế hệ mới đã đem lại một cách tiếp cận mới cho nhiệm vụ đóng vai trò cơ bản này Với phương thức hoạt động có tính song song cao, các thiết bị giải trình tự thế hệ mới có khả năng đọc được số lượng trình tự lớn hơn trong một thí nghiệm, với. .. dựng được overlap graph từ bộ dữ liệu đầu vào, chúng ta cần tìm tất cả những cặp trình tự có đoạn trùng lặp với nhau SSA nhận tham số minOverlap là một đầu vào, tham số này biểu thị số base trùng lặp tối thiểu giữa hai đoạn trình tự để hai đoạn này được nối với nhau bằng một cạnh trên đồ thị Nếu trong dữ liệu đầu vào có n đoạn trình tự riêng biệt, số cặp trình tự cần so sánh để tìm ra các cặp trùng lặp