Tối ưu hoá và đánh giá hiệu năng của tổ chức cache trong hệ thống vi xử lý thế hệ sau (tóm tắt)

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HỒ VĂN PHI TỐI ƯU HÓA VÀ ĐÁNH GIÁ HIỆU NĂNG CỦA TỔ CHỨC CACHE TRONG HỆ THỐNG VI XỬ LÝ THẾ HỆ SAU Chuyên ngành: Kỹ thuật Viễn thông Mã số: 62520208 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT VIỄN THÔNG Hà Nội - 2014 Công trình này được hoàn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: 1. TS. Hồ Khánh Lâm 2. TS. Nguyễn Viết Nguyên Phản biện 1. PGS. TS. Trần Đình Quế Phản biện 2. PGS. TS. Nguyễn Quang Hoan Phản biện 3. PGS. TS. Nguyễn Thị Việt Hương Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ cấp Trường họp tại Trường Đại học Bách khoa Hà Nội Vào hồi… giờ, ngày….tháng….năm…. Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội 2. Thư viện Quốc gia 1 MỞ ĐẦU 1. Tính cấp thiết của luận án Các kiến trúc chip đa xử lý (CMP) đa luồng và các cấu hình mạng liên kết trên chip (OCIN) hiện nay chỉ phù hợp cho các chip đa lõi có quy mô nhỏ, có độ trễ truyền thông cao và khả năng mở rộng thấp. Khi số lượng lõi trên chip tăng sẽ gây ra trễ truyền thông quá lớn, mức tăng tốc giảm gây ra nghẽn nút cổ chai làm suy giảm hiệu năng và khả năng mở rộng của bộ xử lý. Đây là thách thức lớn cho các nhà nghiên cứu và sản xuất chip đa lõi trên thế giới. Tại Việt Nam vấn đề nghiên cứu và sản xuất CMP cũng được bắt đầu quan tâm và được ưu tiên hàng đầu. Đến nay, Việt Nam đã sản xuất thành công CMP 32-bit VN1632 với công nghệ 0,13µm. Có thể thấy rằng, việc nghiên cứu và chế tạo CMP đa luồng đã và đang là một vấn đề thu hút sự quan tâm đặc biệt lớn trên thế giới và Việt Nam. Định hướng nghiên cứu tối ưu hóa tổ chức cache nhằm nâng cao hiệu năng của CMP đa luồng là một định hướng đúng đắn có ý nghĩa khoa học và thực tiễn. 2. Mục đích nghiên cứu của luận án - Nghiên cứu phân tích ảnh hưởng của tổ chức cache đa cấp và các chính sách thay thế cache đến hiệu năng của CMP đa luồng. - Xây dựng các mô hình kiến trúc CMP đa luồng, đa cấp cache, tiến hành phân tích và đánh giá hiệu năng của các kiến trúc để lựa chọn tổ chức cache tối ưu nhằm nâng cao hiệu năng của CMP đa luồng. - Nghiên cứu ảnh hưởng của mạng liên kết giữa các lõi trên chip đến hiệu năng của CMP đa luồng để từ đó lựa chọn cấu hình OCIN phù hợp với kiến trúc CMP đa luồng. 3. Đối tượng và phạm vi nghiên cứu của luận án  Đối tượng nghiên cứu: Luận án tập trung nghiên cứu tổ chức cache đa cấp trong kiến trúc CMP đa luồng. 2  Phạm vi nghiên cứu: - Luận án tập trung nghiên cứu các tổ chức cache có 2 cấp (với L1 cache riêng cho mỗi lõi và L2 cache chia sẻ cho tất cả các lõi), và 3 cấp cache (với L1, L2 cache riêng cho mỗi lõi và L3 cache chia sẻ cho tất cả các lõi) cho các kiến trúc CMP đa luồng có 2-lõi, 4-lõi và 8-lõi trên chip. - Dựa vào mô hình mạng xếp hàng đóng có dạng tích các xác suất (MCPFQN) để phân tích, đánh giá hiệu năng của CMP đa luồng với đa cấp cache theo các thông số hiệu năng (thời gian chờ đợi, thời gian đáp ứng, mức độ sử dụng, thông lượng tại các nút, thông lượng hệ thống…). Các thông số hiệu năng này được xác định bằng phân tích giá trị trung bình (MVA). Đồng thời, tiến hành đánh giá ảnh hưởng của các cấu hình mạng liên kết các lõi trên chip đến hiệu năng của kiến trúc CMP đa luồng đã đề xuất. Trên cơ sở đó, lựa chọn tổ chức cache và cấu hình OCIN phù hợp nhất để nâng cao hiệu năng của CMP đa luồng. 4. Phương pháp nghiên cứu của luận án - Sử dụng lý thuyết mạng xếp hàng đóng có dạng tích các xác suất để xây dựng mô hình cho kiến trúc CMP đa luồng với đa cấp cache. - Sử dụng thuật toán giá trị trung bình (MVA) và tiến hành mô phỏng trên máy tính bằng phần mềm JMT v.0.8.0 để đánh giá hiệu năng của kiến trúc CMP đa luồng. 5. Ý nghĩa khoa học và thực tiễn của luận án Nghiên cứu và đề xuất các kiến trúc CMP đa luồng nhằm nâng cao hiệu năng của hệ thống xử lý luôn được các nhà nghiên cứu và chế tạo chip trong và ngoài nước quan tâm và hướng tới. Đây là vấn đề có tính khoa học và thực tiễn cao. Luận án là nghiên cứu mở đầu về kiến trúc CMP đa luồng ở Việt Nam. Các mô hình đề xuất và các kết quả nghiên cứu của luận án có thể góp phần mở ra triển vọng nghiên cứu và chế tạo CMP đa luồng đáp ứng nhu cầu đổi mới công nghệ ở Việt Nam. 6. Cấu trúc của luận án Nội dung của luận án được trình bày gồm 4 chương như sau: 3 Hình 1. 1 : Kiến trúc chung của CMP đa luồng. Chương 1: Tổng quan về kiến trúc CMP đa luồng. Chương 2: Nghiên cứu tổ chức cache, chính sách thay thế cache trong kiến trúc CMP đa luồng. Chương 3: Phân tích đánh giá hiệu năng của tổ chức cache trong kiến trúc CMP đa luồng. Chương 4: Giải pháp tối ưu hóa hiệu năng của tổ chức cache trong kiến trúc CMP đa luồng. Chương 1 TỔNG QUAN VỀ KIẾN TRÚC CMP ĐA LUỒNG 1.1. Giới thiệu 1.2. Kiến trúc của CMP đa luồng 1.2.1. Kiến trúc chung của CMP đa luồng Hình 1.1 thể hiện kiến trúc chung của một CMP đa luồng. Việc đặt nhiều lõi lên cùng một vi mạch sẽ giúp giảm không gian trên bản mạch chính. Thêm nữa, các lõi trên cùng một vi mạch sẽ làm việc kết hợp cùng nhau và nâng cao được hiệu năng hơn, xung tín hiệu truyền giữa các lõi sẽ ngắn hơn, trễ truyền thông giảm và nguồn điện tiêu thụ ít đi. 1.2.2. Kiến trúc CMP đa luồng đồng thời Luồng là trình tự một số lệnh thực hiện bởi tài nguyên của lõi xử lý. Trong kỹ thuật SMT, mỗi CPU logic sở hữu một tập các thanh ghi riêng kể cả thanh ghi bộ đếm chương trình PC. CPU vật lý sẽ luân phiên các giai đoạn tìm/giải mã giữa các CPU logic và cố gắng thực thi những thao tác từ các chuỗi lệnh đồng thời theo cách hướng tới những đơn vị thực thi ít được sử dụng. 4 Đặc điểm của kỹ thuật SMT đưa vào CMP làm tăng tốc độ xử lý của CMP. Nếu các luồng độc lập với nhau và sử dụng tài nguyên khác nhau của lõi xử lý thì một lõi có thể thực hiện đồng thời nhiều luồng. Nếu một CMP-SMT có 4-lõi và mỗi lõi xử lý hai luồng thì có thể coi CMP có tới 8-lõi xử lý ảo. 1.2.3. Mạng liên kết trên chip Mạng liên kết trên chip (OCIN) được nghiên cứu nhiều trong tiến trình phát triển công nghệ CMP đa luồng. Hiện nay, có một số cấu hình OCIN được sử dụng phổ biến trong các kiến trúc CMP đa luồng như: mạng giao nhau (Crossbar) được sử dụng trong chip Corei7 của Intel, Power5 của IBM, UltraSPARCT1/2 của Sun; mạng vòng (Ring) được sử dụng trong các chip Power4, Cell của IBM; mạng lưới 2D (2DMesh) được sử dụng trong chip Tile64 64-lõi của Tilera, Tera-Scale 80-lõi của Intel Ngoài ra, các mạng liên kết như: mạng cây béo (Fat tree), mạng hình bướm (Butterfly), mạng siêu lập thể (Hypercube) mạng lưới vòng 2D (2DTorus), mạng lưới 3D (3DMesh), mạng lưới vòng 3D (3DTorus), cũng được các nhà nghiên cứu và nhà sản xuất chip quan tâm nghiên cứu đến. Khi số lượng lõi xử lý càng lớn thì vấn đề mạng liên kết các lõi trên chip càng phức tạp và trễ truyền thông giữa các lõi qua mạng liên kết là đáng kể và khả năng mở rộng bị hạn chế. Đây là vấn đề thách thức lớn cho các nhà nghiên cứu. Để đánh giá ảnh hưởng của các cấu trúc OCIN đến hiệu năng của CMP đa luồng, các nghiên cứu hiện nay đều dựa vào một số thông số mạng sau: Số liên kết (L); Cấp độ của nút (d); Đường kính của mạng (D); Khoảng cách trung bình (H); Độ rộng chia đôi (B); Độ phức tạp sinh trưởng (G); Trễ; Băng thông của một liên kết; Băng thông hiệu dụng; Băng thông của độ rộng chia đôi. 1.2.4. Phân cấp hệ thống nhớ Hệ thống nhớ được phân thành một số lớp như hình 1.2. Trong đó: 1. L0: là các thanh ghi bên trong chip, có tốc độ bằng tốc độ của lõi. L0 có thời gian truy nhập khoảng (0,3  0,5)ns. 5 2. L1 cache (cache sơ cấp): là một bộ nhớ dung lượng khoảng (8  128) KB, sử dụng công nghệ SRAM được tích hợp trên CMP. L1 cache có thể đạt tới tốc độ của lõi, L1 có thời gian truy nhập nhỏ, (1  3)ns. 3. L2 cache (cache thứ cấp): là bộ nhớ sử dụng công nghệ SRAM nằm trên chip, thường có dung lượng 256KB, 512KB, (1  3)MB và có thời gian truy nhập khoảng (3  10)ns. 4. L3 cache: là bộ nhớ sử dụng công nghệ SRAM, có thể nằm trên chip hay nằm ngoài chip đa xử lý. L3 cache có dung lượng 2MB, 4MB, 6MB, 8MB, hay 12MB và L3 cache có thời gian truy nhập lớn hơn L2 cache, khoảng (10  20)ns. 5. Bộ nhớ chính: có thể là L3 hay là L4. Sử dụng công nghệ DRAM có dung lượng lớn hơn nhiều so với các cache, khoảng (4  16)GB, và có thời gian truy nhập lớn, khoảng (50  100)ns. 6. Các thiết bị nhớ trên đĩa cứng (bộ nhớ thứ cấp): có dung lượng lớn hơn nhiều so với bộ nhớ chính, khoảng (1  16)TB, nhưng có thời gian truy nhập lớn, khoảng (5  10)ms. 7. Thiết bị nhớ trên mạng: như các hệ thống đĩa cứng (RAID) trên các máy chủ dịch vụ mạng trên LAN. 1.3. Kết luận chương 1 Chương này đã trình bày tổng quan về kiến trúc CMP đa luồng, các cấu hình OCIN, và tổ chức bộ nhớ phân cấp. Hiệu năng của CMP đa luồng phụ thuộc rất nhiều vào công nghệ bộ nhớ cache: tổ chức cache, dung lượng của cache, số cấp cache (L1, L2, hay L3), chính sách thay thế cache, và cấu hình mạng liên kết các lõi trên chip. Khi số lượng lõi trên chip Hình 1.2: Phân lớp của hệ thống nhớ. Bộ nhớ chính chứa các khối dữ liệu lấy từ đĩa cục bộ Đĩa cục bộ chứa các file lấy từ các máy chủ dịch vụ mạng CPU Registers Cache trên chip (SRAM) Cache trên chip (SRAM) Bộ nhớ chính (DRAM) Thiết bị nhớ trên đĩa cứng Thiết bị nhớ trên mạng Cache trên hay ngoài chip (SRAM) L0 L1 L2 L3 L4 L5 L6 CPU registers chứa các từ lấy từ L1 cache L1 cache chứa các dòng cache lấy từ L2 cache L2 cache chứa các dòng lấy từ L3 cache L3 cache chứa các dòng lấy từ bộ nhớ chính Dung lư ợng nhỏ hơn,tốc độ nhanh hơn,chí phí cao hơn. Dung lư ợng lớn hơn, tốc độ chậm hơn, chí phí thấp. hơn 6 tăng thì một số kiến trúc đang được sử dụng gặp rất nhiều hạn chế về khả năng mở rộng. Đây cũng là một thách thức lớn cho các nhà nghiên cứu và sản xuất chip hiện nay. Chương 2 NGHIÊN CỨU TỔ CHỨC CACHE, CHÍNH SÁCH THAY THẾ CACHE TRONG KIẾN TRÚC CMP ĐA LUỒNG 2.1. Tổ chức cache trong kiến trúc CMP đa luồng 2.1.1. Cache và các nguyên tắc làm việc của cache Cache như là bộ nhớ trung gian nằm giữa CPU và bộ nhớ chính. Cache sử dụng công nghệ SRAM, dung lượng nhỏ, tốc độ truy nhập nhanh. Sự trao đổi dữ liệu giữa CPU và cache theo các từ, trong khi sự trao đổi dữ liệu giữa cache và bộ nhớ chính theo các khối như hình 2.1. Hình 2.1: Trao đổi dữ liệu giữa CPU, cache và bộ nhớ chính. Bộ nhớ cache làm việc nhờ sự dự đoán CPU sẽ tham chiếu đến vùng nhớ và tải nội dung của vùng nhớ đó vào cache trước khi CPU thực hiện tham chiếu đến bộ nhớ. Có 3 nguyên tắc tham chiếu: Vị trí tạm thời; Vị trí không gian; Vị trí tuần tự. 2.1.2. Các thành phần của cache 2.1.3. Các tổ chức cache Cả chip đơn lõi và chip đa lõi đều sử dụng ba tổ chức cache: 2.1.3.1. Cache liên kết đầy đủ Cache liên kết đầy đủ cho phép sự sắp xếp linh hoạt các khối nhớ từ bộ nhớ chính vào bất kỳ dòng cache nào có thể, do đó nó cho tỷ số trúng cache cao. Tuy nhiên, cache liên kết đầy đủ có sơ đồ thực hiện tìm kiếm phức tạp, thời gian tìm kiếm lâu hơn khi dung lượng cache tăng lên, cache liên kết đầy đủ chỉ ứng dụng cho các cache có dung lượng nhỏ hơn 4KB. 2.1.3.2. Cache sắp xếp trực tiếp Cache sắp xếp trực tiếp còn được gọi là cache liên kết tập hợp 1-dòng. Sơ đồ tìm kiếm trong cache sắp xếp trực tiếp đơn CPU Cache Bộ nhớ chính Các từ Các khối Bus bộ nhớ Bus cục bộ 7 giản, có tốc độ tìm kiếm nhanh, chi phí thấp. Tuy nhiên, thường xảy ra tham chiếu lặp đi, lặp lại đến một số khối của bộ nhớ chính có sắp xếp vào cùng một dòng của cache. 2.1.3.3. Cache liên kết tập hợp Cache liên kết tập hợp là sự kết hợp của hai tổ chức cache: liên kết đầy đủ và sắp xếp trực tiếp. Tổ chức này có sơ đồ tìm kiếm đơn giản, có tốc độ tìm kiếm nhanh, chi phí thấp. Tổ chức cache liên kết tập hợp hạn chế được trường hợp tham chiếu lặp đi lặp lại đến một số khối của bộ nhớ chính. Cache liên kết tập hợp 2- , 4-, và 8-dòng cho tỷ số trúng cache cao. 2.2. Các đặc tính hiệu năng của cache 2.2.1. Các tỷ số trúng cache và trượt cache 2.2.1.3. Tỷ số trúng, trượt cache và trượt penalty  Thời gian trung bình truy nhập bộ nhớ (AMAT) trong hệ thống được xác định: - Hai cấp cache (L1, L2): L1misspenalty = (L2hit time)+ (L2missrate)(L 2misspenalty) (2.1) L2miss penalty = MAT (2.2) L1L2 AMAT = L1hit time + (L1missrate)(L2hit time + (L2missrate)(L2 miss penalty)) (2.3a) L1L2 hay AMAT = L1hit time + (L1missrate)(L2 hit time + (L2missrate)(MAT)) (2.3b) - Ba cấp cache (L1, L2, L3): L1misspenalty = (L2hittime) + (L2missrate)(L 2misspenalty) (2.4) L2misspenalty = (L3hit time) +(L3missrate)(L 3misspenalty) (2.5) L3misspenalty = MAT (2.6) L1L2L3 AMAT = L1hittime+(L1missrate)(L2hittime+(L 2missrate) ×(L3hittime+(L3missrate)(L3miss penalty))) (2.7a) L1L2L3 hay AMAT = L1hit time+(L1missrate)(L2hitti me+(L2missrate) ×(L3hittime+(L3missrate)(MAT))) (2.7b)  Mức độ tăng tốc SP của hệ thống: 8 SP = MAT/AMAT (2.8) 2.2.1.4. Bus bộ nhớ, kích thước từ nhớ, kích thước khối và trượt penalty  Trượt penalty - Hai cấp cache (L1, L2): L2 miss penalty =Trễ truy nhập bộ nhớ+Thời gian truyền khối L2cache (2.9) - Ba cấp cache (L1, L2, L3): L3 miss penalty =Trễ truy nhập bộ nhớ+Thời gian truyền khối L3cache (2.10) 2.2.1.6. Trì hoãn truy cập bộ nhớ  Số chu kỳ đồng hồ trì hoãn truy cập bộ nhớ mà CPU thực hiện cho một truy cập bộ nhớ (MSPMA) được xác định bằng: MSPMA = AMAT - 1 (2.11)  Số chu kỳ đồng hồ trì hoãn truy cập bộ nhớ trung bình cho một lệnh được xác định bằng: - Hai cấp cache (L1, L2) L1L2 MSPI = MAPI × L1 miss rate ×(L2 hit time +L2 miss rate × L2 miss penalty) (2.12a) hay L1L2 L1L2 MSPI =(AMAT - L1hit time)×MAPI (2.12b) - Ba cấp cache (L1, L2, L3) L1L1L3 MSPI = MAPI×L1miss rate×(L2 hit time + L2 mis s rate × (L3hit time+ L3miss rate × L3 miss penalty) (2.13 a) hay L1L1L3 L1L2L3 MSPI = (AMAT - L1hit time) ×MAPI (2.13b) Hiệu năng của hệ thống 3 cấp cache so với 2 cấp cache là : L1L2 L1L2L3 Performance = (MSPI +L1hit time)/ (MSPI +L1hit time) (2.14) 2.2.1.7. Ảnh hưởng của tổ chức cache đến trượt penalty Giả sử rằng cache liên kết tập hợp 2-dòng tăng thời gian trúng lên 10% chu kỳ. Thời gian trúng đối với L2 cache sắp xếp trực tiếp là 10 chu kỳ. Tỷ số trượt cục bộ đối với L2 cache sắp xếp trực tiếp là 25%. Tỷ số trượt cục bộ đối với L2 cache liên kết tập hợp 2-dòng là 20%. Trượt penalty đối với L2 cache là 50 chu kỳ. Khi đó, AMAT được xác định: [...]... dụng để phân tích và đánh giá hiệu năng của kiến trúc CMP đa luồng - Sử dụng mô hình MCPFQN cho kiến trúc CMP đa luồng để đánh giá hiệu năng của tổ chức cache đa cấp - Thực hiện mô phỏng bằng JMT v.0.8.0 để đánh giá hiệu năng của các tổ chức cache trong kiến trúc CMP đa luồng và thấy rằng, kiến trúc CMP đa luồng có 3 cấp cache, trong đó L3 cache chia sẻ cho các lõi đạt được hiệu năng xử lý là tốt nhất... chế băng thông, làm tăng độ trễ và gây nghẽn nút cổ chai tại cấp cache chia sẻ Vì vậy, vi c nghiên cứu đánh giá đề xuất mô hình tổ chức cache phù hợp nhằm cải thiện và nâng cao hiệu năng của CMP đa luồng là hết sức cần thiết Chương 3 PHÂN TÍCH ĐÁNH GIÁ HIỆU NĂNG CỦA TỔ CHỨC CACHE TRONG KIẾN TRÚC CMP ĐA LUỒNG 3.1 Cơ sở lý thuyết để phân tích đánh giá hiệu năng của tổ chức cache 3.1.1 Kiến trúc CMP đa luồng... đa luồng có 2 cấp cache, trong đó L1 cache riêng cho mỗi lõi và L2 cache chia sẻ cho tất cả các lõi như hình 3.1a và kiến trúc CMP đa luồng có 3 cấp cache, trong đó L1, L2 cache riêng cho mỗi lõi và L3 cache chia sẻ cho tất cả các lõi như hình 3.1b, nhằm phân tích đánh giá hiệu năng của từng kiến trúc, để từ đó chọn ra kiến trúc CMP đa luồng có tổ chức cache phù hợp cho hiệu năng xử lý tốt nhất CPU 1... được hiệu năng của CMP đa luồng KẾT LUẬN 1 Những đóng góp chính của Luận án - Ứng dụng mô hình mạng xếp hàng đóng đa lớp có dạng tích các xác suất để phân tích, đánh giá hiệu năng của các tổ chức cache đa cấp với cache cấp cuối là cache chia sẻ thông minh Từ đó, đánh giá được những ưu, nhược điểm của các tổ chức cache này - Đề xuất giải pháp kiến trúc cụm lõi cho CMP đa luồng có 3 cấp cache với L3 cache. .. cứu và sản xuất chip trên thế giới đang quan tâm DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 1 Hồ Khánh Lâm, Nguyễn Minh Quý, Hồ Văn Phi (2011) “Phân tích hiệu năng của tổ chức Cache trong kiến trúc vi xử lý đa lõi” Kỷ yếu Hội nghị khoa học công nghệ thông tin và truyền thông ĐHBK Hà Nội, 10/2011; ISBN: 978-604-911-032-0, pp.67-73 2 Hồ Văn Phi, Hồ Khánh Lâm (2012) Đánh giá hiệu năng của tổ chức cache. .. kiến trúc CMP đa luồng Đánh giá các tổ chức cache và lựa chọn tổ chức cache liên kết tập hợp n-dòng cho hiệu năng cao nhất 12 - Nghiên cứu các chính sách thay thế cache cho kiến trúc CMP đa luồng nhằm nâng cao hiệu năng xử lý Tuy nhiên, các nghiên cứu hiện nay đều tập trung tổ chức cache 2 cấp với L2 cache chia sẻ cho tất cả các lõi Với kiến trúc chip có 2 cấp cache như vậy, khi số lượng lõi tăng... 0 L 2cache chung L 3cache chung L 2cache chung Mức độ sử dụng L 3cache chung Thông lượng 1 0.8 0.6 0.4 0.2 0 1.5 1 0.5 0 L 2cache chung L 2cache chung L 3cache chung L 3cache chung Hình 3.4: Biểu diễn giá trị trung bình các thông số hiệu năng ở các nút khi chip có 4-lõi, mỗi lõi xử lý 8-luồng với L2 cache chung và L3 cache chung  CMP đa luồng có 8-lõi Bảng 3.3: Giá trị trung bình của các thông số hiệu năng. .. 60 40 20 0 L 2cache chung Thời gian đáp ứng (ns) 150 100 50 0 L 3cache chung L 2cache chung L 3cache chung 18 Mức độ sử dụng Thông lượng 1.5 0.6 1 0.4 0.5 0.2 0 0 L 2cache chung L 3cache chung L 2cache chung L 3cache chung Hình 3.5: Biểu diễn giá trị trung bình các thông số hiệu năng ở các nút khi chip có 8-lõi, mỗi lõi xử lý 8-luồng với L2 cache chung và L3 cache chung 3.3.2.2 Đánh giá hiệu năng các CMP đa... chung L 3cache chung Hình 3.3: Biểu diễn giá trị trung bình các thông số hiệu năng ở các nút khi chip có 2-lõi, mỗi lõi xử lý 8-luồng với L 2cache chung và L3 cache chung  CMP đa luồng có 4-lõi Bảng 3.2: Giá trị trung bình của các thông số hiệu năng khi chip có 4lõi, mỗi lõi xử lý 8-luồng Thông lượng Thời gian chờ đợi Thời gian đáp ứng Mức độ sử dụng (Số công vi c/ns) (ns) (ns) L2 cache L3 cache L2 cache. .. 8-lõi của Intel - Kiến trúc cache chia sẻ đem lại nhiều lợi ích và đảm bảo tỷ số hiệu năng/ chi phí tốt hơn so với cache riêng - Sử dụng hiệu quả cache chia sẻ - Linh hoạt cho người lập trình - Giảm được sự phức tạp của logic kết dính cache - Giảm dư thừa lưu trữ dữ liệu - Giảm lưu lượng của bus bộ nhớ 2.7 Kết luận chương 2 Chương này đã nghiên cứu các tổ chức cache của kiến trúc CMP đa luồng Đánh giá . BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HỒ VĂN PHI TỐI ƯU HÓA VÀ ĐÁNH GIÁ HIỆU NĂNG CỦA TỔ CHỨC CACHE TRONG HỆ THỐNG VI XỬ LÝ THẾ HỆ SAU . thiết. Chương 3 PHÂN TÍCH ĐÁNH GIÁ HIỆU NĂNG CỦA TỔ CHỨC CACHE TRONG KIẾN TRÚC CMP ĐA LUỒNG 3.1. Cơ sở lý thuyết để phân tích đánh giá hiệu năng của tổ chức cache 3.1.1. Kiến trúc CMP đa. CMP đa luồng để đánh giá hiệu năng của tổ chức cache đa cấp. - Thực hiện mô phỏng bằng JMT v.0.8.0 để đánh giá hiệu năng của các tổ chức cache trong kiến trúc CMP đa luồng và thấy rằng, kiến

Tối ưu hoá và đánh giá hiệu năng của tổ chức cache trong hệ thống vi xử lý thế hệ sau (tóm tắt)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan