Tiểu luận Công nghệ tri thức và ứng dụng ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN SỬ DỤNG THIẾT BỊ KẾT NỐI MẠNG

19 607 0
Tiểu luận Công nghệ tri thức và ứng dụng ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN SỬ DỤNG THIẾT BỊ KẾT NỐI MẠNG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÀI THU HOẠCH MÔN CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG ĐỀ TÀI:ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN SỬ DỤNG THIẾT BỊ KẾT NỐI MẠNG Học viên thực hiện : Họ tên : Lê Chí Cảnh MSHV : CH1301081 Giảng viên hướng dẫn: Hoàng Văn Kiếm LỜI NÓI ĐẦU Mục tiêu của đề tài là sử dụng thuật toán cây quyết định trong Khai phá dữ liệu vào việc phát triển một ứng dụng thực tế là hệ thống tư vấn sử dụng thiết bị kết nối mạng. Bố cục của báo cáo này trước hết sẽ giới thiệu cơ sở lý thuyết về cây quyết định và thuật giải xây dựng cây quyết định ID3. Sau đó là phần đánh giá nhu cầu về một ứng dụng tư vấn sử dụng thiết bị kết nối mạng. Các phần sau sẽ tập trung vào thu thập bộ dữ liệu học, xử lý dữ liệu và các bước triển khai ứng dụng. MỤC LỤC I – Giới thiệu về cây quyết định và thuật giải ID3 1. Cây quyết định [4] Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định. Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại. Các thuật giải có thể dùng để sinh ra cây quyết định thường dùng như : ID3, C4.5, C5.0 2. Thuật giải ID3 Là thuật giải dùng để sinh ra cây quyết định được phát minh bởiRoss Quinlan. Thuật giải này là tiền thân của thuật giải C4.5. Thường được sử dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên và lĩnh vực khai phá dữ liệu. Chi tiết giải thuật ID3 [5] : Ý tưởng Xây dựng cây từ root đến lá, bằng cách trả lời: – Thuộc tính nào là tốt nhất để được kiểm tra tại root ? – Mỗi cây con được tạo ra tương ứng mỗi nhánh là trị của thuộc tính này. Quá trình lặp lại với các cây con. Thuộc tính nào là bộ phân loại tốt nhất ? - Dựa vào khái niệm : độ lợi thông tin - “information gain” - Information gian: đo lường mức độ có lợi mà thuộc tính nào đóphân chia tập cá thể dựa theo khái niệm đích. Giá trị ENTROPY: Đo lường tính đồng nhất của tập huấn luyện.Với tập huấn luyện S công thức tính entropy là ENTROPY(S) = -p + .log 2( p + ) – p - .log 2( p - ) P+ : Tỉ lệ giữa số các thể positive trên tổng số cá thể. P-: Tỉ lệ giữa số các thể negative trên tổng số cá thể. Ví dụ: – Tổng số cá thể: 14 – Trong đó có: 9 cá thể positive (thuộc vào phân loại của khái niệm đích). 5 cá thể negative (không thuộc vào phân loại của khái niệm đích). – Hay ghi rút gọn: [9+,5-]  Entropy([9+,5-]) = -((9/14)log2(9/14)) – ((5/14)log2(5/14)) = 0.94 II – Giới thiệu và phân tích yêu cầu ứng dụng Hiện nay, hai loại hình kết nối Internet ở nước ta được sử dụng nhiều nhất là sử dụng mạng kết nối dây ADSL và mạng không dây 3G . ADSL có lịch sử lâu đời hơn, được cung cấp bởi các ISPs (Internet Service Provider) như VNPT, FPT, Netnam … trong khi đó 3G (Third Generation) mới xuất hiện tại Việt Nam trong những năm gần đây – là bước cải tiến lớn của 2G và tiền đề của 4G, được cung cấp bởi các công ty viễn thông như Viettel, VinaFone và Mobiphone . Số lượng người dùng Internet tăng không ngừng, làm nảy sinhyêu cầu lựa chọn giữa 2 loại hình kết nối mạng này. Đối với người dùng thông thường (không có nhiều kinh nghiệm sử dụng máy tính và hiểu biết về mạng) thì việc lựa chọn trở nên khó khăn hơn. Đó chính là mục đích của đồ án này : Giúp hỗ trợ tư vấn người dùng trong việc lựa chọn loại hình kết nối mạng ADSL hay 3G . Để đưa ra một lời khuyên chính xác, thì có 2 yếu tố cần quan tâm : 1/ Đặc điểm của 3G và ADSL Ta có bảng so sánh các đặc tính của mạng 3G và ADSL: 3G ADSL - 3G là mạng không dây nên rất tiện lợi khi di chuyển . - ADSL chỉ thích hợp với kết nối cố định . - 3G đã bỏ gói cước trọn gói, vì vậy việc sử dụng để tải dữ liệu dung lượng lớn là rất tốn kém, chỉ thích hợp cho việc duyệt mail, đọc báo, và tài liệu nhỏ . - ADSL cung cấp cả gói cước theo lưu lượng rẻ hơn 3G và cả trọn gói nữa . - 3G sóng vẫn còn khá yếu ở những khu vực không phải thành thị : miền núi, nông thôn, duyên hải … thường xuyên rớt mạng. Ở thành thị tốc độ tốt hơn, nhưng vẫn có những khoảng thời gian mạng không ổn định. Trong tương lai điều này sẽ được cải thiện khi các nhà mạng triển khai thêm trạm thu phát sóng. - ADSL đảm bảo đường truyền hơn 3G rất nhiều, nhược điểm duy nhất là đường dây có vấn đề thì mạng không thể truy cập được. Hư hỏng thường mang tính cục bộ (ảnh hưởng đến từng khu vực) 2/ Nhu cầu sử dụng của người dùng Nhu cầu sử dụng của người dùng chủ yếu tập trung vào việc người đó ở đâu,có hay di chuyển không và lưu lượng sử dụng Internet ít hay nhiều . Từ đó có thể suy ra một số thông tin cần nắm về người dùng ảnh hưởng đến việc tư vấn như sau : - Nơi ở : phụ thuộc sóng 3G mạnh hay yếu - Chỗ ở : Nếu ở nhà riêng thì việc thuê hợp đồng với mạng có dây là dễ dàng hơn nhiều . - Loại máy tính : Laptop thích hợp với 3G hơn Desktop vì tính lưu động . - Mục đích chính để sử dụng : dùng để phân loại theo lưu lượng . - Điều kiện tài chính, giá thành 1 USB 3G khoảng vài trăm ngàn (khi hạ giá có thể xuống khoảng 350 ngàn/USB) – không hề đắt . Dựa vào đó mà lời khuyên tốt nhất thườnglà dùng cả 2 loại kết nối mạng. III – Mô tả và thống kê cho dữ liệu thu thập 1/ Mô tả dữ liệu Gồm các trường khảo sát sauvà các tùy chọn cho từng trường: 1. Họ và Tên 2. Số điện thoại hoặc email 3. Độ tuổi 4. Nghề nghiệp 5. Nơi bạn sinh sống: a. Thành thị b. Nông thôn c. Miền núi d. Trung du e. Ven biển f. Hải đảo 6. Nơi bạn ở : a. Nhà riêng b. Phòng trọ tập thể c. Nhà người quen, họ hàng 7. Loại máy tính bạn đang sử dụng a. Máy bàn (Desktop) b. Máy xách tay (Laptop) c. Chưa có máy tính 8. Hiện bạn kết nối Internet bằng a. ADSL b. USB 3G c. Cả hai d. Chưa kết nối Internet tại nhà 9. Mục đích chính bạn dùng Internet để a. Học tập, làm việc (gửi mail, đọc tài liệu, ) b. Giải trí (đọc báo, nghe nhạc, xem phim ) 10. Bạn sẵn sàng dành ra bao nhiêu tiền 1 tháng cho Internet a. 100 ngàn trở xuống b. Từ 100 ngàn – 200 ngàn c. Trên 200 ngàn 11. Bạn có cần dùng Internet trong lúc di chuyển không a. Có b. Không c. Có, nhưng nơi tôi đến đã có sẵn Internet 12. Theo bạn, loại kết nối Internet nào sẽ phù hợp với bạn nhất 1. 3G 2. ADSL 3. Cả hai Trong đó các thuộc tính như Họ và tên, độ tuổi, nghề nghiệp, số điện thoại hay emailkhông bắt buộc phải điền vì không ảnh hưởng đến mục đích khảo sát . Đồngthời không giúp người dùng cảm thấy thoải mái hơn khi không phải nhập các thông tin cánhân . Thuộc tính nơi bạn sinh sống chủ yếu phân thành 2 nhóm là gần thành thị và xa thành thị,bởi tốc độ của 3G phụ thuộc nhiều vào các trạm thu phát của các mạng điện thoại . Thuộc tính nơi ở, ADSL cần hợp đồng với địa chỉ nhà cụ thể, do đó việc ở nhà riêng sẽthuận lợi hơn trong khi 3G chiếm ưu thế lúc nơi ở không cố định . Loại máy tính đang sử dụng cũng ảnh hướng đến việc lựa chọn dịch vụ mạng, bởi vìngười dùng Laptop thường có xu hướng di chuyển nhiều, nên phù hợp với 3G hơn . Sự khác nhau giữa 2 thuộc tính “Bạn kết nối Internet bằng ” và “Theo bạn, loại kết nối Internet nào sẽ phù hợp với bạn nhất đây là thuộc tính phân loại bộ dữ liệuthể hiện xu hướng của người sử dụng khi muốnthay đổi cách thức kết nối Internet .Mục đích sử dụng Internet chỉ được chia ra làm 2 loại là ít tải dữ liệu và tải dữ liệu nhiều,về mặt này 3G hoàn toàn thua kém ADSL (với các loại hình trọn gói hoặc trả theo dunglượng rất linh động) Nhu cầu sử dụng Internet trong lúc di chuyển thể hiện ưu thế của mạng không dây 3G . 2/ Thống kê dữ liệu đã thu thập được Em đã thu thập được 539 mẫu dữ liệu.Các bảng sau làthống lê chi tiết từng trường dữ liệu chính dùng trong hệ thống: Khu vực sống: Loại hình máy tính sử dụng: Loại hình Internet đang sử dụng: Mục đích sử dụng: Có di chuyển: Nơi ở: Số tiền sẽ chi trả mong muốn: Loại hình Internet phù hợp nhất: IV - Phương pháp được sử dụng để huấn luyện 1/Giới thiệu thư viện WEKA Bộ thư viện mã nguồn mở WEKA được phát triển bởi nhóm Meachine Leraning của trường đại học Waiktophát triển bằng ngôn ngữ Java. WEKA xây dựng sẵn các thuật giải họcthông dụng trong máy học để phục vụ trong lĩnh vực máy học. Ngoài ra WEKA còn cung cấp các bộ công cụ để phục vụ cho các tác vụ khai thác dữ liệu như tiền xử lý dữ liệu, phân lớp dữ liệu, phân nhóm và khai thác luật kết hợp trên dữ liệu. Chúng ta có thể sử dụng WEKA trực tiếp bằng giao diện trực quan người dùng hoặc sử dụng trong Java code thuận lợi cho phát triển các dụng. Có thể tải WEKA trực tiếp tại trang: http://www.cs.waikato.ac.nz/ml/weka/ 2/Tiền xử lý dữ liệu Dữ liệu sau khi thu thập được sẽ qua bước tiền xử lý, các thuộc tính không dùng trong mô hình học sẽ loại bỏ và không ẳn hưởng đến kết quả phân lớp dữ liệu: Họ và tên, độ tuổi, nghề nghiệp, số điện thoại hay email [...]... động xong, để bắt đầu truy vấn người dùng điền vào thông tin cá nhân và chọn Tư vấn để nhận được lời khuyên về loại hình sử dụng mạng Internet Đối với dữ liệu đầu vào phù hợp với cả 2 phân lớp 3G và ADSL, chương trình sẽ xuất ra thông báo “3G và ADSL đều phù hợp với bạn”: Trường hợp chương trình đưa ra tư vấn sử dụng 3G: Và lời tư vấn cho việc sử dụng ADSL: VII – Lời kết Ứng dụng đã cơ bản giải quyết... 3/ Sử dụng thư viện WEKA để phát tri n ứng dụng Emxây dựng chương trình sử dụng mô hình học bằng cây quyết định vớithuật giải ID3 đề xây dựng cây quyết định sử dụng bộ thư viện WEKA.Thư viện này đã xây dựng sẵn thuật giải ID3trong góiweka.classifiers.trees.Chúng ta có thể sử dụng trực tiếp lớp ID3 hoặc thông qua lớp FilteredClassifierchứa trong gói weka.classifiers.metađể xây dựng cây Em sẽ sử dụng. .. dụng ADSL: VII – Lời kết Ứng dụng đã cơ bản giải quyết được bài toán đưa ra tư vấn để giúp người dùng chọn loại thiết bị kết nối mạng phù hợp với mình Tuy nhiên trong một số trường hợp chương trình có thề đưa ra một kết quả không phù hợp, nguyên nhân chính là do bộ dữ liệu học còn quá ít và chưa đa dạng Do để tăng khả năng tư vấn chính xác cho chương trình, cần thu thập nhiều dữ liệu hơn nữa VIII–Tài... ins.setClassIndex(ins.numAttributes()-1); fc.buildClassifier(ins); //……… } Từ dữ liệu người dùng nhập vào chúng ta sử dụng phương thức classifierInstance để áp dụng các luật đã tìm được ở trên từ đó đạt được lời khuyên sử dụng loại hình Internet nào public double classifyInstance(Instance ins) throws Exception{ return fc.classifyInstance(ins); } Giá trị trả về của phương thức này là một số thực : +... hệ thống sau khi test là 85.2% Do bộ dữ liệu thu thập còn chưa nhiều(hiện thu thập được 539 bộ dữ liệu) nên kết quả chưa thực sự cao, do đó để nâng cao độ chính xác thì cần thu thập thêm nhiều dữ liệu nữa VI - Hướng dẫn sử dụng chương trình Để khởi động chương trình tìm file thực thi trong đường dẫn \tuvan_bin\Launcher.bat để thực thi trên máy tính đã cài sẵn Java Runtime Sau khi khởi động xong, để. .. Lời khuyên là nên dùng DCOM 3G + 2.0: Lời khuyên là nên sử dụng ADSL + 0.0: Lời khuyên là ADSL và DCOM 3G đều phù hợp với người dùng V - Kết quả thực nghiệm và đánh giá Chúng ta sẽ sữ dụng WEKA để đánh giá, tiến hành chia dữ liệu như sau: Tập dữ liệu học D_Train chiếm 66% ~ 355/539 mẫu dữ liệu Tập dữ liệu test D_Testchiếm 34% ~ 184/539 mẫu dữ liệu Kết quả đánh giá: Chính xác khoảng 85.2% ~ 156/184 mẫu... FilteredClassifier Đầu tiên đối tư ng của lớp FilteredClassifiersẽ cài đặt sử dụng thuật toán ID3 thông qua lớp ID3(code trích từ lớp decision.tree.DecisionTree) FilteredClassifier fc; ID3id3= new Id3(); fc = new FilteredClassifier(); fc.setClassifier(id3); Phương thức buildClassifier dùng để training dữ liệu từ tập dữ liệu đã được load lên từ file train.arffsau khi kết thúc hàm này chương trình đã...Các thuộc tính còn lại sẽ được sử dụng trong mô hình là :Khu vực sống, Loại máy tính, Internet đang sử dụng, mục đích sử dụng, có di chuyển hay không, nơi ở, số tiền sẽ chi trả, loại hình Internet phù hợp Do dữ liệu trong các thuộc tính này đều ở dạng rời rạc hóa nên chúng ta . BÀI THU HOẠCH MÔN CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG ĐỀ TÀI:ĐỂ XÂY DỰNG HỆ THỐNG TƯ VẤN SỬ DỤNG THIẾT BỊ KẾT NỐI MẠNG Học viên thực hiện : Họ tên : Lê Chí Cảnh MSHV. trình đưa ra tư vấn sử dụng 3G: Và lời tư vấn cho việc sử dụng ADSL: VII – Lời kết Ứng dụng đã cơ bản giải quyết được bài toán đưa ra tư vấn để giúp người dùng chọn loại thiết bị kết nối mạng phù. ĐẦU Mục tiêu của đề tài là sử dụng thuật toán cây quyết định trong Khai phá dữ liệu vào việc phát tri n một ứng dụng thực tế là hệ thống tư vấn sử dụng thiết bị kết nối mạng. Bố cục của báo cáo

Ngày đăng: 20/05/2015, 10:28

Từ khóa liên quan

Mục lục

  • I – Giới thiệu về cây quyết định và thuật giải ID3

  • II – Giới thiệu và phân tích yêu cầu ứng dụng

    • 1/ Đặc điểm của 3G và ADSL

    • 2/ Nhu cầu sử dụng của người dùng

    • III – Mô tả và thống kê cho dữ liệu thu thập

      • 1/ Mô tả dữ liệu

      • 2/ Thống kê dữ liệu đã thu thập được

      • IV - Phương pháp được sử dụng để huấn luyện

        • 1/Giới thiệu thư viện WEKA

        • 2/Tiền xử lý dữ liệu

        • 3/ Sử dụng thư viện WEKA để phát triển ứng dụng

        • V - Kết quả thực nghiệm và đánh giá

        • VI - Hướng dẫn sử dụng chương trình

        • VII – Lời kết

        • VIII–Tài liệu tham khảo

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan