Phân tích dữ liệu môi trường truyền thông xã hội và dữ liệu có cấu trúc với BigInsights InfoSphere potx

28 581 0
Phân tích dữ liệu môi trường truyền thông xã hội và dữ liệu có cấu trúc với BigInsights InfoSphere potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân tích liệu mơi trường truyền thơng xã hội liệu có cấu trúc với BigInsights InfoSphere Bạn nghe nói Big Data (dữ liệu lớn) tác động việc phân tích kinh doanh Và có lẽ bạn tự hỏi tổ chức thu nhặt hiểu biết từ việc nắm bắt, xử lý quản lý liệu lớn thu thập từ trang web, cảm biến điện tử ghi nhật ký phần mềm, với liệu truyền thống mà bạn có Chắc chắn, khơng thiếu dự án bên thứ ba nguồn mở thiết kế để giúp bạn giải khía cạnh khác dự án Big Data Nhưng hầu hết dự án hướng phía lập trình viên, quản trị viên chuyên gia kỹ thuật với kỹ cụ thể Điều xảy bạn muốn làm cho Big Data tới nhà phân tích kinh doanh, nhà lãnh đạo ngành kinh doanh nhân viên khác, người lập trình viên? BigSheets đáng giá vẻ bề ngồi Đó cơng cụ kiểu-bảng tính kèm với InfoSphere BigInsights, cho phép người khơng phải lập trình viên khám phá, thao tác hiển thị trực quan liệu lưu trữ hệ thống tệp phân tán bạn Các ứng dụng ví dụ mẫu kèm theo BigInsights giúp bạn thu thập nhập liệu từ nhiều nguồn khác Trong này, giới thiệu cho bạn BigSheets hai ứng dụng ví dụ mẫu kèm theo Nền tảng BigInsights tảng phần mềm giúp cơng ty phát phân tích hiểu biết kinh doanh ẩn dấu khối lượng lớn nhiều lĩnh vực liệu — liệu thường bị bỏ qua bị vứt bỏ q khơng thực tế khó xử lý cách sử dụng phương tiện truyền thống Để giúp doanh nghiệp lấy giá trị từ liệu cách hiệu quả, Ấn Doanh nghiệp BigInsights bao gồm số dự án nguồn mở, gồm có Apache Hadoop số công nghệ phát triển IBM, gồm BigSheets Hadoop dự án liên quan cung cấp framework phần mềm hiệu cho ứng dụng chuyên liệu, khai thác mơi trường tính tốn phân tán để đạt khả mở rộng quy mô cao Các công nghệ IBM làm phong phú thêm framework nguồn mở với phần mềm phân tích, tích hợp phần mềm doanh nghiệp, phần mở rộng tảng công cụ Để biết thêm thông tin BigInsights, xem phần Tài ngun BigSheets cơng cụ phân tích dựa trình duyệt ban đầu nhóm Emerging Technologies IBM phát triển Hiện nay, BigSheets gắn với BigInsights phép người dùng doanh nghiệp khơng phải lập trình viên khám phá phân tích liệu hệ thống tệp phân tán BigSheets trình bày giao diện như-bảng tính để người dùng mơ hình hóa, lọc, kết hợp, khám phá vẽ biểu đồ liệu thu thập từ nhiều nguồn khác Giao diện bàn điều khiển web BigInsights gồm có ngăn (tab) đỉnh để truy cập BigSheets Xem phần Tài nguyên để biết thêm chi tiết giao diện bàn điều khiển web Hình mơ tả sưu tập liệu ví dụ mẫu BigSheets Trong trơng giống bảng tính điển hình, sưu tập chứa liệu từ blog đăng lên trang web công cộng nhà phân tích chí nhấn chuột vào liên kết có sưu tập để truy cập vào trang web xuất nội dung nguồn Hình Bộ sưu tập ví dụ mẫu BigSheets dựa liệu môi trường truyền thông xã hội, có liên kết đến nội dung nguồn Sau định nghĩa sưu tập BigSheets, nhà phân tích lọc chuyển đổi liệu mong muốn Ở hậu trường, BigSheets dịch lệnh người dùng, thể thông qua giao diện đồ họa, thành kịch lệnh Pig thực dựa vào tập hợp liệu bên Theo cách này, nhà phân tích nhiều lần khám phá biến đổi khác cách hiệu Khi hài lịng, người sử dụng lưu chạy sưu tập, làm cho BigSheets bắt đầu công việc MapReduce liệu đầy đủ, viết kết vào hệ thống tệp phân tán hiển thị nội dung sưu tập Các nhà phân tích lật trang thao tác tập hợp liệu đầy đủ mong muốn Bổ sung cho BigSheets số ứng dụng ví dụ mẫu dựng sẵn mà người dùng doanh nghiệp khởi chạy chúng từ giao diện bàn điều khiển web BigInsights để thu thập liệu từ trang web, hệ thống quản lý sở liệu quan hệ (RDBMS), hệ thống tệp từ xa nguồn khác Chúng dựa vào hai ứng dụng cho công việc mô tả Tuy nhiên, điều quan trọng cần hiểu rõ lập trình viên quản trị viên sử dụng công nghệ BigInsights khác để thu thập, xử lý chuẩn bị liệu cho việc phân tích BigSheets Các cơng nghệ gồm có Jaql, Flume, Pig, Hive, ứng dụng MapReduce công nghệ khác IBM Watson IBM Watson dự án nghiên cứu mà thực phân tích phức tạp để trả lời câu hỏi trình bày theo ngơn ngữ tự nhiên Phần mềm Watson tra cứu liệu thu thập từ nhiều nguồn khác sử dụng Hadoop để xử lý hiệu liệu qua hệ thống máy chủ IBM Power 750 IBM Watson dùng thi trò chơi truyền hình vào năm 2011, đánh bại hai người chơi dẫn đầu Xem phần Tài nguyên để biết thêm chi tiết IBM Watson chương trình trị chơi Jeopardy! Trước bắt đầu, xem xét kịch ứng dụng ví dụ mẫu Việc địi hỏi phân tích liệu mơi trường truyền thông xã hội IBM Watson và, cuối cùng, nối liệu với liệu nội IBM mô nỗ lực tiếp cận môi trường truyền thơng trích từ DBMS quan hệ Ý tưởng khám phá khả hiển thị, đưa tin "lan truyền" xung quanh nhãn hàng, dịch vụ hay dự án bật — yêu cầu chung nhiều tổ chức Chúng không trình bày hết khả phân tích cho ứng dụng đây, ý định đơn giản nêu bật cách khía cạnh quan trọng BigSheets giúp nhà phân tích bắt đầu nhanh chóng cơng việc với liệu lớn Tuy nhiên, công việc mà tìm hiểu giúp bạn hiểu với chút nỗ lực — có lẽ mang đến hay hai bất ngờ tiếng IBM Watson Về đầu trang Bước 1: Thu thập liệu bạn Trước khởi chạy BigSheets, bạn cần số liệu dùng cho việc phân tích Trước hết, tập trung vào việc thu thập liệu môi trường truyền thông xã hội Thu thập liệu môi trường truyền thông xã hội Như bạn dự kiến, việc thu thập xử lý liệu trích từ trang web mơi trường truyền thơng xã hội thách thức, trang web khác nắm giữ thông tin khác sử dụng cấu trúc liệu khác Hơn nữa, việc xác định dò tìm qua nhiều trang web cá nhân tốn thời gian Ở đây, sử dụng ứng dụng ví dụ mẫu BoardReader kèm theo BigInsights để khởi chạy tìm kiếm blog, nguồn cấp tin tức, diễn đàn thảo luận trang web video Hình minh họa tham số đầu vào mà cung cấp cho ứng dụng BoardReader BigInsights, khởi chạy từ trang Applications (Các ứng dụng của) giao diện bàn điều khiển Web BigInsights Nếu bạn chưa quen với giao diện bàn điều khiển web danh mục ứng dụng mẫu nó, xem phần Tài nguyên Hình Gọi ứng dụng BoardReader từ giao diện bàn điều khiển web BigInsights Hãy xem xét nhanh tham số đầu vào hiển thị Hình Results Path (Đường dẫn Các kết quả) rõ thư mục hệ thống tệp phân tán Hadoop (HDFS) với kết của ứng dụng Các tham số cho biết hạn chế kết trả tới tối đa 25.000 kết phù hợp khoảng thời gian tìm kiếm 01.01.2011 đến cuối 31.03.2012 Properties File (Tệp Đặc tính) tham khảo kho lưu trữ thơng tin BigInsights mà điền vào khóa quyền BoardReader chúng tơi (Mỗi khách hàng phải liên hệ với BoardReader để nhận khóa quyền hợp lệ) Và "IBM Watson" chủ đề tìm kiếm Sau chạy ứng dụng, hệ thống tệp phân tán có chứa bốn tệp thư mục kết quả, hiển thị Hình Hình Kết ứng dụng lưu trữ BigInsights Để giữ cho thứ đơn giản, này, sử dụng liệu tin tức blog Nếu bạn muốn làm theo với kịch ứng dụng ví dụ mẫu chúng tơi, thực ứng dụng BoardReader với tham số mà quy định tải liệu ví dụ mẫu Lưu ý việc tệp tải xuống chứa tập hợp thông tin mà BoardReader thu thập từ nguồn cấp tin tức blog Cụ thể là, loại bỏ nội dung toàn văn bản/HTML đăng mục tin tức siêu liệu cụ thể từ tệp mẫu Dữ liệu không cần thiết cho nhiệm vụ phân tích trình bày chúng tơi muốn giữ cho kích cỡ tệp mức dễ sử dụng Mỗi tệp ứng dụng BoardReader trả theo định dạng JSON Bạn hiển thị phần nhỏ liệu văn trang Files (Các tệp) giao diện bàn điều khiển web BigInsights, khó đọc kết Lúc này, bạn thấy cách chuyển đổi liệu thành "các trang bảng tính" sưu tập liệu BigSheets, cách dễ nhiều để tìm hiểu Nhưng điều đáng lưu ý tệp có chứa cấu trúc JSON khác chút — tình cần giải mơ hình hóa sưu tập, mà hợp tập hợp liệu blog tin tức Trong dự án liệu lớn, điều phổ biến phải chuẩn bị chuyển đổi cấu trúc liệu bạn theo cách để đơn giản hóa việc phân tích Thu thập liệu từ DBMS quan hệ Sau tìm hiểu số khía cạnh định liệu môi trường truyền thơng xã hội này, nối với liệu trích từ DBMS quan hệ Nhiều dự án liệu lớn địi hỏi phân tích nguồn thông tin mới, chẳng hạn liệu môi trường truyền thông xã hội, bối cảnh có mặt thơng tin doanh nghiệp, bao gồm liệu lưu trữ DBMS quan hệ BigInsights cung cấp kết nối đến DBMS quan hệ kho liệu khác nhau, gồm có Netezza, DB2®, Informix®, Oracle, Teradata khác Đối với kịch ví dụ mẫu chúng tơi, chúng tơi điền vào bảng DB2 có liệu mơ nỗ lực tiếp cận môi trường truyền thông IBM Việc nối liệu quan hệ với thông tin trích từ trang web mơi trường truyền thơng xã hội cung cấp cho số dấu hiệu tính hiệu đạt nỗ lực công khai khác Trong BigInsights cung cấp truy cập truy vấn DBMS quan hệ động thơng qua giao diện dịng lệnh, chúng tơi sử dụng ứng dụng ví dụ mẫu Data Import (Nhập liệu) giao diện bàn điều khiển web BigInsights để trích liệu quan tâm Hình minh họa tham số đầu vào mà cung cấp cho ứng dụng Tệp đặc tính mykeys kho lưu trữ thơng tin BigInsights chứa tham số đầu vào JDBC cần thiết để thiết lập kết nối sở liệu, gồm URL JDBC (ví dụ, jdbc:db2://myserver.ibm.com:50000/sample), lớp trình điều khiển JDBC (ví dụ, com.ibm.db2.jcc.DB2Driver) mã định danh (ID) mật người dùng DBMS Các tham số đầu vào khác gồm có câu lệnh SQL SELECT đơn giản để lấy liệu quan tâm từ sở liệu đích, định dạng kết (tệp giá trị phân cách dấu phẩy) thư mục kết BigInsights cho kết Hình Gọi ứng dụng nhập liệu từ giao diện bàn điều khiển web BigInsights Lưu ý trước thực ứng dụng này, tải lên tệp trình điều khiển DBMS thích hợp vào thư mục hệ thống tệp phân tán BigInsights cần thiết (/biginsights/oozie/sharedLibraries/dbDrivers) Do DB2 Express-C DBMS nguồn chúng tôi, nên tải lên tệp its db2jcc4.jar db2jcc_license_cu.jar Để làm theo với công việc liên quan đến DBMS kịch ứng dụng ví dụ mẫu chúng tơi, tải miễn phí DB2 Express-C (xem phần Tài nguyên để có liên kết), tạo điền vào bảng ví dụ mẫu thực thi ứng dụng Data Import BigInsights mơ tả Ngồi ra, bạn tải tệp CSV trích từ DB2 tải lên trực tiếp vào BigInsights Về đầu trang Bước 2: Tạo sưu tập BigSheets Để bắt đầu phân tích liệu bạn BigSheets, bạn cần phải tạo sưu tập — cấu trúc kiểu-bảng tính — mà mơ hình hóa tệp quan tâm hệ thống tệp phân tán bạn Đối với kịch chúng tôi, tệp gồm liệu blog dựa trên-JSON ứng dụng BoardReader IBM thu thập liệu dựa -CSV trích từ DB2 ứng dụng Data Import IBM Hãy làm theo bước sau để tạo sưu tập: Từ trang Files giao diện bàn điều khiển web, sử dụng trình dẫn hướng hệ thống tệp để chọn tệp news-data.txt (xem Hình 3) Trong ô cửa sổ bên phải, chọn nút Sheets (Các trang bảng tính) để thay đổi định dạng hiển thị từ Text (Văn bản) sang Sheets Như thể Hình 5, nút đặt bên phải đặc tả Viewing Size (Kích cỡ khung nhìn) Chỉ rõ "trình đọc" (reader) thích hợp trình chuyển dịch (translator) định dạng liệu cho tệp bạn Như Hình cho thấy, BigSheets cung cấp trình đọc dựng sẵn khác để làm việc với định dạng liệu phổ biến Đối với tệp ví dụ mẫu này, trình đọc JSON Array (Mảng JSON) thích hợp Lưu sưu tập bạn, đặt tên "Watson_news" (các tin tức_Watson) Hình Tạo sưu tập với "trình đọc" thích hợp Làm theo q trình tương tự để tạo sưu tập riêng cho tệp blogs-data.txt, đặt tên sưu tập "Watson_blogs" Cuối cùng, tạo sưu tập thứ ba cho tệp CSV với liệu DBMS, chọn Dữ liệu CSV (Comma Separated Values) BigSheets làm trình đọc cho tệp Đặt tên sưu tập "Media_Contacts" Điều đáng lưu ý bạn tạo sưu tập dựa nội dung thư mục, tệp Để làm vậy, sử dụng trình dẫn hướng hệ thống tệp để nhận dạng thư mục đích, nhấn chuột vào nút Sheets ô cửa sổ bên phải rõ trình đọc thích hợp áp dụng cho tất tệp thư mục Tuy nhiên, kịch ứng dụng mô tả yêu cầu ba sưu tập riêng, mô tả Về đầu trang Bước 3: Điều chỉnh sưu tập bạn Rất nhiều lần, nhà phân tích muốn điều chỉnh định dạng, nội dung cấu trúc sưu tập họ trước nghiên cứu khía cạnh khác liệu BigSheets cung cấp số macro hàm để hỗ trợ hoạt động chuẩn bị liệu Trong phần này, tìm hiểu hai lựa chọn sau: loại bỏ liệu khơng cần thiết cách xóa cột hợp liệu từ hai sưu tập thông qua phép hợp Xóa cột Ứng dụng BoardReader BigInsights trả liệu tin tức blog điền vào cột khác sưu tập BigSheets Chúng cần tập hợp cột dùng cho việc phân tích mà chúng tơi thảo luận này, bước đầu quan trọng đòi hỏi phải tạo sưu tập giữ lại cột mà muốn: Từ trang chủ BigSheets, mở sưu tập Watson_news mà bạn tạo từ tệp newsdata.txt Nhấn chuột vào Build New Collection (Xây dựng sưu tập mới) Chuyển hướng đến cột IsAdult, hiển thị Hình Nhấn chuột vào mũi tên xuống tiêu đề cột Remove (Loại bỏ) cột Làm điều với tất cột sưu tập, ngoại trừ cột Country, FeedInfo, Language, Published, SubjectHtml, Tags, Type Url Lưu thoát ra, đặt tên cho sưu tập "Watson_news_revised" Khi nhắc, chạy sưu tập Lưu ý trạng thái bên phải nút Run cho phép bạn theo dõi tiến trình cơng việc (Ở hậu trường, BigSheets thực kịch lệnh Pig để bắt đầu công việc MapReduce bạn chạy sưu tập Như bạn tưởng tượng, hiệu thời gian chạy phụ thuộc vào khối lượng liệu liên kết với sưu tập bạn tài nguyên hệ thống có sẵn) Hình Loại bỏ cột khỏi sưu tập Vì cuối chúng tơi muốn hợp liệu blog tin tức vào sưu tập để phân tích thêm, làm theo cách tiếp cận tương tự để tạo sưu tập liệu blog, mà chứa cột dành cho Country, FeedInfo, Language, Published, SubjectHtml, Tags, Type Url Hãy đặt tên cho sưu tập blog "Watson_blogs_revised" Sát nhập hai sưu tập thành thông qua phép hợp Tiếp theo, sát nhập sưu tập vừa chỉnh sửa (Watson_news_revised Watson_blogs_revised) thành sưu tập nhất, dùng sở để tìm hiểu tin tức IBM Watson Để làm vậy, sử dụng toán tử hợp BigSheets Lưu ý địi hỏi tất trang bảng tính có cấu trúc Nếu bạn làm theo dẫn phần trước, bạn có hai sưu tập để sát nhập, có cột Country, FeedInfo, Language, Published, SubjectHtml, Tags, Type Url, theo thứ tự Để sát nhập sưu tập: Mở sưu tập Watson_news_revised nhấn chuột vào Build New Collection Nhấn vào Add sheets > Load để thêm nội dung sưu tập khác vào mơ hình làm việc bạn (Xem Hình 7.) Khi nhắc, chọn Watson_blogs_revised collection (bộ sưu tập Watson_blogs_revised), đặt tên trang bảng tính bạn "Blogs" nhấn chuột vào dấu chọn màu xanh để áp dụng hoạt động Hình Chuẩn bị nạp sưu tập vào trang bảng tính Kiểm tra hình bạn, có trang bảng tính Lưu ý góc bên trái sưu tập bạn có ngăn (tab) cho (Xem Hình 8.) Count (Đếm) theo giá trị mặc định Thiết lập lại giá trị Limit (Giới hạn) 12, biểu đồ hình trịn phản ánh liệu 12 ngôn ngữ xuất thường xuyên sưu tập Xem Hình 11 Hình 11 Các tham số đầu vào để tạo biểu đồ hình trịn Nhấn chuột vào dấu chọn màu xanh chạy biểu đồ nhắc Như bạn dự kiến, biểu đồ hình tròn kết gần 79% liệu tin tức blog mà thu thập xuất tiếng Anh Nhưng bạn dự đốn ngơn ngữ phổ biến tiếp sau cho IBM Watson khơng? Biểu đồ hình trịn minh họa Hình 12 tiếng Nga Bằng cách di chuột lát mỏng biểu đồ hình trịn hiển thị BigSheets, bạn xác định giá trị bên (trong trường hợp giá trị cột Language) Hình 12 Đo mối quan tâm tồn cầu IBM Watson theo ngôn ngữ, dựa liệu tin tức blog có sẵn Xóa giá trị liệu Nếu bạn di chuột qua lát mỏng lớn thứ năm thứ sáu biểu đồ hình trịn thị Hình 12 (với tỷ lệ phần trăm 2,6 1,9), bạn thấy chúng hai biến thể tiếng Trung Quốc Điều minh họa tình hình phổ biến khác liên quan đến liệu thu thập từ nguồn liệu khác nhau, chẳng hạn trang web môi trường truyền thông xã hội khác — giá trị liệu mà bạn muốn xử lý giống hệt thường biểu diễn khác chút Hãy tìm hiểu cách sử dụng BigSheets để thay đổi giá trị cho biến thể tiếng Trung Quốc thay giá trị "tiếng Trung Quốc": Nếu cần, mở sưu tập Watson_sorted nhấn vào nút Edit (bên tên sưu tập góc bên trái) Điều hướng đến cột Language nhấn vào mũi tên xuống tiêu đề cột để trưng trình đơn thả xuống Chọn Insert Right > New Column để tạo cột để chứa liệu xóa Khi nhắc, đặt tên cột LanguageRevised nhấn chuột vào dấu chọn màu xanh để hoàn thành hoạt động Với trỏ bạn đặt cột LanguageRevised, nhập công thức sau vào hộp fx (đặc tả cơng thức) phía trang bảng tính: IF(SEARCH('Chin*', #Language) > 0, 'Chinese', #Language) Xem Hình 13 Hình 13 Chỉ rõ công thức để lấy giá trị cột Cơng thức làm cho BigSheets tìm kiếm giá trị bắt đầu "Chin" cột Language trang bảng tính Khi tìm thấy giá trị vậy, ghi "Chinese" (tiếng Trung Quốc) vào cột LanguageRevised; khơng, chép giá trị tìm thấy cột Language vào cột LanguageRevised InfoCenter BigInsights (đã có phần Tài nguyên) Nhấn vào dấu chọn màu xanh để áp dụng cơng thức Lưu khỏi cơng việc bạn Khi cảnh báo xuất liệu không đồng bộ, chạy định nghĩa sửa đổi sưu tập Tạo biểu đồ hình trịn 12-lát dựa giá trị cột LanguageRevised so sánh kết với biểu đồ hình trịn mà bạn tạo trước (dựa liệu "thô" cột Language) Lưu ý biểu đồ hình trịn bạn cho thấy "tiếng Trung Quốc" ngôn ngữ phổ biến thứ hai, Nga, Tây Ban Nha Đức Nghiên cứu sâu hơn: Lọc kết trích liệu URL Dữ liệu mà bạn vừa kiểm tra gây loạt câu hỏi yêu cầu kiểm tra thêm Đây trường hợp điển hình việc phân tích liệu lớn, thường lặp lại thăm dò theo tự nhiên Hãy nghiên cứu sâu chút tin tức IBM Watson theo đăng tin tức blog dựa tiếng Anh để cố gắng tìm việc đưa tin Vương quốc Anh Phù hợp với tính chất giới thiệu này, có cách tiếp cận đơn giản để kiểm tra chủ đề Cụ thể, lấy sưu tập từ sưu tập Watson_sorted giữ ghi tiếng Anh với tên miền URL kết thúc ".uk" giá trị Country "GB" (viết tắt Great Britain) Để đạt điều này, cần sử dụng toán tử lọc BigSheets macro để trích liệu máy chủ URL từ chuỗi URL đầy đủ: Mở sưu tập Watson_sorted xây dựng sưu tập Thêm trang bảng tính có sử dụng hoạt động Filter (Lọc) Khi nhắc, chọn Match all (So khớp tất cả) rõ Language tiếng Anh ba hộp trình đơn thả xuống, thể Hình 14 Sau nhấn chuột vào dấu chọn màu xanh để áp dụng hoạt động cho tập hợp liệu sưu tập Hình 14 Lọc dựa giá trị cột Lưu công việc bạn (đặt tên trang bảng tính Watson_sorted_English_UK ), khơng ra, bạn tiếp tục tinh chỉnh sưu tập Thêm trang bảng tính khác để gọi Macro Khi nhắc, nhấn vào Categories > url > URLHOST Chọn cột URL sưu tập bạn làm cột đích chứa giá trị URL (Macro đọc giá trị cột trích thông tin máy chủ URL từ chuỗi lớn Ví dụ, dựa vào giá trị URL "http://www.georgeemsden.co.uk/2011/09/how-long-before-your-laptop-finds-a-cure-forcancer/," macro trả "www.georgeemsden.co.uk" làm tên máy chủ URL) Nhấn vào ngăn Carry Over (Để lại) ô cửa sổ này, thể Hình 15 Điều quan trọng cho phép bạn rõ bạn muốn giữ lại cột sưu tập (hoặc "để lại") Hình 15 Làm việc với macro URLHOST Nhấn vào Add all (Thêm tất cả) để giữ lại tất cột có áp dụng hoạt động Lưu cơng việc bạn, khơng Thêm trang bảng tính khác để lọc thêm liệu Khi nhắc, phối hợp hai tiêu chí sau đây: "URLHOST ends with uk" "Country is GB", thể Hình 16 (Do tính chất dàn trải liệu sưu tập này, cần phối hợp hai điều kiện để phát trang chủ URL đặt Anh) Áp dụng hoạt động Hình 16 Lọc liệu dựa hai cột Lưu khỏi sưu tập, sau chạy Việc xếp kết cột URLHOST vẽ biểu đồ cho phép bạn nhanh chóng xác định trang web Vương quốc Anh sưu tập kết trình bày IBM Watson thường xun Ví dụ, Hình 17 mơ tả biểu đồ đám mây thẻ mà tạo cho10 trang web hàng đầu Như với đám mây thẻ BigSheets nào, phông chữ lớn thị xuất nhiều giá trị liệu việc di chuyển giá trị liệu cho thấy số lần xuất sưu tập Hình 17 10 trang web hàng đầu Vương quốc Anh có tin tức IBM Watson Về đầu trang Bước 5: Kiểm tra thêm, kết hợp liệu môi trường truyền thông xã hội liệu có cấu trúc Trước kết thúc giới thiệu BigSheets, tìm hiểu vài lĩnh vực quan tâm khác liên quan đến liệu ví dụ mẫu chúng tơi:  Số lượng trang web riêng trình bày IBM Watson 12 trang web hàng đầu giới có trình bày IBM Watson Để thực điều này, giới thiệu thêm macro kiểu biểu đồ khác  Tin tức trang web chủ đề nỗ lực tiếp cận môi trường truyền thông IBM Để đạt điều này, chúng tơi nối liệu trích từ sở liệu quan hệ với liệu môi trường truyền thông xã hội BigInsights (Với này, tạo liệu hư cấu quan hệ công chúng IBM) Cuối cùng, thảo luận cách xuất nội dung sưu tập vào định dạng liệu phổ biến dễ dàng ứng dụng bên thứ ba sử dụng Xác định quy mô tin tức 12 trang web hàng đầu Một khía cạnh đánh giá tính hiệu chiến dịch tiếp cận mơi trường truyền thơng địi hỏi việc đánh giá quy mơ tin tức Trong ví dụ này, bạn sử dụng BigSheets để xác định số lượng trang blog tin tức riêng có đưa tin IBM Watson Mở sưu tập Watson_news_blogs xây dựng sưu tập Thêm trang bảng tính có tên "Url Hosts" sử dụng macro URLHOST để trích tên máy chủ URL từ chuỗi ký tự đầy đủ cung cấp cột URL Chỉ giữ lại cột URL (Nếu cần, tham khảo dẫn Bước để biết chi tiết macro URLHOST) Thêm trang bảng tính khác, áp dụng tốn tử Distinct (Phân biệt) cho trang bảng tính mà bạn vừa tạo Lưu khỏi sưu tập này, chạy nhắc Quan sát xem có nhiều chút so với 2.800 trang web riêng biệt không, hiển thị góc bên phải Hình 18 Nếu bạn mở sưu tập Watson_news_blogs, bạn thấy có 7.200 tổng số ghi Hình 18 Xác định số lượng trang chủ riêng biệt Bây bạn biết số trang web có chứa nhiều đăng, bạn muốn xác định 12 trang web hàng đầu có chứa nhiều đăng IBM Watson hiển thị trực quan kết biểu đồ Điều dễ làm kết chí làm bạn ngạc nhiên: Nếu cần, mở sưu tập mà bạn vừa tạo Nhấn vào Add chart > Chart > Column Cung cấp giá trị mà bạn chọn dùng cho tên tiêu đề biểu đồ Giữ lại giá trị mặc định cho trục X Y Đặt Limit đến 12 Áp dụng giá trị cài đặt chạy biểu đồ Hình 19 minh họa kết Nếu bạn dự kiến IBM trang IBM tài trợ ba trang hàng đầu, bạn nhầm Hình 19 Vẽ biểu đồ 12 trang web hàng đầu đưa tin IBM Watson dựa số lượng đăng Nếu bạn kiểm tra URL với hai trang web hàng đầu, bạn thấy chúng biến thể bizjournals.com, cho biết bạn muốn quay trở lại sưu tập chuyển đổi xóa liệu Như đề cập, việc phân tích liệu lớn thường địi hỏi thăm dò, xử lý sàng lọc liệu nhiều lần Cuối cùng, việc xác định 12 trang web hàng đầu làm cho bạn muốn tìm hiểu số lượng đăng cho trang chủ URL Hãy gói ví dụ cách thực cách tiếp cận dễ dàng để có thơng tin đó: Nếu cần, mở sưu tập chỉnh sửa Nhấn vào Add Sheet > Pivot Đặt tên cho trang bảng tính "Pivot" (Trụ), xác định trang bảng tính máy chủ URL làm trang bảng tính đầu vào chọn URLHOST làm cột trụ Xem Hình 20 Hình 20 Tạo trang bảng tính Pivot để chứa liệu tổng hợp Nhấn vào ngăn Calculate (Tính tốn) trình đơn Chỉ rõ tên cột để chứa liệu tổng hợp (ví dụ, CountURLHOST) nhấn chuột vào dấu cộng (+) Đối với giá trị cột mới, chọn COUNT (Đếm) xác định URLHOST làm cột đích cho hoạt động đếm (Xem Hình 21) Hình 21 Xác định tham số tính tốn ban đầu cho trang bảng tính Pivot bạn Trong ngăn Calculate, tạo cột khác tên MergeURL để chứa danh sách sát nhập URL đầy đủ có liên kết với giá trị URLHOST cột sưu tập bạn Một danh sách có ích sau Để tạo danh sách đưa vào làm cột sưu tập kết quả, nhấn chuột vào dấu cộng, chọn MERGE (Sát nhập) cho giá trị cột mới, Url cột đích dấu phẩy (,) dấu phân cách trường Hãy kiểm tra xem đặc tính tính tốn bạn có xuất Hình 22 khơng áp dụng hoạt động Hình 22 Thêm phép tính thứ hai vào trang bảng tính Pivot bạn Nếu muốn, xếp giá trị cột tổng hợp (CountURLHOST) theo thứ tự giảm dần Lưu thoát khỏi sưu tập, sau chạy Duyệt qua kết quả, tập hợp số hiển thị Hình 23 Hình 23 Kiểm tra liệu tổng hợp có chứa trang bảng tính Pivot Mối tương quan nỗ lực tiếp cận môi trường truyền thơng nội với tin tức bên ngồi Cho đến bây giờ, công việc BigSheets đòi hỏi liệu thu thập từ trang web bên Tuy nhiên, nhiều dự án liệu lớn yêu cầu kết hợp liệu bên ngồi với liệu nội cơng ty, chẳng hạn liệu DBMS quan hệ Trong phần này, bạn sử dụng BigSheets để nối hai sưu tập: sưu tập mơ hình hóa liệu môi trường truyền thông xã hội sưu tập mơ hình hóa liệu quan hệ Bằng cách nối hai sưu tập này, bạn tìm hiểu xem nỗ lực tiếp cận môi trường truyền thông công ty tương quan đến việc đưa tin trang web bên thứ ba Lưu ý liệu quan hệ ví dụ mẫu mà chúng tơi cung cấp tệp CSV cho có chứa thơng tin mơ liên hệ môi trường truyền thông IBM Dưới cách nối sưu tập hiển thị trực quan kết quả: Mở sưu tập Watson_news_blogs xây dựng sưu tập Thêm trang bảng tính cách sử dụng macro URLHOST để trích thơng tin tên máy chủ Giữ lại tất cột đặt tên cho trang bảng tính URLHOST Thêm trang bảng tính để nạp sưu tập Media_Contacts mà bạn xây dựng trước dựa liệu RDBMS nhập (Bạn tạo sưu tập Bước 2.) Đặt tên cho trang bảng tính Contacts (Liên hệ) Đổi tên cột cuối trang bảng tính Contacts thành LastContact (Cột tạo cách gọi hàm SQL TIMESTAMP() dựa vào liệu RDBMS ban đầu Các giá trị cho biết mơi trường truyền thơng đích liên hệ lần cuối) Thêm trang bảng tính khác để kết hợp trang bảng tính URLHOST Contacts dựa giá trị cột URLHOST URL, tương ứng (xem Hình 24) Đặt tên cho trang bảng tính Combine (Kết hợp) Hình 24 Kết hợp (nối) liệu từ hai trang bảng tính Để việc kiểm tra kết trở nên dễ dàng hơn, xóa cột ID URL có nguồn gốc từ trang bảng tính Media_Contacts Tổ chức lại cột cịn lại chúng xuất theo thứ tự trực quan hơn, chẳng hạn URLHOST, NAME, Published, LastContact, FeedInfo, Country, Language, SubjectHtml, Tags, Type, Url Lưu sưu tập chạy Đọc lướt qua kết vẽ biểu đồ (nếu muốn) để đánh giá khối lượng đăng cho trang web mơi trường truyền thơng đích (Hình 25 mơ tả biểu đồ ngang tóm tắt liệu này) Hình 25 Đánh giá số lượng đăng IBM Watson trang khác Xuất sưu tập bạn Trong số trường hợp, kết phân tích BigSheets bạn có ích cho ứng dụng bên giúp ích cho đồng nghiệp, người không ủy quyền làm việc trực tiếp với BigInsights May mắn thay, thật dễ xuất nhiều sưu tập bạn thành định dạng liệu phổ biến Chỉ cần mở sưu tập đích sử dụng chức Export As (Xuất là) (ở bên trái nút ấn Run) chọn JSON, CSV, ATOM, RSS HTML làm định dạng đích Các kết hiển thị trình duyệt bạn bạn lưu kết vào hệ thống tệp cục Về đầu trang Xem qua vấn đề vấn đề Bây giờ, bạn có vài ý tưởng mà BigSheets làm Hy vọng rằng, bạn thấy macro, hàm tốn tử dựng sẵn cho phép bạn tìm hiểu, chuyển đổi phân tích dạng liệu lớn khác mà không cần viết mã theo ngôn ngữ Java™ ngôn ngữ tạo kịch lệnh Trong giữ cho kịch đơn giản để giúp bạn để tăng tốc độ nhanh chóng dựa vấn đề BigSheets, công nghệ — công nghệ BigInsights bổ sung — nhiều thứ thứ mà chúng tơi trình bày viết giới thiệu Ví dụ, nhiều dự án phân tích mơi trường truyền thơng xã hội địi hỏi phải sâu vào nội dung đăng để đánh giá tâm lý, phân loại nội dung, loại bỏ đánh giá sai, v.v Những nỗ lực yêu cầu trích bối cảnh từ liệu văn bản, khả cung cấp thông qua thành phần khác BigInsights, đề tài viết tương lai May mắn thay, khả phân tích văn kết hợp với BigSheets thơng qua trình cắm thêm tùy chỉnh Ngồi ra, nhiệm vụ phân tích u cầu ngơn ngữ truy vấn dễ dàng thể điều kiện khác nhau, xử lý chuyển đổi cấu trúc liệu lồng nhau, áp dụng cấu kiện logic điều kiện phức tạp, v.v Thật vậy, BigInsights bao gồm Jaql, ngôn ngữ truy vấn dựa trên-JSON, mà lập trình viên thường sử dụng để đọc chuẩn bị liệu cho việc phân tích BigSheets Một báo tương lai tìm hiểu Jaql ... thập liệu bạn Trước khởi chạy BigSheets, bạn cần số liệu dùng cho việc phân tích Trước hết, tập trung vào việc thu thập liệu môi trường truyền thông xã hội Thu thập liệu môi trường truyền thơng xã. .. dụng ví dụ mẫu Việc địi hỏi phân tích liệu mơi trường truyền thơng xã hội IBM Watson và, cuối cùng, nối liệu với liệu nội IBM mô nỗ lực tiếp cận môi trường truyền thông trích từ DBMS quan hệ... việc phân tích Thu thập liệu từ DBMS quan hệ Sau tìm hiểu số khía cạnh định liệu môi trường truyền thông xã hội này, nối với liệu trích từ DBMS quan hệ Nhiều dự án liệu lớn địi hỏi phân tích

Ngày đăng: 09/03/2014, 03:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan