Các bài viết với thẻ "BigData"
Kiến trúc hệ thống data warehouse - Phần tiếp theo
Các phần trước đã đề cập đến kiến trúc luồng dữ liệu. Chúng ta đã tìm hiểu cách dữ liệu được sắp xếp trong kho lưu trữ dữ liệu và cách dữ liệu di chuyển trong hệ thống kho dữ liệu. Khi bạn đã chọn một kiến trúc luồng dữ liệu nhất định, thì bạn cần thiết kế kiến trúc hệ thống, đó là sự sắp xếp và kết nối vật lý giữa các máy chủ, mạng, phần mềm, hệ thống lưu trữ và clients. Đọc tiếp
Xem tiếp
Kiến trúc hệ thống data warehouse
Một hệ thống kho dữ liệu có hai kiến trúc chính: kiến trúc luồng dữ liệu và kiến trúc hệ thống. Kiến trúc luồng dữ liệu là về cách sắp xếp các kho lưu trữ dữ liệu trong kho dữ liệu và cách dữ liệu truyền từ hệ thống nguồn đến người dùng thông qua các kho lưu trữ dữ liệu này. Kiến trúc hệ thống là về cấu hình vật lý của máy chủ, mạng, phần mềm, bộ lưu trữ và máy khách. Bài này sẽ thảo luận về kiến trúc luồng dữ liệu trước và sau đó là kiến trúc hệ thống Đọc tiếp
Xem tiếp
Giới thiệu tổng quan về Data Warehouse (Kho dữ liệu)
Kho dữ liệu là một hệ thống truy xuất và hợp nhất dữ liệu định kỳ từ các hệ thống nguồn vào kho lưu trữ dữ liệu theo chiều hoặc chuẩn hóa. Nó thường lưu giữ nhiều năm và được truy vấn về thông tin kinh doanh hoặc các hoạt động phân tích khác. Nó thường được cập nhật theo đợt, không phải mỗi khi giao dịch xảy ra trong hệ thống nguồn. Đọc tiếp
Xem tiếp
Một số hệ quản trị cơ sở dữ liệu phổ biến – Phần 6: Tạo và truy vấn View trong CouchDB
Trong CouchDB, view là một cửa sổ vào các tài liệu có trong cơ sở dữ liệu. View là cách chính mà tài liệu được truy cập trong tất cả các trường hợp trừ các trường hợp đặc biệt. Trong bài này chúng ta sẽ làm quen với việc khởi tạo và truy vấn với view Đọc tiếp
Xem tiếp
Một số hệ quản trị cơ sở dữ liệu phổ biến – Phần 5: Tìm hiểu về CouchDB
CouchDB là cơ sở dữ liệu định hướng tài liệu dựa trên JSON và REST-based. Được phát hành lần đầu tiên vào năm 2005, CouchDB được thiết kế dành cho web và vô số sai sót, lỗi và trục trặc đi kèm với hệ thống web Đọc tiếp
Xem tiếp
Một số hệ quản trị cơ sở dữ liệu phổ biến – Phần 4: Tìm hiểu MongoDB
Mongo là một cơ sở dữ liệu JSON document (mặc dù về mặt kỹ thuật, dữ liệu được lưu trữ ở dạng JSON nhị phân được gọi là BSON). Một JSON documnet có thể được ví như một hàng của bảng quan hệ mà không có lược đồ, các giá trị của nó có thể lồng vào nhau tùy ý Đọc tiếp
Xem tiếp
Một số hệ quản trị cơ sở dữ liệu phổ biến – Phần 3: FullText và Multidimensions
Chúng ta sẽ dành bài này để nghiên cứu nhiều công cụ mà để xây dựng một hệ thống truy vấn cơ sở dữ liệu quản lý các bộ phim với PostgreSQL FullText và Multidimensions Đọc tiếp
Xem tiếp
Một số hệ quản trị cơ sở dữ liệu phổ biến – Phần 5: Tìm hiểu về CouchDB
CouchDB là cơ sở dữ liệu định hướng tài liệu dựa trên JSON và REST-based. Được phát hành lần đầu tiên vào năm 2005, CouchDB được thiết kế dành cho web và vô số sai sót, lỗi và trục trặc đi kèm với nó Đọc tiếp
Xem tiếp
Tự học Hadoop - Giờ 2: Tìm hiểu về kiến trúc Hadoop cluster
Trong bài này, bạn sẽ được giới thiệu về các xử lý liên quan đến nền tảng Hadoop và cách chúng hoạt động trong Hadoop cluster. Bạn học cách phân biệt giữa các xử lý nút chính và nút phụ trong kiến trúc cluster chính-phụ của Hadoop. Bạn cũng tìm hiểu về các phương thức triển khai khác nhau với Hadoop. Bài này cung cấp cho bạn hiểu biết cấp cao mà bạn cần để triển khai Hadoop trong các bài tiếp theo Đọc tiếp
Xem tiếp
Tự học Hadoop - Giờ 1: Bắt đầu với Hadoop
Dữ liệu lớn (Big data) và Hadoop có mối liên kết chặt chẽ với nhau. Ban đầu là một nền tảng tìm kiếm cho đến vô số ứng dụng hiện tại trải dài từ datawarehouse đến event processing đến học máy (machine learning), Hadoop đã tạo ra cuộc cách mạng về dữ liệu sâu sắc. Trong phần này chúng tôi giới thiệu về nền tảng và lịch sử phát triển Hadoop cũng như các khái niệm cốt lõi của Hadoop và các trường hợp sử dụng điển hình Đọc tiếp