OLAP là gì?

Trần Lê Tuấn Vũ
Trần Lê Tuấn Vũ

6/2/20255 phút đọc

333
0
OLAP là gì?

OLAP (Online Analytical Processing) là gì? 

Xử lý phân tích trực tuyến (OLAP) là một loại công nghệ xử lý dữ liệu được sử dụng để phân tích thông tin từ nhiều góc độ khác nhau. OLAP cho phép người dùng truy cập, lọc, tổng hợp và phân tích dữ liệu trên một mô hình dữ liệu đa chiều, thường được gọi là cube (khối) OLAP. 

Các cube OLAP bao gồm các chiều dữ liệu khác nhau, mỗi chiều đại diện cho một thuộc tính hoặc quan sát trong tập dữ liệu. Người dùng có thể di chuyển qua lại giữa các chiều để xem dữ liệu theo nhiều cách khác nhau. Từ đó giúp họ hiểu rõ hơn về xu hướng, mối quan hệ và thông tin tiềm ẩn trong dữ liệu. 

Tính linh hoạt và khả năng phân tích đa chiều của OLAP sẽ hỗ trợ người dùng dễ dàng thực hiện các hoạt động phân tích số liệu phức tạp theo cách hiệu quả nhất. Đây cũng là yếu tố tác động đến quyết định kinh doanh và dự đoán xu hướng của nhà đầu tư. 

 

Tại sao OLAP lại quan trọng? 

  1. Đưa ra quyết định nhanh hơn 

Các doanh nghiệp sử dụng OLAP để đưa ra các quyết định nhanh chóng và chính xác nhằm duy trì khả năng cạnh tranh trong một nền kinh tế tốc độ nhanh. Thực hiện truy vấn phân tích trên nhiều cơ sở dữ liệu quan hệ mất nhiều thời gian vì hệ thống máy tính tìm kiếm qua nhiều bảng dữ liệu. Mặt khác, các hệ thống OLAP tính toán trước và tích hợp dữ liệu để các chuyên viên phân tích kinh doanh có thể lập báo cáo nhanh hơn khi cần thiết. 

2. Hỗ trợ người dùng không chuyên 

Các hệ thống OLAP giúp việc phân tích dữ liệu phức tạp trở nên dễ dàng hơn cho những người dùng doanh nghiệp không chuyên. Người dùng doanh nghiệp có thể thực hiện các phép toán phân tích phức tạp và lập báo cáo thay vì học cách vận hành cơ sở dữ liệu. 

3. Chế độ xem dữ liệu tích hợp 

OLAP cung cấp một nền tảng thống nhất cho marketing, tài chính, sản xuất và các bộ phận kinh doanh khác. Các nhà quản lý và người ra quyết định có thể nhìn thấy bức tranh toàn cảnh và chi tiết giải quyết vấn đề một cách hiệu quả. 

 

OLAP hoạt động như thế nào?  

Một hệ thống xử lý phân tích trực tuyến (OLAP) hoạt động bằng cách thu thập, tổ chức, tổng hợp và phân tích dữ liệu theo các bước sau:  

  1. Máy chủ OLAP thu thập dữ liệu từ nhiều nguồn dữ liệu, bao gồm cơ sở dữ liệu quan hệ và kho dữ liệu. 

  2. Sau đó, các công cụ trích xuất, chuyển đổi và tải (ETL) làm sạch, tổng hợp, tính toán trước và lưu trữ dữ liệu trong một khối OLAP theo số lượng chiều được chỉ định. 

  3. Các chuyên viên phân tích kinh doanh sử dụng công cụ OLAP để truy vấn và lập báo cáo từ dữ liệu đa chiều trong khối OLAP. 

OLAP sử dụng ngôn ngữ truy vấn đa chiều (MDX) để truy vấn khối OLAP. MDX là một truy vấn, tương tự như SQL, cung cấp một tập các hướng dẫn để thao tác cơ sở dữ liệu. 

OLAP có những loại nào? 

Các hệ thống xử lý phân tích trực tuyến (OLAP) hoạt động theo ba cách chính. 

MOLAP (Multi-Dimensional OLAP) 

Xử lý phân tích trực tuyến đa chiều (MOLAP) liên quan đến việc tạo ra một khối dữ liệu đại diện cho dữ liệu đa chiều từ một kho dữ liệu. Hệ thống MOLAP lưu trữ dữ liệu được tính toán trước trong siêu khối. Các kỹ sư dữ liệu sử dụng MOLAP vì loại công nghệ OLAP này cung cấp phân tích tốc độ cao.  

ROLAP (Relational OLAP) 

Thay vì sử dụng một khối dữ liệu, xử lý phân tích trực tuyến quan hệ (ROLAP) cho phép các kỹ sư dữ liệu thực hiện phân tích dữ liệu đa chiều trên một cơ sở dữ liệu quan hệ. Nói cách khác, các kỹ sư dữ liệu sử dụng truy vấn SQL để tìm kiếm và truy xuất thông tin cụ thể dựa trên các chiều yêu cầu. ROLAP phù hợp cho phân tích dữ liệu rộng và chi tiết. Tuy nhiên, ROLAP có hiệu suất truy vấn chậm so với MOLAP.  

HOLAP (Hybrid OLAP) 

Xử lý phân tích trực tuyến lai (HOLAP) kết hợp MOLAP và ROLAP để mang tới những ưu điểm tốt nhất của cả hai kiến trúc. HOLAP cho phép các kỹ sư dữ liệu nhanh chóng lấy kết quả phân tích từ một khối dữ liệu và trích xuất thông tin chi tiết từ cơ sở dữ liệu quan hệ.  

Lập mô hình dữ liệu trong OLAP 

Lập mô hình dữ liệu là việc biểu diễn dữ liệu trong kho dữ liệu hoặc cơ sở dữ liệu xử lý phân tích trực tuyến (OLAP). Lập mô hình dữ liệu đóng vai trò rất quan trọng đối với xử lý phân tích trực tuyến quan hệ (ROLAP) vì nó phân tích dữ liệu trực tiếp từ cơ sở dữ liệu quan hệ. Nó lưu trữ dữ liệu đa chiều như Star Schema hoặc Snowflake Schema.  

Star Schema 

Star Schema bao gồm một bảng fact và nhiều bảng dim. Bảng fact là một bảng dữ liệu chứa các trị số liên quan đến quy trình kinh doanh và bảng dim chứa các giá trị mô tả mỗi thuộc tính trong bảng dữ kiện. Bảng fact đề cập đến các bảng dim với foreign keys, chúng là mã định danh duy nhất tương quan với thông tin tương ứng trong bảng dim.  

Trong Star Schema, một bảng fact liên kết với một số bảng dim khiến cho mô hình dữ liệu trông giống một ngôi sao. Sau đây là một ví dụ về một bảng fact doanh số sản phẩm:  

  • ID sản phẩm 

  • ID vị trí 

  • Salesperson ID (ID nhân viên bán hàng) 

  • Doanh số bán hàng 

ID sản phẩm báo cho hệ thống cơ sở dữ liệu truy xuất thông tin từ bảng dim của sản phẩm, có thể trông như sau: 

  • ID sản phẩm 

  • Tên sản phẩm 

  • Loại sản phẩm 

  • Chi phí sản phẩm 

Tương tự, ID vị trí chỉ đến một bảng dim vị trí, có thể bao gồm thông tin sau: 

  • ID vị trí 

  • Quốc gia 

  • Thành phố 

Bảng nhân viên bán hàng có thể trông như sau: 

  • Salesperson ID (ID nhân viên bán hàng) 

  • Tên 

  • Họ 

  • Thư điện tử 

Snowflake Schema 

Lược đồ bông tuyết là bản mở rộng của lược đồ ngôi sao. Một số bảng thứ nguyên có thể dẫn đến một hoặc nhiều bảng thứ nguyên phụ. Điều này tạo ra một hình dạng giống như bông tuyết khi các bảng thứ nguyên được kết hợp với nhau.  

Ví dụ: bảng thứ nguyên sản phẩm có thể chứa các trường sau: 

  • ID sản phẩm 

  • Tên sản phẩm 

  • ID loại sản phẩm 

  • Chi phí sản phẩm 

ID loại sản phẩm kết nối với bảng thứ nguyên khác như được minh họa trong ví dụ sau: 

  • ID loại sản phẩm 

  • Tên loại 

  • Phiên bản 

  • Biến thể  

OLAP vs OLTP 

OLTP (Online Transactional Processing) 

Xử lý giao dịch trực tuyến (OLTP) là một công nghệ dữ liệu lưu trữ thông tin một cách nhanh chóng và đáng tin cậy trong một cơ sở dữ liệu. Các kỹ sư dữ liệu sử dụng những công cụ OLTP để lưu trữ dữ liệu giao dịch, chẳng hạn như báo cáo tài chính, gói đăng ký dịch vụ và phản hồi của khách hàng, trong cơ sở dữ liệu quan hệ. Các hệ thống OLTP liên quan đến việc tạo, cập nhật và xóa bản ghi trong bảng quan hệ.  

OLAP và OLTP 

OLTP rất phù hợp để xử lý và lưu trữ nhiều luồng giao dịch trong cơ sở dữ liệu. Tuy nhiên, nó không thể thực hiện các truy vấn phức tạp từ cơ sở dữ liệu. Do đó, các chuyên viên phân tích kinh doanh sử dụng một hệ thống OLAP để phân tích dữ liệu đa chiều. Ví dụ, các nhà khoa học dữ liệu kết nối cơ sở dữ liệu OLTP với một khối OLAP dựa trên nền tảng đám mây để thực hiện các truy vấn dữ liệu lịch sử thiên về điện toán.

Tiêu chí 

OLTP 

Online Transactional Processing 

OLAP 

Online Analytical Processing 

Người dùng 

Nhân viên, bộ phận IT, khách hàng 

Data Analyst, Business Intelligence,  

Mục đích 

Kiểm soát, ghi và lưu trữ các nghiệp vụ xảy ra hàng ngày 

 
Phục vụ người dùng ở cấp hoạt động trong doanh  

Phục vụ mục đích tạo ra các báo cáo, giải quyết vấn đề, hỗ trợ ra quyết định 

 

Phục vụ cho các cấp bậc quản lí 

Phản ánh dữ liệu 

Cho thấy một bức ảnh chụp nhanh của các quá trình kinh doanh liên tục 

Số liệu cung cấp góc nhìn đa chiều các hoạt động kinh doanh trong doanh nghiệp 

Thêm và sửa dữ liệu 

Thêm và sửa nhanh chóng và được tạo ra bởi người dùng cuối ở cấp hoạt động một số lượng lớn giao dịch (insert, update, delete) trong một thời gian ngắn) 

Chạy theo chu kỳ như vào 1 kỳ nhất định để tập hợp, tính toán và làm mới dữ liệu.Thường có nhiều truy vấn yêu cầu tính toán tổng hợp dữ liệu 

Truy vấn 

Liên quan đến các truy vấn cơ bản, số lượng dòng dữ liệu trả về ít 

Thường truy vấn với các câu truy vấn tính toán phức tạp dựa trên khối lượng dữ liệu rất lớn 

Tốc độ xử lí 

Thường rất nhanh trong vài giây 

Phụ thuộc vào khối lượng dữ liệu cần xử lí. Một lần xử lí một lô query để tập hợp và tính toán dữ liệu có thể kéo dài hàng giờ 

Không gian lưu trữ 

Tương đối nhỏ nếu dữ liệu lịch sử được cắt giảm và lưu trữ thích hợp (Trăm MB-GB) 

Thường rất lớn, do sự tồn tại của dữ liệu tổng hợp nhưng mang tính lịch sử, cần nhiều hơn so với OLTP (Trăm GB-TB) 

Thiết kế database 

Mô hình thiết kế theo mô hình quan hệ thực thể, cơ sở dữ liệu thiết kế cho hệ thống này thường được chuẩn hóa 

Thường không cần chuẩn hóa, ít table hơn. Thường theo star schema hoặc snowflake schema 

 Kết luận 

OLAP đã chứng tỏ vai trò quan trọng trong lĩnh vực phân tích dữ liệu và hỗ trợ ra quyết định kinh doanh. Bằng cách cung cấp khả năng truy vấn nhanh chóng và phân tích dữ liệu từ nhiều góc độ khác nhau, OLAP giúp các tổ chức hiểu rõ hơn về hiệu suất hoạt động và xu hướng thị trường. Việc tích hợp OLAP vào hệ thống thông tin doanh nghiệp không chỉ nâng cao hiệu quả phân tích mà còn tạo nền tảng vững chắc cho việc hoạch định chiến lược và tối ưu hóa quy trình kinh doanh.