DATA LAKE

I. Khái niệm

Data Lake (hồ dữ liệu) là một nơi tập trung, dùng để lưu trữ, xử lý, phân tích và bảo mật một lượng lớn thông tin dữ liệu, bao gồm dữ liệu phi cấu trúc, bán cấu trúc và có cấu trúc. Nơi đây có thể lưu trữ dữ liệu ở dạng nguyên thể và xử lý đa dạng các dữ liệu khác nhau, không giới hạn về kích thước và định dạng.

II. Kiến trúc của Data lake

1. Data Sources (Nguồn Dữ liệu)

Data Lake có thể tiếp nhận dữ liệu từ ba loại nguồn chính:

Structured: Dữ liệu có cấu trúc như:
- DWH (Data Warehouse)
- DBMS như RDBMS, OLTP
- ODS (Operational Data Store)
Semi-Structured: Dữ liệu bán cấu trúc như:
- XML, JSON
- Logs, Emails
- IoT device data
Unstructured: Dữ liệu không cấu trúc như:
- Hình ảnh, video
- Âm thanh, tài liệu Word/PDF
- Mạng xã hội, văn bản tự do

2. Data Digestion (Tiêu hóa dữ liệu)

Quá trình ingest (nhập dữ liệu) vào Data Lake diễn ra qua 2 phương pháp chính:

Batch/Scheduled: Dữ liệu được nhập theo lô định kỳ (ví dụ: mỗi đêm).
Real-Time/Stream: Dữ liệu được ingest theo thời gian thực từ cảm biến, logs, hoặc sự kiện (event streams).

3. Data Zones (Các vùng lưu trữ trong Data Lake)

Data Lake thường được chia thành các “vùng” phản ánh mức độ xử lý và tin cậy của dữ liệu:

Raw/Landing Zone:
Dữ liệu thô, nguyên bản, chưa qua xử lý – lưu trữ ngay khi ingest.
Trusted (Standardized) Zone:
Dữ liệu đã được chuẩn hóa, có cấu trúc rõ ràng và đáng tin cậy.
Refined (Cleansed) Zone:
Dữ liệu đã được làm sạch và chuẩn bị cho các mục đích phân tích sâu.
Sandbox/Lab:
Khu vực thử nghiệm dành cho nhà khoa học dữ liệu, nơi dữ liệu có thể được kiểm tra, khám phá và phân tích tự do.

4. Data Lake Governance

Quản trị dữ liệu đảm bảo:
- Tuân thủ quy định về quyền riêng tư, bảo mật.
- Quản lý metadata, lineage (nguồn gốc dữ liệu).
- Quản lý truy cập người dùng.

5. Data Consumption (Tiêu thụ dữ liệu)

Dữ liệu từ Data Lake có thể được khai thác thông qua nhiều hình thức:

Dashboard/BI: Trực quan hóa dữ liệu qua dashboard hoặc công cụ Business Intelligence.
Report & Alerts: Tạo báo cáo và cảnh báo dựa trên sự kiện.
Insights & Visualization: Khai phá dữ liệu để đưa ra nhận định giá trị.
Search/Query: Cho phép tìm kiếm, truy vấn dữ liệu bằng ngôn ngữ SQL hoặc DSL.

III. Lợi ích của Data lake

Data Lake có ưu điểm là khả năng khai thác nhiều loại dữ liệu từ nhiều nguồn khác nhau chỉ trong thời gian ngắn, đồng thời cấp quyền cho người dùng cộng tác và phân tích dữ liệu theo nhiều cách khác nhau, giúp cho việc ra quyết định được nhanh chóng và chuẩn xác hơn. Một số lợi ích nổi bật của Data Lake bao gồm:

1. Cải thiện tương tác với khách hàng

Data Lake có khả năng kết hợp dữ liệu khách hàng từ CRM với phương tiện truyền thông xã hội, nền tảng mua bán bao gồm lịch sử mua hàng và phiếu xử lý sự cố. Điều này cho phép doanh nghiệp nắm rõ về nhóm khách hàng sinh lời cao nhất, tìm hiểu nguyên nhân khiến khách hàng rời bỏ thương hiệu cũng như các chương trình ưu đãi. Từ đó giúp gia tăng lòng trung thành của khách hàng đối với doanh nghiệp.

2. Cải thiện các lựa chọn đổi mới R&D

Data Lake giúp nhóm R&D kiểm tra giả thuyết của họ, điều chỉnh các giả định và đánh giá kết quả nhằm đẩy nhanh hiệu suất công việc.

3. Tăng hiệu quả hoạt động

Internet of Things (IoT) cung cấp nhiều phương thức thu thập dữ liệu về các quy trình sản xuất, thông qua dữ liệu thời gian thực từ các thiết bị kết nối Internet. Data Lake giúp cho việc lưu trữ và chạy phân tích trên dữ liệu IoT trở nên dễ dàng hơn, nhằm khám phá ra những phương thức mới giúp giảm thiểu chi phí hoạt động, gia tăng chất lượng.

IV. Ứng dụng của Data lake

1. Quản trị dữ liệu và kiểm soát dữ liệu

Do các Data Lake chứa nhiều loại dữ liệu khác nhau, bao gồm cả dữ liệu nhạy cảm hoặc cần tuân thủ các yêu cầu nên có thể khiến người dùng lo ngại về vấn đề bảo mật. Vì không có bảng cơ sở dữ liệu, các quyền hạn sẽ linh hoạt hơn và khó thiết lập hơn, đồng thời phải dựa trên những đối tượng cụ thể hoặc định nghĩa siêu dữ liệu

Ngày nay, vấn đề này có thể được giải quyết bằng nhiều công cụ quản trị khác nhau, giúp doanh nghiệp kiểm soát các cá nhân có quyền truy cập vào dữ liệu. Những giải pháp danh mục dữ liệu cho phép tạo danh mục dữ liệu, chỉ định các loại dữ liệu khác nhau, kiểm soát truy cập cũng như chính sách lưu trữ cho từng loại.

2. Lưu trữ một số bản sao dữ liệu

Data Lake cho phép lưu trữ dữ liệu phi cấu trúc, tách biệt việc lưu trữ khỏi máy tính, cho phép người dùng lưu trữ lượng lớn dữ liệu với chi phí đầu tư thấp. Thông thường, các Data Lake được sử dụng để lưu trữ cả dữ liệu thô và dữ liệu đã được xử lý.

Nhu cầu lưu trữ dữ liệu thô khá phổ biến, do có thể được sử dụng để:

Xác thực hệ thống, luồng dữ liệu
Khôi phục lỗi
Phân tích thăm dò

3. Cài đặt chính sách lưu trữ

Data Lake có thể lưu trữ dữ liệu lịch sử, nhưng sẽ lưu trữ mãi mãi bất kỳ dữ liệu nào. Dữ liệu phải được xử lý khi không sử dụng đến để tiết kiệm bộ nhớ và tuân thủ các tiêu chuẩn như EU GDPR, California CCPA, Australian APP.

IV. So sánh Data warehouse với Data Lake

Yếu tố	Data Warehouse	Data Lake
Dữ liệu	Dữ liệu có cấu trúc, đã được xử lý, tối ưu hóa cho kinh doanh.	Tất cả dữ liệu: có cấu trúc, không cấu trúc, bán cấu trúc; dữ liệu gốc chưa qua xử lý.
Lược đồ	Lược đồ cụ thể, xác định trước (schema-on-write).	Lược đồ linh hoạt, xác định khi đọc dữ liệu (schema-on-read).
Giá thành / Hiệu suất	Chi phí lưu trữ cao, hiệu suất truy vấn cao nhờ bộ nhớ cục bộ.	Chi phí lưu trữ thấp, hiệu suất cao với dữ liệu lớn nhưng truy vấn có thể chậm hơn.
Chất lượng dữ liệu	Dữ liệu đã được xử lý, làm sạch, kiểm tra – đóng vai trò “phiên bản trung tâm của sự thật”.	Dữ liệu thô, chưa được xử lý, có thể thiếu kiểm soát chất lượng.
Người dùng	Phù hợp với nhà phân tích dữ liệu, quản lý, người dùng nghiệp vụ.	Phù hợp với nhà khoa học dữ liệu, kỹ sư dữ liệu, nhà nghiên cứu.
Phân tích	Phân tích theo mô hình định sẵn, phục vụ báo cáo, dashboard và ra quyết định kinh doanh.	Phân tích linh hoạt: khám phá, học máy, phân tích thời gian thực, lập hồ sơ.

Data Lake là gì? Sự khác nhau giữa Data Lake với Data Warehouse trong thế giới dữ liệu hiện đại