7 nguồn Dataset miễn phí dành cho dân ngành dữ liệu
4/27/2025•5 phút đọc
Nếu bạn là người mới làm quen với ngành dữ liệu và muốn luyện tập kỹ năng mới học, hoặc đang trong quá trình xây dựng portfolio tìm việc,... có thể bạn đã từng gặp khó khăn trong việc tìm kiếm các nguồn dữ liệu (dataset) để thực hành.
May mắn thay, nguồn tài nguyên khổng lồ trên Internet đã cho phép chúng ta khả năng tiếp cận thông tin một cách dễ dàng. Trong bài viết này, tôi sẽ cung cấp cho bạn một số nguồn dữ liệu công khai chất lượng, giúp bạn xây dựng dự án tiếp theo của mình.
1. Google Cloud Public Datasets
Loại dữ liệu: Chung
Link website: https://cloud.google.com/bigquery/public-data/
Google hiện diện trong mọi ngóc ngách đời sống chúng ta, và dữ liệu cũng không phải ngoại lệ. Ra mắt vào năm 2010 với tên gọi ban đầu là Google Public Data Explorer, Google Cloud Public Datasets được đổi sang tên gọi hiện tại vào năm 2018 nhằm phản ánh rõ hơn việc các dataset tại đây được lưu trữ trên Google Cloud Platform.
Tính đến nay, Google Cloud Public Datasets là nơi phát hành công khai của hơn 1000 dataset từ nhiều chủ đề, bao gồm lĩnh vực tài chính kinh tế, thay đổi khí hậu, y tế và giáo dục.
Để sử dụng Google Cloud Public Datasets, bạn sẽ cần phải đăng ký tài khoản trên Google Cloud Platform và thực hiện truy vấn dataset qua BigQuery. có một lưu ý nhỏ rằng bạn sẽ được truy vấn miễn phí trên Google Cloud Public Datasets trong giới hạn 1TB đầu tiên; vượt quá giới hạn này, bạn sẽ phải trả phí để truy vấn dữ liệu, với chi phí phải trả cho mỗi TB tiếp theo là $0.005.
2. Kaggle
Loại dữ liệu: Chung
Link website: https://www.kaggle.com/datasets
Kaggle, ra mắt vào năm 2010 và gần đây đã được Google mua lại, là một nền tảng dữ liệu mở cho phép người dùng có thể học tập, trao đổi, và thực hành nâng cao kỹ năng phân tích dữ liệu. Không chỉ dừng lại ở đó, Kaggle cũng lưu trữ một kho dataset chất lượng với đa dạng chủ đề thú vị.
3. Tidy Tuesday
Lĩnh vực: Chung
Link website: https://github.com/rfordatascience/tidytuesday
'TidyTuesday' là một dự án phát triển bởi 'Cộng đồng học tập trực tuyến R4DS', tập trung vào ngôn ngữ R. Hàng tuần, nhóm dự án của Tidy Tuesday sẽ đăng tải một dataset mới và giao một loạt thử thách để người dùng có thể khám phá và xây dựng một dự án mới.
Tidy Tuesday là một cách tuyệt vời để người dùng ngôn ngữ R tìm hiểu học hỏi về dữ liệu, cũng như cho phép họ kết nối với nhau và chia sẻ thành quả dự án.
4. FiveThirtyEight
Loại dữ liệu: Chính trị, thể thao, văn hóa
Link website: https://data.fivethirtyeight.com/
FiveThirtyEight là một website chuyên cung cấp các phân tích về chính trị, thể thao, và văn hóa thông qua các thống kê dữ liệu. Được thành lập vào năm 2008 bởi Nate Silver, một nhà thống kê chính trị đã dự đoán chính xác kết quả của cuộc bầu cử tổng thống Hoa Kỳ năm 2008 và 2012, FiveThirtyEight sử dụng dữ liệu để kể chuyện và cung cấp tin tức cho công chúng.
5. DataHub
Loại dữ liệu: Chung
Link website: https://datahub.io/collections
DataHub là một nền tảng xuất bản dữ liệu SAAS vận hành bởi Datopian, nơi bạn có thể duyệt qua bộ sưu tập dữ liệu công khai đa dạng nhất được sắp xếp theo chủ đề. Không chỉ dừng lại tại đó, DataHub còn cung cấp nhiều tài liệu về cách sử dụng nền tảng, tính năng của họ nhằm quản lý và trực quan hóa dữ liệu.
6. Cơ sở dữ liệu Global Health Observatory (WHO)
Lĩnh vực: Y tế, sức khoẻ
Link website: https://apps.who.int/gho/data/node.home
Global Health Observatory là cửa ngõ của UN WHO tới các số liệu thống kê liên quan đến sức khỏe trên toàn cầu, bao gồm các dữ liệu thống kê liên quan tới bệnh sốt rét cho đến HIV/AIDS, tỷ lệ tiêm chủng, v.v. Nếu bạn dự định xây dựng một dự án liên quan đến lĩnh vực y tế, dataset của Global Health Observatory chắc chắn sẽ là một điểm xuất phát tốt dành cho bạn.
7. Earth Data
Lĩnh vực: Khoa học Trái đất
Link website: https://www.earthdata.nasa.gov
Hứng thú về một dự án lấy đề tài về Trái đất hay vũ trụ? Earth Data là nơi hoàn hảo để bắt đầu tìm kiếm dataset cho dự án của bạn.
EarthData là một phần của Chương trình Hệ thống Dữ liệu Khoa học Trái đất do NASA khởi động, chuyên cung cấp các dataset về dữ liệu bầu khí quyển, đại dương, địa chất, v.v. của Trái đất. Để giúp người dùng tìm kiếm hiệu quả trong kho cơ sở dữ liệu khổng lồ, NASA cũng thiết lập công cụ để tìm kiếm, xử lý, sắp xếp và trực quan hóa dữ liệu.