Data Warehouse là gì? Khái niệm kho dữ liệu hay còn được biết đến là data warehouse ở các công ty lập trình… không còn quá xa lạ nữa. Qua bài viết dưới đây sẽ cung cấp thêm nhiều thông tin hơn đến bạn đọc, cùng tham khảo nhé.
Mục Lục
Data Warehouse là gì?
Data warehouse (DW) hay kho dữ liệu là một hệ thống lưu trữ dữ liệu từ nhiều nguồn, nhiều môi trường khác nhau như: phần mềm bán hàng, kế toán, nhân sự hay hệ thống lõi ngân hàng,… giúp tăng cường hiệu suất của các truy vấn cho báo cáo và phân tích.
Data Warehouse hoạt động như một kho lưu trữ trung tâm. Dữ liệu đi vào kho dữ liệu từ hệ thống giao dịch và các cơ sở dữ liệu liên quan khác. Sau đó, dữ liệu được xử lý, chuyển đổi để người dùng có thể truy cập những dữ liệu này thông qua công cụ Business Intelligence, SQL client hay bảng tính.
Một Data Warehouse thường bao gồm các yếu tố như:
- Một cơ sở dữ liệu quan hệ để lưu trữ và quản lý dữ liệu.
- Giải pháp trích xuất, tải và biến đổi ELT để chuẩn bị dữ liệu cho phân tích.
- Khả năng phân tích thống kê, báo cáo và khai thác dữ liệu.
- Các công cụ phân tích khách hàng để trực quan hóa và trình bày dữ liệu cho người dùng doanh nghiệp.
- Các ứng dụng phân tích khác, phức tạp hơn tạo ra thông tin có thể hành động bằng cách áp dụng khoa học dữ liệu và thuật toán trí tuệ nhân tạo AI hoặc các tính năng đồ thị và không gian cho phép nhiều loại phân tích dữ liệu hơn trên quy mô lớn.
Đặc điểm của Kho dữ liệu
Dữ liệu được lưu trong Kho dữ liệu không được tạo ra trực tiếp từ người dùng mà được lấy từ các nguồn dữ liệu sẵn có và mục đích là phục vụ tạo ra các báo cáo quản trị do đó nó có các tính chất sau:
Hướng chủ đề (subject-oriented):
Mục đích của Kho dữ liệu là phục vụ các yêu cầu phân tích, hoặc khai phá cụ thể được gọi là chủ đề. Ví dụ với chủ đề phân tích nhân sự thì có thể bao gồm các độ đo về doanh thu của từng người, số ngày nghỉ trong tháng, số dự án tham gia trong tháng, theo các chiều phân tích: thời gian, chi nhánh, sản phẩm, …
Một sự so sánh dễ hiểu, giống như chẩn đoán một bệnh ví dụ bệnh liên quan đến tim, thì bác sỹ cần quan tâm không chỉ một mà một vài chỉ số như các chỉ số liên quan đến máu, chỉ số về huyết áp, nhịp tim, điện tâm đồ. Ngoài ra còn cần theo dõi theo thời gian (có thể là hàng ngày) để xem xét sự thay đổi mà có phương pháp điều trị kịp thời. Trong trường hợp này thời gian được gọi là chiều phân tích.
Được tích hợp (integrated)
Tại một bệnh viện, các phòng khác nhau sẽ thực hiện các xét nghiệm khác nhau, do đó để có được đầy đủ thông tin phục vụ chẩn đoán thì cần thu thập được kết quả từ nhiêu nguồn. Điều này hoàn toàn tương tự như tại doanh nghiệp, dữ liệu cần để phân tích có thể nằm rải rác ở nhiều hệ thống tác nghiệp khác nhau, và vì vậy cần tích hợp lại. Quá trình tích hợp này sẽ được thực hiện trong quá trình ETL như đã trình bày ở bài trước.
Việc tổng hợp dữ liệu từ nhiều nguồn vào một kho dữ liệu cho phép chúng ta có thể xem đồng thời nhiều nhóm chỉ tiêu khác nhau (từ nhiều hệ thống nghiệp vụ khác nhau), ví dụ ta có thể xem chỉ tiêu doanh thu ở nhiều mảng nghiệp vụ khác nhau để có thể so sánh được sự tương quan giữa các mảng nghiệp vụ này. Điều này cũng giống trong chuẩn đoán bệnh ta có thể cần nhiều xét nghiệm (thử máu, thử nước tiếu, siêu âm, …) và kiểm tra khác nhau để có thể đưa ra kết luận chính xác.
Có gán nhãn thời gian (time variant)
Như đã đề cập, với các chỉ số thay đổi liên tục (như huyết áp, nhịp tim) việc chẩn đoán bệnh sẽ cần dữ liệu của các hôm trước để so sánh phục vụ quá trình điều trị. Do đó hàng ngày cần phải lưu lại giá trị của các chỉ số này. Hay nói cách khác các chỉ số này khi lưu sẽ được gán 1 nhãn thời gian tương ứng. Tương tự như vậy, dữ liệu lịch sử có tầm quan trọng đặc biệt trong phân tích dữ liệu, cùng một độ đo sẽ có nhiều giá trị khác nhau trong lịch sử có thể dùng để so sánh với nhau để biết được sự thay đổi là tốt hay xấu.
Ví dụ, độ đo doanh thu của một mặt hàng của tháng hiện tại, nếu đem so sánh với doanh thu của mặt hàng đó trong tháng trước, tháng này năm trước thì sẽ có nhiều thông tin hơn để đánh giá doanh thu của mặt hàng đó là tốt hay không, trên cơ sở đó sẽ có các quyết định phù hợp. Ngoài ra, dữ liệu lịch sử còn cho phép dự báo được tương lai khi ứng dụng khai phá dữ liệu.
Xem thêm Công nghệ điện toán biên phổ biến trong kinh doanh hiện nay
Bất biến (non-volatile)
Khác với các cơ sở dữ liệu (CSDL) giao dịch, nơi thông tin của một đối tượng có thể được cập nhật thay đổi hàng ngày, dữ liệu trong Kho dữ liệu có chức năng báo cáo lại các chỉ số về hoạt động kinh doanh thực tế đã xảy ra. Do đó dữ liệu trong Kho dữ liệu không thể cập nhật, thay đổi vì nó sẽ không phản ánh đúng thực tế. Do đó với kho dữ liệu chỉ có 2 thao tác chính là tải dữ liệu vào kho và truy cập (đọc) dữ liệu từ kho.
Trường hợp sau khi tổng hợp dữ liệu mà dữ liệu ở trong nguồn bị thay đổi, khi đó một giải pháp xử lý là thực hiện lại quá trình ETL để tải lại dữ liệu từ nguồn vào Kho dữ liệu chứ không cho phép sửa đổi dữ liệu ở trong Kho. Một ý nghĩa khác của tính chất này là dữ liệu lịch sử vẫn được bảo tồn, vẫn có ý nghĩa chứ không như dữ liệu tác nghiệp ở các cơ sở dữ liệu, dữ liệu cũ (năm trước, hoặc tháng trước) không có ý nghĩa phục vụ hoạt động hằng ngày.
Ứng dụng thực tế nó ra sao ?
Giả sử 1 doanh nghiệp có hàng triệu người dùng mỗi ngày như viễn thông X, để hiểu được hành vi người dùng thì doanh nghiệp X này cần thu thập từ vị trí điện thoại, tần suất gọi điện, tần suất sử dụng internet, ….. các dữ liệu này là rất rất lớn. Để tồn tại và tối đa hóa doanh thu thì doanh nghiệp X cần thống kê phân tích những thứ có lợi, có hại từ những dữ liệu đó, doanh nghiệp lúc đó có cái nhìn tổng thể để đưa ra được xu hướng khách hàng, phân phối chuyển giao…
Hay như doanh nghiệp Y chuyên về chăm sóc sức khỏe, data người bệnh là có giá trị khi nó rất lớn, nó có thể là đầu vào của machine learning hoặc AI phân tích dữ liệu báo cáo để có thể đáp ứng khách hàng tốt hơn, hiểu được đa số người dùng muốn gì ?
Xem thêm Cơ sở dử liệu trong công nghệ thông tin bạn cần biết
Cái nhìn sơ bộ
Data Warehouse là gì? Giả sử chúng ta có 1 sơ đồ bảng quan hệ cơ sở dữ liệu thông thường được cho là 1 phần database dữ liệu cho data warehouse của chúng ta.
Để tóm tắt những trường mình cần, thống kê, báo cáo định kì mà các sếp quan tâm thì chúng ta có thể truy vấn bình thường từng cái một. Nhưng vấn đề là không nhanh, không filter được đầy đủ khi cần gấp báo cáo về vấn đề X nào đó thì công cụ phân tích data warehouse sẽ phát huy tác dụng (OLAP tools).
Qua bài viết trên Ghichu.vn đã cung cấp các thông tin về Data Warehouse là gì? Đặc điểm của Kho dữ liệu. Hy vọng những thông tin trên của bài viết sẽ hữu ích vơi các bạn đọc. Cảm ơn các bạn đã dành thời gian để xem qua bài viết này nhé.
Lộc Đạt – Tổng hợp
Tham khảo ( ierp.vn, viblo.asia, … )