Giảm dữ liệu là quá trình giảm lượng dung lượng cần thiết để lưu trữ dữ liệu. Việc giảm dữ liệu có thể tăng hiệu quả lưu trữ và hạ thấp chi phí. Các nhà cung cấp lưu trữ thường mô tả dung lượng dưới dạng dung lượng thô và dung lượng hiệu quả, đó là dữ liệu sau khi đã được giảm.
Cách để giảm dữ liệu
Các loại chính bao gồm sự tối ưu trùng dữ liệu, nén và lưu trữ một phiên bản. Giảm trùng dữ liệu, còn được gọi là giảm trùng dữ liệu, loại bỏ các đoạn dữ liệu trùng lặp trên hệ thống lưu trữ. Nó chỉ lưu trữ các đoạn trùng lặp một lần và sử dụng bản sao đó mỗi khi yêu cầu truy cập vào phần dữ liệu đó. Giảm trùng dữ liệu có độ tinh tế cao hơn so với lưu trữ một phiên bản. Lưu trữ một phiên bản tìm kiếm các tệp như các tệp đính kèm email được gửi cho nhiều người và chỉ lưu trữ một bản sao của tệp đó. Như với tối ưu trùng dữ liệu, lưu trữ một phiên bản thay thế các bản sao bằng các con trỏ đến bản sao được lưu trữ.
Một số mảng lưu trữ theo dõi các khối dữ liệu được chia sẻ nhiều nhất. Những khối đó được chia sẻ bởi số lượng tệp lớn nhất có thể được di chuyển đến bộ nhớ hoặc bộ đệm được dựa trên bộ nhớ flash để có thể đọc một cách hiệu quả nhất.
Nén dữ liệu cũng hoạt động trên mức tệp.
Nó được thực hiện tự động trong các hệ thống lưu trữ bằng cách sử dụng các thuật toán hoặc công thức được thiết kế để xác định và loại bỏ các bit dữ liệu trùng lặp. Nén dữ liệu đặc biệt tham chiếu đến phương pháp giảm dữ liệu bằng cách thu nhỏ các tệp ở mức độ bit. Nén hoạt động bằng cách sử dụng các công thức hoặc thuật toán để giảm số lượng bit cần thiết để đại diện cho dữ liệu. Điều này thường được thực hiện bằng cách
Các kỹ thuật thông dụng của việc giảm thiểu dữ liệu
Có nhiều cách để tối ưu dữ liệu phải được lưu trữ mà không cần thu nhỏ kích thước các khối và tập tin. Các kỹ thuật này bao gồm việc cấp phát mảng mỏng (thin provisioning) và lưu trữ dữ liệu (data archiving).
Cấp phát mảng mỏng (thin provisioning)
Cấp phát mảng mỏng được thực hiện bằng cách cấp phát không gian lưu trữ một cách linh hoạt. Phương pháp này giữ lại không gian dành riêng một chút trước khi không gian thực sự được viết, cho phép ứng dụng khác sử dụng nhiều không gian chưa được đặt riêng cho nó hơn. Cấp phát dày truyền thống phân bổ một lượng không gian lưu trữ cố định ngay khi đĩa được tạo ra, bất kể toàn bộ dung lượng đó sẽ được sử dụng hay không.
Lưu trữ dữ liệu (data archiving)
Lưu trữ dữ liệu cũng giảm thiểu dữ liệu trên hệ thống lưu trữ, nhưng phương pháp khác biệt khá nhiều. Thay vì giảm thiểu dữ liệu trong các tập tin hoặc cơ sở dữ liệu, lưu trữ dữ liệu cũ loại bỏ dữ liệu ít được truy cập từ kho lưu trữ đắt tiền và chuyển nó sang kho lưu trữ chi phí thấp và dung lượng cao. Lưu trữ lưu trữ có thể trên đĩa, băng hoặc đám mây.
Các cách giảm thiểu dữ liệu chính
Mặc dù giảm trùng dữ liệu ban đầu được phát triển cho dữ liệu sao lưu trên lưu trữ phụ, nhưng có thể giảm trùng lưu trữ chính. Giảm trùng lưu trữ chính có thể xảy ra như một chức năng của phần cứng lưu trữ hoặc hệ điều hành (OS). Ví dụ, Windows Server 2012 và Windows Server 2012 R2 có khả năng giảm trùng dữ liệu tích hợp sẵn. Bộ giảm trùng sử dụng giảm trùng xử lý sau, nghĩa là giảm trùng không xảy ra trong thời gian thực. Thay vào đó, quá trình được lên lịch định kỳ để tối ưu trùng dữ liệu lưu trữ chính.
Giảm trùng dữ liệu lưu trữ chính là một tính năng phổ biến của nhiều hệ thống lưu trữ flash toàn bộ. Vì lưu trữ flash rất đắt tiền, việc giảm trùng được sử dụng để tận dụng tối đa khả năng lưu trữ flash. Ngoài ra, do lưu trữ flash cung cấp hiệu suất cao đến vậy, chi phí của việc thực hiện giảm trùng ít gây ảnh hưởng hơn so với trên hệ thống đĩa.