Các kỹ thuật giảm dữ liệu trên ổ đĩa rắn (SSD) đã khó để đạt được, nhưng các nhà cung cấp hiện tại đang có tiến bộ. Khi các kỹ thuật giảm dữ liệu hiệu quả hơn, thì chi phí cho ổ đĩa rắn sẽ trở nên phù hợp hơn.
Trong khi việc giảm dữ liệu trên lưu trữ trước đây tập trung vào việc sao lưu dữ liệu, các nhà cung cấp hiện nay thông thường bao gồm các công nghệ này trong hệ thống dựa trên flash.
Hiệu suất vượt trội mà ổ đĩa rắn (SSD) mang lại so với ổ đĩa cứng (HDD) đã làm cho việc sử dụng các kỹ thuật giảm dữ liệu trên các hệ thống lưu trữ chính có thể hỗ trợ cho các ứng dụng quan trọng. Các nhà cung cấp cũng đã cải tiến các kỹ thuật giảm dữ liệu của họ để đạt hiệu quả tốt hơn và giúp giảm thiểu ảnh hưởng đến hiệu suất.
Mặc dù có những lợi thế này, các công nghệ giảm dữ liệu trên SSD có thể khác nhau đáng kể từ sản phẩm này sang sản phẩm khác, cả về hiệu quả và sự suy giảm hiệu suất kết quả. Trước khi chọn sản phẩm lưu trữ, người ra quyết định nên hiểu đầy đủ về khả năng giảm dữ liệu của hệ thống, tác động tiềm năng đến hiệu suất ứng dụng và tiết kiệm được bao nhiêu chi phí lưu trữ cho tổ chức.
Những khái niệm cơ bản của data reduction: Quá khứ và hiện tại
Data reduction là một thuật ngữ rộng và có thể bao gồm nhiều tính năng khác nhau, nhưng thường tập trung vào hai công nghệ chính: nén và deduplication. Nén loại bỏ dữ liệu trùng lặp ở cấp bit, và deduplication loại bỏ dữ liệu ở cấp block.
Trong nhiều năm, data reduction thường được áp dụng cho lưu trữ phụ hỗ trợ sao lưu và lưu trữ lâu dài, nơi tập trung vào việc sử dụng tài nguyên hiệu quả hơn là hiệu suất ứng dụng.
Các nhóm IT đã e ngại áp dụng cả hai kỹ thuật nén và deduplication cho hệ thống lưu trữ chính của họ do tác động tiềm năng đến hiệu suất ứng dụng. Đối với nhiều tổ chức, điều này vẫn đúng ngay cả khi họ chuyển sang sử dụng các mảng all-flash cho lưu trữ chính của mình.
Các vấn đề với việc giảm dữ liệu trên SSD
Các hoạt động giảm dữ liệu có thể tiêu thụ tài nguyên bộ nhớ và CPU, tăng overhead I/O, tăng độ trễ và giảm hiệu suất tổng thể. Ngay cả khi tổ chức muốn áp dụng giảm dữ liệu, họ có thể đang chạy các khối lượng công việc mà không thể được hưởng lợi từ các công nghệ này, và bất kỳ nỗ lực sử dụng chúng đều dẫn đến overhead không cần thiết. Ví dụ, dữ liệu của họ có thể có tỷ lệ trùng lặp thấp, vì vậy có ít thứ có thể được đạt được từ việc cố gắng giảm trùng lặp dữ liệu.
Một số hệ thống lưu trữ đã áp dụng phương pháp toàn hoặc không gì cả vào việc giảm dữ liệu, nhưng cách tiếp cận này có thể gây thiệt hại nghiêm trọng hơn là có lợi. Cách tiếp cận này gây thách thức cho các tổ chức phải tuân thủ các quy định về dữ liệu khu vực, yêu cầu lưu trữ dữ liệu dưới định dạng gốc.
Các nhóm IT có thể chưa đánh giá đầy đủ giới hạn của sản phẩm của mình cho đến khi chạy các khối lượng công việc sản xuất. Ví dụ, họ có thể phát hiện muộn rằng hệ thống lưu trữ của họ không hỗ trợ nén không mất mát, không đáp ứng được yêu cầu mở rộng đang phát triển hoặc không thể áp dụng giảm dữ liệu toàn cục trên toàn bộ mảng.
Tiến bộ trong việc giảm dữ liệu trên ổ đĩa SSD và cách nó hỗ trợ các doanh nghiệp.
Khi các mảng đĩa flash tràn ngập trung tâm dữ liệu, kỹ thuật giảm dữ liệu đã làm những tiến bộ đáng kể trong môi trường lưu trữ, trong đó chi phí mỗi gigabyte vẫn là yếu tố chính, đứng thứ hai sau hiệu suất. Tuy nhiên, tiến bộ trong ổ đĩa SSD đã dẫn đến một thế hệ thiết bị mới có thể cung cấp IOPS và độ trễ microsecond tuyệt vời, cũng như hiệu suất có thể dễ dàng chịu đựng được chi phí giảm dữ liệu.
Về PCLe
Không chỉ các thiết bị lưu trữ được cải tiến, ổ đĩa SSD tuân theo PCIe 4.0 hiện đã phổ biến, cung cấp tốc độ truyền dữ liệu nhanh hơn so với chỉ vài năm trước. Ngoài ra, ổ đĩa PCIe 5.0 đã xuất hiện trên thị trường và phiên bản PCIe 6.0 đã được phát hành vào năm 2022. Mỗi thế hệ PCIe mới đều gấp đôi tốc độ dữ liệu từ thế hệ trước đó.
NVMe và NVMe-oF đã giúp cung cấp các hệ thống lưu trữ có hiệu suất cao. Tổ chức NVM Express đã mới đây công bố Revision 2.0c của Đặc tả Cơ bản, cung cấp một giao diện hiệu quả hơn để đạt được độ trễ thấp hơn và lưu lượng thông qua lớn hơn. Cùng với PCIe, NVMe giúp tối đa hóa tiềm năng toàn diện của hiệu suất SSD, dẫn đến các hệ thống lưu trữ có thể chịu đựng tốt hơn chi phí giảm dữ liệu.
Công nghệ giảm dữ liệu đã tiến hóa và giảm thiểu tác động đến hiệu suất và cung cấp giảm dữ liệu hiệu quả hơn. Các mảng flash toàn bộ thông thường hỗ trợ nén không mất mát, giảm dữ liệu ngay tại chỗ và giảm dữ liệu toàn cục trên toàn bộ mảng hoặc không gian tên. Các nhà cung cấp đã làm cho giảm dữ liệu trở nên thích nghi hơn và cải tiến thuật toán để cung cấp giảm dữ liệu thông minh hơn và hiệu suất tốt hơn.
Biểu đồ so sánh nén không mất mát và nén có mất mát

Các khả năng giảm dữ liệu trong các mảng flash toàn bộ có thể tăng hiệu quả dung lượng của hệ thống lưu trữ, tiết kiệm năng lượng và giảm diện tích lưu trữ. Giảm dữ liệu giảm số chu kỳ chương trình-xóa, kéo dài tuổi thọ của ổ đĩa và giảm tải truyền dữ liệu. Các yếu tố này cùng giúp giảm chi phí tổng thể lưu trữ và làm cho SSD trở nên phù hợp với nhiều tải công việc hơn.
Mặc dù các hoạt động giảm dữ liệu SSD vẫn có thể ảnh hưởng đến hiệu suất, tác động của chúng thường là rất nhỏ so với lợi ích hiệu suất được cung cấp bởi ổ đĩa doanh nghiệp. Đối với nhiều tải công việc, việc tiết kiệm dung lượng có thể đáng giá bất kỳ sự đánh đổi hiệu suất nào.
Các ví dụ về nhà cung cấp ổ đĩa SSD và sản phẩm hỗ trợ giảm dữ liệu
Giảm dữ liệu SSD là một tính năng phổ biến trong nhiều sản phẩm doanh nghiệp, nhưng các nhà cung cấp có các phương pháp khác nhau.
Flash Dell Unity
Hệ thống lưu trữ toàn flash Dell Unity cung cấp khả năng giảm dữ liệu tiên tiến bao gồm cả nén và deduplication. Khi dữ liệu nhập vào hệ thống, Unity phân đoạn nó thành các khối 8 KB và sau đó chuyển nó đến thuật toán deduplication, phân tích các khối cho các mẫu đã biết. Nếu Unity tìm thấy các mẫu, nó sẽ giảm khối và ghi chúng vào đĩa. Nếu nó không tìm thấy mẫu, Unity sẽ chuyển dữ liệu đến thuật toán deduplication tiên tiến, đánh dấu vân tay cho mỗi khối để xác định nhanh dữ liệu trùng lặp. Sau đó Unity chuyển dữ liệu đến thuật toán nén, chỉ áp dụng nén nơi có thể tiết kiệm được. Quá trình giảm dữ liệu của Unity xảy ra ngay lập tức giữa bộ nhớ đệm hệ thống và các thiết bị lưu trữ.
Hệ thống HPE 3PAR
Các hệ thống HPE 3PAR có khả năng giảm dữ liệu thích ứng cung cấp deduplication và nén ngay lập tức. 3PAR cũng bao gồm phân chia mỏng, chuyển đổi mỏng, tính mỏng và thu hồi sao chép mỏng trong ô dù giảm dữ liệu của mình. HPE đã thiết kế thuật toán nén mất mát đặc biệt để hoạt động trên kích thước khối flash-native. Nó lưu trữ các ghi lại trong bộ nhớ đệm trước khi xác nhận chúng cho máy chủ và thực hiện nén sau khi xác nhận. Các hệ thống 3PAR quét dữ liệu để xác định các luồng không thể hiểu. Nếu phát hiện, HPE lưu trữ chúng ở định dạng gốc của chúng thay vì lãng phí chu kỳ CPU trong việc nén chúng.
Pure Storage FlashArray
Pure Storage FlashArray tích hợp nhiều công nghệ giảm dữ liệu để tiết kiệm không gian lưu trữ trong các mảng all-flash của mình. Hệ thống xác định và loại bỏ các mẫu nhị phân lặp lại và cung cấp giảm trùng lặp ngay lập tức hỗ trợ một phạm vi kích thước khối biến đổi từ 4 KB đến 32 KB. Nó đảm bảo chỉ các khối dữ liệu duy nhất được lưu trữ. Sản phẩm áp dụng giảm trùng lặp trên toàn bộ mảng lưu trữ chứ không chỉ trên một ổ đĩa duy nhất. FlashArray cung cấp nén ngay lập tức sử dụng địa chỉ biến đổi và một bố cục ghi chỉ ghi thêm để loại bỏ không gian bị lãng phí. Nó chạy một thuật toán nén hậu xử lý để ép xung thêm không gian.
Vast Data
Hệ thống lưu trữ Vast Data sử dụng một kỹ thuật chia nhỏ thông minh để chia dữ liệu thành các khối có kích thước dao động từ 16 KB đến 64 KB. Việc giảm dữ liệu xảy ra trong một lĩnh vực duy nhất trên toàn bộ không gian tên được tạo bởi cụm, với siêu dữ liệu giảm được giữ lại trong bộ đệm ghi bộ nhớ lớp lưu trữ. Thao tác giảm trùng lặp đầu tiên xác định các khối dữ liệu giống nhau và sau đó chạy một tập hàm băm để tìm kiếm sự tương đồng. Nếu tìm thấy, Vast nén chúng lại với nhau bằng cùng một bộ từ điển nén.
Vast cung cấp nén dữ liệu thông minh được áp dụng tự động và thời gian thực. Hệ thống của nó cũng sử dụng mã hóa delta để giảm số byte được lưu trữ một cách hiệu quả hơn.