Raid (mảng dư thừa của các đĩa độc lập), ban đầu được gọi là mảng dự phòng của các đĩa rẻ tiền, lần đầu tiên được đề xuất bởi Giáo sư Da Patterson của Đại học California, Berkeley trong bài báo "Một trường hợp của các đĩa không tốn kém" vào năm 1988. Thời gian, các đĩa dung lượng lớn rất tốn kém, vì vậy ý tưởng cơ bản của RAID là kết hợp hữu cơ nhiều đĩa công suất nhỏ và tương đối rẻ tiền để có được năng lực, hiệu suất và độ tin cậy tương đương với các đĩa công suất lớn đắt tiền với chi phí thấp hơn. Khi chi phí và giá của các đĩa tiếp tục giảm, thuật ngữ "không tốn kém" trở nên vô nghĩa và Hội đồng tư vấn RAID (RAB) đã quyết định thay thế "không tốn kém" bằng "độc lập".
Ý tưởng thiết kế này của RAID đã nhanh chóng được công nghiệp áp dụng. Công nghệ RAID, như một công nghệ lưu trữ hiệu suất cao và đáng tin cậy cao, đã được áp dụng rộng rãi. RAID chủ yếu sử dụng các công nghệ phân loại dữ liệu, phản chiếu và chẵn lẻ dữ liệu để đạt được RAID cung cấp một số lợi thế đáng chú ý. Thứ nhất, nó cung cấp năng lực lớn. Bao gồm nhiều đĩa, các hệ thống RAID có thể đạt được lưu trữ cấp PB vì các đĩa đơn bây giờ vượt quá 1TB, mặc dù công suất có sẵn nhỏ hơn tổng số do chi phí dự phòng, thường dao động từ 50% - 90%. Thứ hai, hiệu suất cao đạt được thông qua dải dữ liệu, phân phối I/O trên các đĩa, khắc phục nút cổ chai của hiệu suất đơn. Thứ ba, độ tin cậy được tăng cường. Trái với mối quan tâm lý thuyết của sự không đáng tin cậy đa đĩa, RAID sử dụng tính tương đương phản chiếu và dữ liệu để đảm bảo tính khả dụng của dữ liệu ngay cả khi nhiều đĩa bị hỏng. Cuối cùng, khả năng quản lý được đơn giản hóa. Là một công nghệ ảo hóa, RAID xuất hiện dưới dạng một ổ đĩa logic cho các hệ thống máy chủ, cho phép tổ chức dữ liệu dễ dàng cho người dùng và giảm các tác vụ quản trị với các tính năng như thay đổi đĩa động và quy trình dữ liệu tự động. Hiệu suất cao, độ tin cậy, khả năng chịu lỗi và khả năng mở rộng. Theo các chiến lược và kiến trúc của việc sử dụng hoặc kết hợp ba công nghệ này, RAID có thể được chia thành các cấp độ khác nhau để đáp ứng nhu cầu của các ứng dụng dữ liệu khác nhau. Các mức RAID ban đầu RAID1-RAID5 đã được Da Patterson và cộng sự xác định trong bài báo, và RAID0 và RAID6 đã được mở rộng từ năm 1988. Trong những năm gần đây, các nhà cung cấp lưu trữ đã liên tục giới thiệu các mức RAID như RAID7, RAID10/01, RAID50, RAID53 và RAID100, nhưng không có tiêu chuẩn thống nhất. Hiện tại, các tiêu chuẩn được công nhận trong ngành là RAID0-RAID5 và bốn cấp độ ngoại trừ RAID2 đã được đặt làm tiêu chuẩn công nghiệp. Các mức RAID được sử dụng phổ biến nhất trong trường ứng dụng thực tế là RAID0, RAID1, RAID3, RAID5, RAID6 và RAID10.
Từ góc độ triển khai, RAID chủ yếu được chia thành ba loại: RAID phần mềm, RAID phần cứng và RAID lai. Đối với RAID phần mềm, tất cả các chức năng được hoàn thành bởi hệ điều hành và CPU và không có chip điều khiển/xử lý RAID độc lập và chip xử lý I/O, vì vậy hiệu quả là thấp nhất. RAID phần cứng được trang bị chip điều khiển/xử lý RAID đặc biệt và chip xử lý I/O cũng như bộ đệm mảng và không chiếm tài nguyên CPU, nhưng chi phí rất cao. Hybrid Raid có chip điều khiển/xử lý RAID nhưng thiếu chip xử lý I/O và cần các chương trình CPU và trình điều khiển để hoàn thành, và hiệu suất và chi phí của nó là giữa RAID phần mềm và RAID phần cứng.
Mỗi cấp độ RAID đại diện cho một phương pháp và công nghệ thực hiện, và không có sự phân biệt giữa cấp độ cao và thấp. Trong các ứng dụng thực tế, mức độ RAID thích hợp và phương pháp triển khai cụ thể nên được chọn theo các đặc điểm của các ứng dụng dữ liệu người dùng và tính khả dụng, hiệu suất và chi phí cần được xem xét toàn diện.
Nguyên tắc cơ bản
Raid, cụ thể là mảng các đĩa độc lập, thường được viết tắt là mảng đĩa. Tóm lại, RAID là một hệ thống con đĩa bao gồm nhiều ổ đĩa hiệu suất cao độc lập, cung cấp hiệu suất lưu trữ cao hơn và công nghệ dự phòng dữ liệu so với một đĩa duy nhất. RAID là một công nghệ quản lý nhiều đĩa, cung cấp độ tin cậy dữ liệu cao, hiệu quả chi phí và lưu trữ hiệu suất cao cho môi trường máy chủ. Định nghĩa về RAID của SNIA là: Một mảng đĩa trong đó một phần của không gian lưu trữ vật lý được sử dụng để ghi lại thông tin dự phòng của dữ liệu người dùng được lưu trữ trong không gian còn lại. Khi một đĩa hoặc đường dẫn truy cập không thành công, thông tin dự phòng có thể được sử dụng để tái cấu trúc dữ liệu người dùng. Mặc dù sọc đĩa không phù hợp với định nghĩa của RAID, nhưng nó thường được gọi là RAID (nghĩa là RAID0).
Ý định ban đầu của RAID là cung cấp các chức năng lưu trữ cao cấp và bảo mật dữ liệu dự phòng cho các máy chủ lớn. Trong toàn bộ hệ thống, RAID được coi là không gian lưu trữ bao gồm hai hoặc nhiều đĩa và hiệu suất I/O của hệ thống lưu trữ được cải thiện bằng cách đọc và ghi dữ liệu trên nhiều đĩa đồng thời. Hầu hết các mức RAID đều có các biện pháp xác minh và hiệu chỉnh dữ liệu hoàn chỉnh, và thậm chí các phương pháp phản ánh, giúp tăng cường đáng kể độ tin cậy của hệ thống và đó là nơi "dự phòng" đến từ.
Ở đây chúng ta cần đề cập đến JBOD (chỉ là một loạt các đĩa). Ban đầu, JBOD đã được sử dụng để đại diện cho một bộ sưu tập đĩa mà không có phần mềm điều khiển để cung cấp kiểm soát phối hợp, đây là yếu tố chính phân biệt RAID với JBOD. Hiện tại, JBOD thường đề cập đến vỏ đĩa, bất kể nó có cung cấp chức năng RAID hay không.
Hai mục tiêu chính của RAID là cải thiện độ tin cậy của dữ liệu và hiệu suất I/O. Trong mảng đĩa, dữ liệu nằm rải rác giữa nhiều đĩa, nhưng đối với hệ thống máy tính, nó trông giống như một đĩa duy nhất. Sự dư thừa đạt được bằng cách viết cùng một dữ liệu thành nhiều đĩa (thường phản ánh) hoặc ghi dữ liệu chẵn lẻ được tính toán vào mảng, do đó việc mất dữ liệu sẽ không được gây ra khi một đĩa đơn bị lỗi. Một số cấp độ RAID cho phép nhiều đĩa bị hỏng cùng một lúc, chẳng hạn như RAID6, trong đó hai đĩa có thể bị hỏng cùng một lúc.
Theo cơ chế dự phòng như vậy, đĩa bị hỏng có thể được thay thế bằng đĩa mới và RAID sẽ tự động tái cấu trúc dữ liệu bị mất theo dữ liệu và dữ liệu chẵn lẻ trong các đĩa còn lại để đảm bảo tính nhất quán và tính toàn vẹn của dữ liệu. Dữ liệu được phân tán và lưu trữ trên nhiều đĩa khác nhau trong RAID và việc đọc và ghi dữ liệu đồng thời tốt hơn nhiều so với một đĩa duy nhất, do đó có thể thu được băng thông I/O tổng hợp cao hơn. Tất nhiên, mảng đĩa sẽ giảm tổng dung lượng lưu trữ có sẵn của tất cả các đĩa, hy sinh không gian để đổi lấy độ tin cậy và hiệu suất cao hơn. Ví dụ, việc sử dụng không gian lưu trữ của RAID1 chỉ là 50%và RAID5 sẽ mất dung lượng lưu trữ của một đĩa và việc sử dụng không gian là (N-1)/n.
Mảng đĩa có thể đảm bảo hoạt động liên tục của hệ thống mà không bị gián đoạn khi một số đĩa (đơn hoặc nhiều, tùy thuộc vào việc thực hiện) bị hỏng. Trong quá trình xây dựng lại dữ liệu của đĩa bị hỏng đối với đĩa mới, hệ thống có thể tiếp tục hoạt động bình thường, nhưng hiệu suất sẽ được giảm xuống một mức độ nhất định. Một số mảng đĩa phải được tắt khi thêm hoặc xóa các đĩa, trong khi một số hỗ trợ hoán đổi nóng, cho phép thay thế các ổ đĩa mà không cần tắt. Mảng đĩa cao cấp này chủ yếu được sử dụng trong các hệ thống ứng dụng có yêu cầu cao về độ tin cậy và hệ thống không thể tắt hoặc thời gian tắt phải càng ngắn càng tốt.
Nói chung, RAID không thể thay thế sao lưu dữ liệu. Nó bất lực cho việc mất dữ liệu do các lỗi không dành cho đĩa, chẳng hạn như virus, sự phá hủy của con người, xóa tình cờ, v.v. Vào thời điểm này, việc mất dữ liệu liên quan đến hệ điều hành, hệ thống tệp, trình quản lý âm lượng hoặc hệ thống ứng dụng. Đối với chính hệ thống RAID, dữ liệu còn nguyên vẹn và không có tổn thất nào xảy ra. Do đó, sao lưu dữ liệu, khắc phục thảm họa và các biện pháp bảo vệ dữ liệu khác là rất cần thiết, bổ sung cho RAID và bảo vệ bảo mật của dữ liệu ở các cấp độ khác nhau để ngăn ngừa mất dữ liệu.
Có ba khái niệm và công nghệ chính trong RAID: phản chiếu, dải dữ liệu và chẵn lẻ dữ liệu. Phản chiếu dữ liệu sao chép vào nhiều đĩa. Một mặt, nó có thể cải thiện độ tin cậy và mặt khác, nó có thể đọc dữ liệu từ hai hoặc nhiều bản sao đồng thời để cải thiện hiệu suất đọc. Rõ ràng, hiệu suất ghi của phản chiếu thấp hơn một chút và phải mất nhiều thời gian hơn để đảm bảo rằng dữ liệu được ghi chính xác vào nhiều đĩa. Dữ liệu dải lưu trữ các lát dữ liệu trên nhiều đĩa khác nhau và nhiều lát dữ liệu cùng nhau tạo thành một bản sao dữ liệu hoàn chỉnh, khác với nhiều bản sao phản chiếu và thường được sử dụng để xem xét hiệu suất. Sọc dữ liệu có độ chi tiết đồng thời cao hơn.
Khi truy cập dữ liệu, có thể đọc và ghi dữ liệu trên các đĩa khác nhau cùng một lúc, do đó có được sự cải thiện hiệu suất I/O rất có ý nghĩa. Dữ liệu Parity sử dụng dữ liệu dự phòng để phát hiện và sửa chữa lỗi dữ liệu. Dữ liệu dự phòng thường được tính toán bởi các thuật toán như mã Hamming và hoạt động XOR. Sử dụng chức năng chẵn lẻ có thể cải thiện đáng kể độ tin cậy, độ mạnh và khả năng chịu lỗi của mảng đĩa. Tuy nhiên, tính chẵn lẻ dữ liệu cần đọc dữ liệu từ nhiều nơi và thực hiện các tính toán và so sánh, điều này sẽ ảnh hưởng đến hiệu suất hệ thống. Các cấp độ khác nhau của RAID áp dụng một hoặc nhiều trong ba công nghệ ở trên để có được độ tin cậy, tính khả dụng và hiệu suất I/O khác nhau. Đối với loại RAID nào (thậm chí các cấp độ hoặc loại mới) để thiết kế hoặc chế độ RAID cần áp dụng, cần phải đưa ra lựa chọn hợp lý theo tiền đề của việc hiểu sâu sắc các yêu cầu của hệ thống và đánh giá toàn diện độ tin cậy, hiệu suất và chi phí đưa ra một lựa chọn thỏa hiệp.
Ưu điểm của cuộc đột kích
- Năng lực lớn: Đây là một lợi thế rõ ràng của RAID. Nó mở rộng dung lượng đĩa và hệ thống RAID bao gồm nhiều đĩa có không gian lưu trữ rất lớn. Bây giờ dung lượng của một đĩa đơn có thể đạt hơn 1TB, do đó, khả năng lưu trữ của RAID có thể đạt đến mức PB và hầu hết các yêu cầu lưu trữ có thể được đáp ứng. Nói chung, khả năng RAID có sẵn ít hơn tổng công suất của tất cả các đĩa thành viên. Các mức độ khác nhau của các thuật toán RAID đòi hỏi một chi phí dự phòng nhất định và chi phí năng lực cụ thể có liên quan đến thuật toán được thông qua. Nếu thuật toán RAID và công suất được biết, khả năng RAID có thể được tính toán. Thông thường, việc sử dụng công suất của RAID là từ 50% đến 90%.
- Hiệu suất cao: Hiệu suất cao của RAID được hưởng lợi từ công nghệ sọc dữ liệu. Hiệu suất I/O của một đĩa duy nhất bị giới hạn bởi các công nghệ máy tính như giao diện và băng thông, và thường là nút cổ chai của hiệu suất hệ thống. Thông qua dải dữ liệu, RAID phân phối I/O dữ liệu cho mỗi đĩa thành viên, do đó có được hiệu suất I/O tổng hợp cao hơn nhiều lần so với một đĩa duy nhất.
- Độ tin cậy: Tính khả dụng và độ tin cậy là một tính năng quan trọng khác của RAID. Về mặt lý thuyết, độ tin cậy của một hệ thống RAID bao gồm nhiều đĩa sẽ tồi tệ hơn so với một đĩa duy nhất. Có một giả định ngầm ở đây: một lỗi đĩa duy nhất sẽ khiến toàn bộ cuộc đột kích không có sẵn. RAID sử dụng các công nghệ dự phòng dữ liệu như phản chiếu và chẵn lẻ dữ liệu để phá vỡ giả định này. Phản chiếu là công nghệ dự phòng nguyên thủy nhất, hoàn toàn sao chép dữ liệu trên một nhóm ổ đĩa nhất định đến một nhóm ổ đĩa khác để đảm bảo rằng luôn có một bản sao dữ liệu có sẵn. So với chi phí dự phòng 50% của phản chiếu, tính chẵn lẻ của dữ liệu nhỏ hơn nhiều và nó sử dụng thông tin dự phòng chẵn lẻ để xác minh và sửa dữ liệu. Công nghệ dự phòng của RAID cải thiện đáng kể tính khả dụng và độ tin cậy của dữ liệu và đảm bảo rằng khi một số đĩa bị hỏng, dữ liệu sẽ không bị mất và hoạt động liên tục của hệ thống sẽ không bị ảnh hưởng.
- Khả năng quản lý: Trên thực tế, RAID là một công nghệ ảo hóa ảo hóa nhiều ổ đĩa vật lý thành một ổ đĩa logic dung lượng lớn. Đối với hệ thống máy chủ bên ngoài, RAID là một ổ đĩa dung lượng lớn, nhanh và đáng tin cậy. Theo cách này, người dùng có thể tổ chức và lưu trữ dữ liệu hệ thống ứng dụng trên ổ đĩa ảo này. Từ góc độ ứng dụng người dùng, nó có thể làm cho hệ thống lưu trữ đơn giản và dễ sử dụng và quản lý. Vì RAID đã hoàn thành một lượng lớn công việc quản lý lưu trữ trong nội bộ, quản trị viên chỉ cần quản lý một ổ đĩa ảo duy nhất, có thể tiết kiệm rất nhiều công việc quản lý. RAID có thể tự động thêm hoặc xóa các ổ đĩa và tự động thực hiện xác minh dữ liệu và tái cấu trúc dữ liệu, điều này có thể đơn giản hóa rất nhiều công việc quản lý.
Tóm lại, RAID nổi bật với công suất lớn, hiệu suất cao, độ tin cậy nâng cao và khả năng quản lý đơn giản hóa. Những lợi thế này làm cho nó trở thành một giải pháp lưu trữ không thể thiếu trên một loạt các ứng dụng, phục vụ cho nhu cầu dữ liệu ngày càng tăng của môi trường điện toán hiện đại trong khi đảm bảo hoạt động liền mạch và tính toàn vẹn dữ liệu.