Copia de seguridad vs RAID

Mayte Mesa

Las copias de seguridad son una parte crucial de nuestra vida digital. Cada computadora, desde bases de datos gigantes, hasta una sola computadora personal o dispositivo móvil necesita una copia de seguridad. Un lugar donde los datos de usuario más relevantes se pueden almacenar durante mucho tiempo y también almacenarse de tal manera que sea recuperable en el momento de la necesidad. Podemos dibujar una distinción entre los datos en nuestro sistema en ejecución actualmente, llamémoslo datos en tiempo real, y el respaldado datos. Este último se almacena lejos del sistema actual que está utilizando los datos en vivo.

RAID, se refiere a los datos en vivo, es un mecanismo con el que un sistema de ejecución combina múltiples discos en una sola entidad de almacenamiento. Los datos se extienden a través de todos los discos de tal manera que puede sobrevivir al fracaso de al menos uno (o más) de los discos físicos. El tipo más simple de matriz de incursiones es RAID1 o reflejo. Aquí es donde copia (o refleja) los mismos datos en dos o más discos de modo que si uno de los discos fallan, los datos aún pueden sobrevivir y aún se usan activamente. También hay otras configuraciones de RAID, y lo discutiremos a medida que avanzamos.

Sobre la incursión

RAID, o una variedad redundante de discos económicos, es un mecanismo para almacenar datos en los discos. Hay una amplia "matriz" de la configuración de RAID con la que puedes ir, pero los dos mecanismos básicos en los que todos se basan son los siguientes:

1. Mirrización:

La espejo implica que sus bloques de datos se copian, se reflejan, en múltiples discos. Si refleja sus datos en tres discos, puede sobrevivir hasta dos disco en un momento dado, los discos fallidos pueden reemplazarse por otros nuevos sin mucha molestia. Del mismo modo, si copia datos en todo N+1 discos, puedes soportar hasta norte Discos fallando. La desventaja de esto es que solo obtienes la capacidad de almacenamiento igual al disco más pequeño en tu matriz de redadas.

2. Paridad:

Un segundo enfoque es dividir sus datos en dos partes, utilizando los dos bloques de datos del usuario, puede crear un tercer bloque de 'paridad'. Los tres bloques son todos del mismo tamaño y se extienden a través de diferentes dispositivos. Es necesario un mínimo de tres dispositivos para que esta configuración funcione. Si algún de los discos falla, puede recrear los bloques almacenados en ese disco utilizando los otros dos bloques. Por ejemplo, si se pierde el segundo bloque de usuario, el primer bloque y el bloque de paridad se pueden usar para calcular el segundo bloque de usuario. Si está interesado en cómo funciona esto, consulte esta maravillosa explicación.

Este método puede mejorarse más para tener 2 o incluso 3 bloques de paridad. Pero no se ven más de 3 bloques de paridad en la industria que a menudo. Si tiene un bloque de paridad, puede sobrevivir a una falla en el disco. Dos bloque de paridad significa que puede soportar dos discos que fallan y así sucesivamente.

Es más eficiente en términos de utilización de almacenamiento, que la espejo. Si tiene un bloque de paridad, solo necesita 50% más de almacenamiento físico por datos de usuario reales que está almacenando. Esto significa almacenar 1 GB de datos que necesitará 1.5 GB de almacenamiento (además hay una pequeña sobrecarga para los metadatos). Esto es mucho más eficiente que incluso el esquema de reflejo más eficiente donde necesita al menos 2 GB de almacenamiento para reflejar 1 GB de datos entre dos discos.

La desventaja es que las operaciones de escritura aleatorias se ralentizarán, gracias a la operación adicional de cálculo y escritura asociada con el bloque de paridad. Además, la confiabilidad no es tan buena como la de un N+1 discos reflejados donde puede prepararse para cualquier número arbitrario de discos que falla.

Las configuraciones de RAID pueden ser tan complejas o tan simples como quieran, puede combinar la paridad y las estrategias de reflejo y modificarlas al gusto de su empresa. Hay controladores RAID dedicados a los que conectas tus discos físicos, y el sistema operativo luego ve un solo disco lógico como se muestra por el controlador. LSI es uno de esos proveedores de controladores RAID. También puede realizar RAID en el software OpenZFS es probablemente la mejor apuesta que tiene en ese sentido.

Un último tipo de incursión, que recibe una mención de honor es RAID 0. Técnicamente, no es un esquema RAID, porque aquí no hay redundancia aquí. La idea detrás de RAID 0 es simplemente difundir sus datos a través de múltiples dispositivos de almacenamiento sin cualquier Resiliencia contra fallas en disco. La ventaja es que obtienes mejoras de rendimiento haciendo esto. Si está escribiendo 1 GB de datos en un solo disco, el proceso es lento. El disco solo puede hacer un número limitado de operaciones de escritura por segundo y su sistema operativo debe esperar a que finalice esa operación antes de que se envíen nuevos datos. Si extiende el mismo 1 GB de datos en dos de estos discos de estos, puede escribir (y leer) de ambos simultáneamente y obtener bastante mejora del rendimiento.

Respaldo

El concepto de copias de seguridad es discutible más importante que el de Raid. Una copia de seguridad, en el contexto de la administración de almacenamiento, es una buena copia conocida de datos, desde un momento determinado, desde el cual puede restaurar los archivos a su sistema principal cuando sea necesario. En términos de implementación, existen muchas soluciones alojadas en la nube y muchas fuera de línea que se pueden usar.

Tarsnap y Backblaze son mis servicios de respaldo administrados favoritos para casos de uso privado y comercial. También puede incluir Google Drive, iCloud o Dropbox en esta definición de un respaldo solución, pero se dirigen más hacia el mercado de consumo que la empresa. Sin embargo, el principio subyacente sigue siendo el mismo. Cuando inicia sesión en un nuevo iPhone o iPad, todos los datos, sus contactos, fotos, biblioteca de medios, etc., se sincroniza de su cuenta iCloud sin problemas y, mientras sigue usando su dispositivo, los datos más nuevos se retroceden en silencio en la nube y usted no 'no' tengo que preocuparme por eso.

Su solución de copia de seguridad puede ser tan simple como copiar datos en un disco duro externo o usar RSYNC (o enviar ZFS, si está utilizando OpenZFS) para generar periódicamente una copia de toda la información relevante. Esto podría incluir su carpeta de documentos, su base de datos, su repositorio de origen o incluso todo su sistema de archivos raíz, salpique en una cremallera plana o un tarball. Los criterios importantes que debe cumplir una buena solución de respaldo son los siguientes:

Las copias de seguridad deben ocurrir a menudo: si respalda datos todos los meses, en lugar de cada semana, corre el riesgo de perder hasta un mes de datos cuando ocurre un desastre.
Sus copias de seguridad deben retroceder en el tiempo: el almacenamiento de copia de seguridad es finito. A veces tienes que tirar copias de seguridad más antiguas. Cuanto más almacenamiento tenga, mejor pueden ser sus copias de seguridad. Supongamos que hace una copia de seguridad de sus datos semanalmente, pero tira copias de seguridad de más de 2 semanas. Si un archivo se elimina accidentalmente, y esto pasa desapercibido durante dos semanas, no tendrá una forma de traerlo de vuelta.
Sus archivos deberían ser restaurables: si nunca ha intentado recuperar sus datos de la copia de seguridad, no tiene una copia de seguridad. No debería tener que aprender a recuperar los datos, en el momento crítico en el que sufrió una pérdida de datos. Planifique con anticipación y sepa cómo restaurar el sistema desde la última copia de seguridad conocida.
Su copia de seguridad debe segregarse desde el sistema en ejecución: cuando ocurre un desastre, y todos sus archivos en el servidor de producción se cifran, eliminan o corrompen, debe asegurarse de que lo mismo no le ocurra a su copia de seguridad. Una buena forma de garantizar esto es asegurarse de que su dispositivo de respaldo no esté "conectado" a su entorno de producción, yo.E, desenchufe su disco duro USB, desmonte su sistema de archivos NFS cuando haya terminado de hacer una copia de seguridad de él. Al menos, no le dé al sistema de producción el privilegio de sobrescribir o modificar sus datos de copia de seguridad. Hazlo de solo solo lectura.

Ahora que sabemos un poco sobre Raid y Sobreup, destacemos algunas diferencias entre ellos.

Archivos y bloques

RAID siempre se preocupa por bloques de datos, no cómo el sistema de archivos presenta esos datos al usuario. Tanto el software como la redada de hardware se ocupan de los datos como bloques de información, el tamaño de los bloques puede variar de 128 KIB a 1 MIB.

Las copias de seguridad, por otro lado, son mucho más flexibles. Por lo general, se realizan en el nivel del sistema de archivos, aunque no hay una regla dura y rápida para que este sea el caso. También son más granulares. Puede restaurar un solo archivo desde su copia de seguridad, si su solución es lo suficientemente flexible. Las matrices RAID no son copias de seguridad, son solo una forma de difundir los datos en múltiples discos. Si se elimina un archivo, se liberan todos sus bloques reflejados y bloques de paridad. Fin de la historia.

Casos de uso

Las copias de seguridad son para todos. El enfoque y el alcance pueden variar desde el caso de uso personal hasta la empresa, pero todos con una vida digital necesitan respaldo. RAID es más una característica específica de negocios/empresas. Verá matrices de redadas en servidores, dispositivos de almacenamiento como NAS y SANS, hipervisores en la nube, etc. Casi cualquier lugar que almacene Live Critical Data usa alguna forma de RAID. Incluso los servidores que ejecutan sus copias de seguridad alojadas en la nube probablemente usen matrices RAID. Estas no son tecnologías mutuamente excluyentes.

Esto no significa que no pueda usar RAID para su caso de uso personal, solo tiene más utilidad en las empresas. Parte de la razón detrás de esto es que en la empresa, los discos se golpean con operaciones IO 24/7. En el entorno de producción, al igual que el almacenamiento de una base de datos o un servicio de transmisión de video o un hipervisor en la nube, el dispositivo de almacenamiento de su servidor estará bajo una carga constante, los datos se leen constantemente y se escriben a estos dispositivos y, a menudo, por varias aplicaciones simultáneamente. En estas condiciones, es mucho más probable que falle. Tener una configuración de RAID significa que si una unidad falla sufre poco o ningún tiempo de inactividad. La mayoría de los servidores pueden continuar funcionando incluso después de una falla en el disco para que no pierda nueva información y solicitudes en cada segundo.

Una computadora de escritorio promedio apenas puede recrear la misma condición estresante, incluso si el disco muere, si está utilizando una solución de respaldo como Backblaze, puede recuperar la mayoría de sus datos perdidos y perder unas horas de trabajo es probablemente lo peor que puede pasar. Incluso esto se está convirtiendo en una rareza gracias a las soluciones alojadas en la nube como Adobe Creative Cloud, Office 365, etc.

Raid no es un sustituto de la copia de seguridad

Si hay una sola toma que desea de este artículo, debería ser este. Raid no es un sustituto de la copia de seguridad. Siempre respalde sus datos! Hay muchas personas que piensan que si tiene una redada, significa que los datos son seguros en múltiples discos y, por lo tanto, no hay necesidad de respaldarlo. Nada está más lejos de la verdad. RAID está destinado a lidiar con un solo problema específico: los discos que fallan o devuelven datos erróneos. Tener una redada no te protegerá de un millón de otras amenazas como las siguientes:

Errores de usuario y deleciones accidentales
Errores de aplicación u sistema operativo que causan corrupción de datos generalizadas
Ransomware u otro malware que encripta, elimina o corrompe sus datos
Falla de los controladores RAID mismos

Los datos en su matriz RAID están en vivo. Si el sistema operativo, una aplicación (o un usuario) se pone de lado y elimina algunos archivos aquí y allá, entonces el archivo se eliminará en toda su matriz RAID. Tener una copia separada de sus datos, una copia de seguridad, es la única forma en que puede protegerse contra este tipo de escenario.

Conclusión

Si está preocupado por sus datos, su primera preocupación debe ser la solución de respaldo. La mayoría de los usuarios de escritorio, excepto tal vez los usuarios avanzados, deberían invertir más en una copia de seguridad confiable en lugar de jugar con RAID1, RAID5 o RAIDZ. Si desea construir su propio servidor de copia de seguridad, debe pensar en una política de copia de seguridad decente y un backend de almacenamiento confiable. Este artículo tal vez sea un buen lugar para comenzar. Puede usar RSYNC o ZFS Enviar para tomar una copia de época de sus datos a este backend.

Si está en la empresa y está considerando una solución de redacción para almacenar todos sus datos en vivo. Considere usar OpenZFS, ofrece una solución muy flexible, desde la reflejo de disco N hasta RAIDZ1 con un bloque de paridad a RAIDZ2 y RAIDZ3 con 2 y 3 bloques de paridad. Debe considerar mucho sobre los requisitos de su aplicación antes de tomar una decisión. Hay compensaciones entre sus actuaciones de lectura-escritura, resiliencia y eficiencia de almacenamiento. Sin embargo, recomendaría que solo piense en RAID después de que haya decidido una solución de respaldo.

Riñonal

Cómo crear un marco de datos vacío R

Tutorial sobre los diversos enfoques para crear un marco de datos vacío utilizando los datos.Función...

Salvador Anaya

Sqlite

Cómo usar la aplicación web SQLite Viewer

La aplicación web SQLite Viewer proporciona excelentes características para ver las bases de datos S...

Andrés Barrientos

Comandos de Linux

Cómo instalar la versión de CUDA en Linux

Tutorial integral sobre cómo descubrir las versiones de CUDA que son compatibles con los controlador...

José Luis Villagómez