Cómo elegir la solución de enmascaramiento de datos más adecuada para usted
Obten información sobre el enmascaramiento de datos y qué tener en cuenta al comprar una solución.
Introducción
En el mundo actual, impulsado por los datos, la privacidad y la seguridad son más cruciales que nunca. Las soluciones de enmascaramiento de datos ayudan a proteger la información personal, financiera y crítica para la empresa. Seleccionar la solución adecuada es esencial para el éxito de un proyecto de enmascaramiento y la protección eficaz de su información confidencial.
Terminología Errónea
Muchos proveedores utilizan términos como anonimización, seudonimización, tokenización, hashing, cifrado, reducción y otros. El problema es que cada uno tiene una definición diferente de lo que significan.
Estos términos suenan bien porque están relacionados con la privacidad o la seguridad y parecen características deseables. Sin embargo, no son descriptivos en términos de funcionalidad y pueden significar cualquier cosa. A menudo se utilizan como palabras de moda para atraer a posibles compradores.
Cuando alguien te venda una función como Anonimización, deberías preguntar para obtener detalles sobre lo que hace.

El Problema
¿Por qué necesitamos el enmascaramiento de datos? El problema subyacente es que muchas organizaciones copian datos fuera del entorno de producción seguro, y es difícil, si no imposible, proteger los datos una vez que están fuera de producción. Hay muchas razones posibles para copiar datos fuera, pero la más común es para probar y desarrollar aplicaciones. Otras razones son el análisis, la formación, el suministro a terceros, etc.
Los datos de producción son valiosos y útiles para muchos propósitos. Sin embargo, fuera de producción, los datos residen en sistemas inseguros, a los que pueden acceder personas no autorizadas, y crean una exposición innecesaria con un mayor riesgo para la seguridad.

La Solución y Objetivos
La solución consiste en eliminar los datos sensibles de las copias de no producción. Es lo que se llama enmascaramiento estático de datos. Y una vez enmascarados los datos, se pueden utilizar en muchos entornos menos seguros.
Sin embargo, no basta con eliminar los datos sensibles. Los datos enmascarados también deben ser de alta calidad para seguir siendo valiosos. Tanto si los necesita para pruebas como para otros fines, deben seguir arrojando resultados similares a los datos originales. Si los datos enmascarados no proporcionan resultados equivalentes, los equipos que los utilicen exigirán acceso a la información sensible original. Esa es una de las formas en que un proyecto de enmascaramiento puede fracasar.
Otros objetivos son que los datos conserven su validez y la integridad de la aplicación. Estos objetivos son importantes para que la aplicación funcione correctamente.
El problema es que la eliminación de datos sensibles y la conservación de la calidad de las pruebas pueden entrar en conflicto directo. Cuanto mejor se elimine la información sensible, menos queda para el equipo de pruebas. Aunque el enmascaramiento de datos no es una tarea trivial, tampoco es demasiado difícil. Se necesita la solución adecuada y tomarse el tiempo necesario para hacerlo bien.
También existe el enmascaramiento dinámico de datos, pero hablaremos de él más adelante, ya que es una solución diferente para un problema diferente. Otra parte de la confusa terminología.
Aspectos Críticos
Es fundamental evaluar estas funciones de enmascaramiento de datos, ya que pueden hacer fracasar su proyecto. Estas características son la base de lo que necesitas del enmascaramiento de datos, así que asegúrate de comprobarlas.

1. Soporte de plataformas
El primer requisito de una solución es que sea compatible con las bases de datos que necesita enmascarar. Ya sean bases de datos Oracle, bases de datos SQL Server, archivos CSV, etc., la solución de enmascaramiento de datos debe poder conectarse al sistema pertinente y enmascarar los datos que contiene.
La dificultad de este requisito tan obvio radica en que es posible que no conozca todos los sistemas que necesita soportar ahora y en el futuro. Además, es probable que con el tiempo los proveedores introduzcan compatibilidad con bases de datos adicionales. Esto crea una situación fluida.
Práctica recomendada: Evalúe las soluciones en función de sus necesidades actuales y discuta con el proveedor sus posibles necesidades futuras y cómo encajan en su hoja de ruta.
2. Algoritmos y técnicas
Los algoritmos y técnicas disponibles en una solución son fundamentales para la calidad de los datos enmascarados. Determinarán la calidad del enmascaramiento desde el punto de vista de la seguridad y su realismo a la hora de proporcionar pruebas de calidad. También es fundamental para la validez de los datos y la integridad de la aplicación.
En otras palabras, los algoritmos de la solución de enmascaramiento son la característica principal que afecta a todos los objetivos.
Los algoritmos de enmascaramiento son un tema extenso, y tenemos muchos artículos sólo sobre este punto. Sin embargo, en términos generales, los algoritmos se dividen en tres categorías principales. Los algoritmos de Generación de Datos crean datos sintéticos no relacionados con los datos originales. Los algoritmos de manipulación de valores modifican de algún modo los valores originales y conservan algunas de sus propiedades. Los algoritmos de creación de perfiles son un punto intermedio, ya que generan datos, pero la generación utiliza un perfil de los datos originales. También existen perfiles personalizados y otras variaciones que pueden llevar las cosas aún más lejos.
También hay que tener en cuenta el tipo de datos que se van a enmascarar, ya que las distintas clases de algoritmos tienen distinta compatibilidad con los distintos tipos de datos. Por ejemplo, no se puede manipular el valor de una columna Sexo, ya que sólo hay un número limitado de valores válidos. Lo mejor es enmascarar Género utilizando un perfil de los datos originales.
Práctica recomendada: Experimente durante un POC. Defina algunos casos de prueba realistas y solicite al proveedor varias alternativas de enmascaramiento. Por ejemplo, una opción para mejorar la seguridad, otra para mejorar la calidad de las pruebas y otra para equilibrar la calidad de los datos.
3. Rendimiento y escalabilidad
El rendimiento ocupa el tercer lugar en la lista de características críticas porque es una de las principales razones del fracaso de los proyectos de enmascaramiento.
El rendimiento del enmascaramiento de datos implica múltiples elementos, desde la tecnología utilizada por la solución hasta el ajuste de la base de datos para la actividad de escritura intensiva (a diferencia del ajuste habitual optimizado para la lectura).
Sin embargo, el mayor problema en el enmascaramiento de datos son los disparadores. Los disparadores son pequeños fragmentos de código que se ejecutan en la base de datos cuando se actualizan las tablas. Sólo tienen una pequeña sobrecarga en cada actualización. Sin embargo, el enmascaramiento de datos ejecuta millones de actualizaciones, y estos pequeños gastos generales se acumulan hasta provocar una ralentización masiva. Pueden hacer que un proceso de enmascaramiento dure días o más, haciéndolo inviable. La solución tampoco es sencilla, ya que los disparadores suelen ser críticos para la integridad de los datos y no deberían desactivarse sin una forma de compensar su funcionalidad.
Práctica recomendada: Consulte a su equipo de DBA si las bases de datos que pretende enmascarar tienen triggers en tablas con datos sensibles. Además, durante el POC, debería insistir en enmascarar una de sus tablas grandes de principio a fin. Si el rendimiento del enmascaramiento parece inaceptable por cualquier motivo (desencadenantes u otros), asegúrese de que se resuelva durante el POC o, si la resolución es compleja (en el caso de los desencadenantes), que el proveedor le ayude a resolverlo como parte de la implantación.
4. Apoyo del proveedor
El apoyo de los proveedores puede ser fundamental en los proyectos de enmascaramiento de datos. Ya sea para superar problemas de rendimiento o para ayudar a personalizar una política de enmascaramiento que proporcione datos de calidad sin exponer información confidencial. Los proveedores pueden marcar la diferencia entre el fracaso y el éxito de un proyecto.
Práctica recomendada: Durante el POC, pida al proveedor que ofrezca algo más que soluciones enlatadas. Solicite varias alternativas de enmascaramiento para los datos que está probando. Enmascare grandes volúmenes de datos y espere que el rendimiento sea razonable. No siga el camino del proveedor para un POC, sino trace el suyo propio de forma que se sienta seguro de que está equipado y dispuesto a ayudarle cuando lo necesite.
5. Facilidad de aplicación y uso
Normalmente, no utilizará una solución de enmascaramiento de datos todos los días. Además, estas soluciones son utilizadas por personal que tiene muchas otras tareas y que procede de distintos ámbitos (DBA, QA, personal de seguridad, etc.). En otras palabras, una solución que requiera conocimientos específicos, que tenga una curva de aprendizaje pronunciada o que tenga una interfaz poco intuitiva será difícil de asimilar y es menos probable que se utilice.
Práctica recomendada: Durante el POC, asegúrese de que es su personal el que dirige, no el proveedor. Tras una reunión inicial con el proveedor para que le enseñe el sistema, pida a su personal que pase unos días intentando realizar algunas tareas de enmascaramiento sin ayuda.
6. Evaluación del enmascaramiento
Uno de los retos es saber si las políticas de enmascaramiento están haciendo su trabajo. Sobre todo, querrá saber si todos los datos están bien enmascarados. No es una cuestión trivial. Depende tanto de los datos que se enmascaran como de la política que los enmascara. Core Masking dispone de una función que le ayudará a responder a esta pregunta crítica.
Por ejemplo, la sustitución de dígitos por otros dígitos sólo es eficaz si todos los valores contienen dígitos y un número suficiente de ellos. Otro ejemplo: en muchos productos de enmascaramiento, fijar la semilla o garantizar la coherencia tiene el coste no documentado de no enmascarar algunos de los valores. Estos son sólo algunos ejemplos, pero ¿cómo saber si se han enmascarado todos los datos sensibles?
Práctica recomendada: Durante un POC, la seguridad se comprueba a menudo tomando muestras de algunos valores y comparándolos antes y después. Esto no es una buena prueba. Busque una forma de asegurarse de que todos los valores están bien enmascarados. Esto puede ser difícil debido a las diferencias estadísticas entre ejecuciones de enmascaramiento consecutivas. De nuevo, si la solución puede resolverle este problema, será mucho más fácil.
Elementos de Distracción
Las siguientes capacidades pueden ser valiosas en algunos casos, pero suelen utilizarse para distraer a los clientes de lo que importa. Explicaremos cada una de ellas y por qué le distraen de sus objetivos.

7. Enmascaramiento Dinámico
El enmascaramiento dinámico no modifica los datos de la base de datos y devuelve datos enmascarados no para todas las consultas a la base de datos, sino para algunas de ellas. El caso de uso es bastante limitado. Es para cuando algunas aplicaciones que se conectan a la base de datos de producción necesitan acceder a columnas con datos sensibles pero sólo a una versión enmascarada de esas columnas. El enmascaramiento suele ser sólo para una aplicación completa, no para usuarios finales concretos.
El enmascaramiento dinámico sólo es relevante para las bases de datos de producción. Debe seguir protegiendo la base de datos, ya que los datos confidenciales siguen estando dentro de ella.
Además, como el enmascaramiento dinámico es una operación en tiempo real, ofrece un pequeño número de algoritmos con capacidades limitadas. Por ejemplo, la sustitución de caracteres por estrellas. Estos algoritmos no pueden crear datos falsos realistas.
El enmascaramiento dinámico es una solución complicada y cara que no está relacionada con las bases de datos de no producción, y no elimina la necesidad de proteger la base de datos.
8. Descubrimiento
El descubrimiento suele girar en torno a la búsqueda de datos sensibles en la base de datos. Es una buena función que incluyen la mayoría de los productos. Sin embargo, su capacidad para identificar correctamente todos los datos es bastante limitada.
Un método utilizado por el descubrimiento es escanear los datos en la base de datos y buscar datos que se parezcan a patrones específicos. Esto tiene dos limitaciones. En primer lugar, la información sensible debe seguir patrones específicos. Los salarios, por ejemplo, son sólo números que no pueden identificarse de esta manera. En segundo lugar, tiene un elevado número de falsos positivos.
Otro método utilizado consiste en examinar los nombres de las columnas. Este método tiene muchas probabilidades de omitir datos sensibles y también puede dar lugar a muchos falsos positivos.
Aunque la detección es una buena función, no es crítica y no puede confiar en ella para localizar sus datos.
9. Aprovisionamiento y Despliegue
Algunas soluciones permiten copiar datos de producción a no producción o entre sistemas no productivos.
Aunque parece una característica valiosa, todo DBA sabe cómo desplegar una copia de una base de datos de producción. Los administradores de bases de datos tienen métodos más rápidos y probados, como restaurar una copia de seguridad o utilizar funciones específicas de la base de datos. Según nuestra experiencia, los DBA no confían en las funciones de enmascaramiento de datos para realizar copias de bases de datos.
Otra razón por la que esta función distrae la atención es que existen soluciones especializadas en una canalización de datos, el aprovisionamiento del sistema u otros tipos de gestión de datos. No se trata de herramientas de seguridad con un alcance y una finalidad distintos del enmascaramiento de datos.
En otras palabras, la copia de datos está relacionada con las operaciones, no con la seguridad, y por lo tanto, distrae de los requisitos críticos relacionados con el enmascaramiento.
10. Cumplimiento
La conformidad parece la característica perfecta. ¿No sería maravilloso que la solución de enmascaramiento fuera compatible con su requisito de cumplimiento específico? La realidad es que todas las soluciones de enmascaramiento de datos son igualmente adecuadas para el cumplimiento de normativas y las soluciones que afirman ser compatibles con un requisito u otro no hacen nada diferente. Es más, ningún requisito de conformidad, salvo la PCI, especifica cómo enmascarar los datos. Incluso en el caso de la PCI, la buena práctica consiste en enmascarar de forma más agresiva que el requisito mínimo de enmascaramiento establecido en la normativa.
En otras palabras, el cumplimiento es un argumento de marketing, no una característica real.
Prácticas Recomendadas
Hemos enumerado las mejores prácticas de evaluación para cada característica crítica, pero lo fundamental es realizar un POC adecuado. Realice las pruebas usted mismo y evite las reseñas o clasificaciones de Internet. Su POC debe validar que la solución hace lo que usted necesita de principio a fin sin escatimar esfuerzos. Desconfíe de los proveedores que intenten convencerle de lo contrario, independientemente de su reputación.
Tendrá que enmascarar casos de prueba complicados que impliquen, por ejemplo, la coherencia entre columnas o la conservación de la distribución estadística de valores como el sexo o el estado. Tendrá que validar que todos los valores están enmascarados, comprobar el rendimiento y mucho más. Y lo que es más importante, asegúrese de que puede utilizar los datos enmascarados y de que el cliente final está satisfecho con la calidad de los datos.
Reflexión final
Elegir la solución de enmascaramiento de datos adecuada es crucial para el éxito de un proyecto de enmascaramiento. Una que pueda utilizar con regularidad y que mantenga la seguridad y privacidad de su información sensible. El enmascaramiento de datos le permitirá hacer mucho más con los datos que ya tiene sin aumentar el riesgo.