Enmascaramiento estático de datos
¿Por Qué?
Introducción
Cuando hablamos de bases de datos no productivas nos referimos a aquellas bases de datos utilizadas para educación, pruebas, desarrollo, entre otras. ¿Por qué es importante enfocarnos en estas bases de datos? ¿Cuál es el riesgo? Muy simple: por lo general los equipos de desarrollo utilizan datos reales sacados de los sistemas de producción para mejorar la calidad del software que desarrollan y así acortar los ciclos de desarrollo.
El uso de datos reales en las primeras fases de los ciclos de desarrollo ayuda a mejorar la calidad del software. Al realizar más pruebas con los datos reales, se pueden detectar fallas antes, para así reparar más rápido dichas fallas, reducir el costo de desarrollo y reducir el tiempo total de despliegue, lo cual permite una mejor respuesta a usuarios y clientes, y por consiguiente al negocio. Vivimos en un mundo en el que el despliegue de nuevos modelos o funcionalidades pueden representar el alcanzar o no los objetivos requeridos por el negocio.
¿Qué vectores de seguridad representan una amenaza real?
El almacenamiento y utilización de datos sensibles fuera de los entornos productivos expone dichos datos a usuarios que no deberían tener acceso a ellos. Esto agranda la brecha de seguridad en tres áreas principalmente:
- Ejecución de consultas y extracción de información sensible almacenada en su interior.
- Utilización de la aplicación para acceso a cualquier dato sensible gestionado sin ninguna trazabilidad.
- La seguridad de estos ambientes carecen de los controles de seguridad. Esto permite el acceso a personal a los datos sensibles por personal no autorizado.
El panorama de amenazas al que los sistemas no productivos están expuestos es enorme, desde abuso interno de privilegios hasta hackeos externos. En general, los sistemas que no son de producción tienen niveles de seguridad más bajos o están mal protegidos.
Las amenazas a ambientes no productivo incluyen:
- Un gran número de individuos sin autorización con acceso ilimitado a datos sensibles.
- Autorizaciones mal gestionadas y contraseñas inseguras o triviales, que proveen acceso a muchos individuos desconocidos.
- Controles de accesos mal gestionados que proveen acceso elevado o de administrador a muchos individuos.
- Software mal gestionado con parches faltantes, configuraciones inseguras, vulnerabilidades conocidas, y más, permitiendo a intrusos un fácil acceso.
- Seguridad física mal gestionada que permite acceso a servidores y los datos allí almacenados. En ocasiones, el hardware portátil, como el almacenamiento externo que se utiliza en estos entornos.
- No hay medidas de seguridad significativas como firewalls. La segmentación de red es casi inexistente, no se manejan trazas de auditoría sobre la actividad realizada, etc.
¿Cómo solucionamos este gran reto?
La solución más sencilla es de-sensibilizar los entornos no productivos eliminando los datos sensibles. Cualquier otro intento para asegurar adecuadamente todos estos entornos será costoso y requerirá mucho tiempo y recursos. Esta de-sensibilización se conoce como enmascaramiento estático de datos.
Una vez realizada esta actividad es imposible revertir el cambio. El enmascaramiento cambia los datos en los múltiples entornos no productivos por datos parecidos que no puedan ser asociados a los datos reales.
En pocas palabras, el objetivo es sustituir los datos sensibles por datos falsos e inofensivos. La idea es que los ambientes no productivos no manejen datos sensibles para evitar abrir brechas de seguridad.
Sin embargo, tenemos un gran reto. ¿Cómo hacemos para que los datos enmascarados utilizados se consideren buenos? Dichos datos deben satisfacer tres principios fundamentales:
- El proceso debe eliminar toda información sensible, debe eliminar cualquier posibilidad de reconstrucción de los datos originales a partir de los datos enmascarados.
- Los datos enmascarados deben ser válidos y coherentes. Los campos que tienen reglas especiales o sumas de comprobación deben mantenerse. Las claves primarias enmascaradas deben ser únicas. Las claves externas enmascaradas (o referencias equivalentes) deben coincidir. La ciudad, el estado y el código postal deben ser consistentes,
- Los datos enmascarados deben conservar o mejorar la calidad de las pruebas. Esto significa que los datos enmascarados deben “parecer” reales. Por ejemplo, debe conservar la frecuencia de los datos como la proporción entre hombres y mujeres. Debe seguir utilizando los mismos patrones, si existiesen valores válidos y no válidos deberían seguir existiendo.
Estrategias de enmascaramiento
Hay cuatro estrategias principales para el enmascaramiento de datos estático:
- Manipulación de valores: modifica cada campo independientemente. Los datos enmascarados son una función aplicada a los datos originales. Dependiendo de la función de enmascaramiento, los datos enmascarados pueden conservar algunos aspectos de los datos originales.
- Generación de datos: crea nuevos datos no relacionados con la información sensible original. Aunque la información enmascarada no revelará nada sobre los datos originales, también será completamente ajena. Por lo tanto, las columnas enmascaradas con la generación de datos no deberán ser importantes para la prueba.
- Perfilado automático – tiene tres pasos: analizar los datos originales, crear un perfil de datos y generar datos basados en ese perfil. Esta estrategia es un tipo de generación de datos basado en los datos originales, proporciona datos realistas de alta calidad que no exponen los datos e incluso rompe la asociación de filas.
- Perfiles personalizados: se trata de una forma avanzada de elaboración automática de perfilado. Se permite crear datos que se ajustan a escenarios particulares, se asemejan a perfiles de datos anteriores, o que sean similares a otros conjuntos de datos. También es un medio eficaz para crear conjuntos de datos de cualquier tamaño, tanto más grandes como más pequeños.
Dado que cada enfoque tiene diferentes ventajas e inconvenientes, una buena solución de enmascaramiento de datos ofrecerá todas estas estrategias permitiendo utilizar el método más adecuado para cada situación.
Reflexiones finales
El enmascaramiento de datos es un concepto sencillo, pero la implementación no lo es. Cualquier persona puede lograr ofuscar datos pero hacer que mantengan la consistencia requerida es otra cosa. Cada vez más nos encontramos con que un número creciente de clientes que se enfrenta a retos no triviales a la hora de enmascarar datos. Cada vez es más importante poder enmascarar los datos manteniendo las características necesarias para replicar la operación de las aplicaciones. Mientras más rápido puedan liberar aplicaciones confiables, mayor será el retorno para la empresa y mayor su reconocimiento.
Hable con nosotros para que le ayudemos a entender mejor los retos existentes que visualiza y recibir guía sobre cómo utilizar mejor las herramientas adecuadas para mantener sus datos sensibles fuera de las manos incorrectas.
Core Masking es la solución de enmascaramiento de datos más potente en el mercado, y este documento pretende darle una pequeña muestra de eso. Si quieres recibir más información, escríbenos a marketing@bluecoreresearch.com