Los datos sintéticos son exactamente lo que parecen: datos creados artificialmente (normalmente mediante algoritmos, modelos estadísticos o IA generativa), y que no se han generado directamente de actividades del mundo real. Para desarrollar datos sintéticos, se analiza la información de casi cualquier fuente y se buscan estructuras y patrones, que luego se utilizan como base para crear nuevos conjuntos de datos que imitan las características principales de los originales.
¿Para qué pueden utilizarse en las empresas?
Identificar, recopilar y estructurar los datos adecuados de forma que puedan servir de base para las decisiones empresariales requiere mucho tiempo, es costoso y tiene sus riesgos. “Todas las empresas están sujetas a la regulación en materia de protección de datos y al tratamiento correcto de los datos sensibles”, afirma Marcus Hartmann, socio y director de datos de PwC Alemania y Europa. “Y los datos sintéticos pueden darte información valiosa sin tener que estar expuesto a los riesgos derivados de su origen o de su uso”.
Cuando los datos apropiados son inaccesibles por motivos de confidencialidad, privacidad, exigencias regulatorias, o porque, simplemente, no existen en cantidades suficientes para ser útiles, los datos sintéticos pueden ser una buena alternativa.
También se pueden utilizar para procesos de data augmentation. Con ello lo que se busca es ampliar la cantidad de datos disponibles para entrenar modelos de Inteligencia Artificial o generar datasets que complementen un área de la problemática donde existen pocos datos.
¿Cómo crean valor?
Los datos sintéticos son una forma más económica y rápida de acceder a grandes cantidades, en lugar de los métodos tradicionales de recopilación y gestión de datos. Esto significa que tienen el potencial de acelerar la transformación impulsada por los datos en todos los sectores de actividad en la medida que pueden convertirse en la base para la creación de modelos de aprendizaje automático y de IA, lo que, a su vez, permite el desarrollo de nuevos productos, servicios y formas de trabajar, cumpliendo finalmente la promesa del “big data” que tanto nos entusiasmó hace unos años.
Los datos sintéticos ya se utilizan en numerosos sectores. Amazon los emplea sobre patrones de habla, sintaxis y semántica para mejorar el reconocimiento de voz multilingüe en su asistente virtual Alexa. El Servicio Nacional de Salud del Reino Unido (NHS) ha convertido datos reales sobre ingresos de pacientes para el tratamiento de accidentes y urgencias en un conjunto de datos de código abierto estadísticamente similar pero anonimizado, para ayudar a las organizaciones asistenciales del sistema nacional de salud a comprender y satisfacer mejor las necesidades de los pacientes y de los profesionales sanitarios. Este tipo de datos sanitarios también ha sido aprovechado por Alphabet y por la aseguradora estadounidense Anthem para mejorar la detección del fraude en los seguros.
Sin embargo, se trata de una tecnología relativamente incipiente y, como ocurre con cualquier otra información generada por máquinas, el resultado final depende de la calidad de los datos sobre los que se construye y de los algoritmos que se aplican. Las anomalías y los valores atípicos de los datos de origen pueden amplificarse o perderse por completo; cualquiera de las dos opciones hace que el producto final sea menos representativo de los datos reales a los que pretende sustituir. Los conjuntos de datos sintéticos también pueden retener accidentalmente alguna información personal que identifica la fuente de la que han sido obtenidos, lo que podría violar la privacidad de las personas y exponer a las compañías y organizaciones que los utilizan a acciones legales.
Es conocido por todos que la IA generativa puede producir lo que se denominan alucinaciones, cuando extrae conclusiones que parecen estadísticamente probables, pero que no están respaldadas por los datos reales. Los conjuntos de datos sintéticos creados a partir de esas alucinaciones se ven entonces afectados. Algunos temen que, debido a este fenómeno, la proliferación de datos sintéticos podría, con el tiempo, introducir circuitos de retroalimentación que harían menos fiable la información generada por la IA.
Garantizar el valor y la calidad de los datos sintéticos requerirá una sólida labor humana de revisión y, en este sentido, la guía sobre el uso responsable de la IA, elaborada por PwC, puede servir de ayuda.
¿Quién debe conocer los datos sintéticos dentro de tu compañía?
Es probable que los máximos responsables de tecnología y seguridad (CIOs, CTOs, CISOs, por sus siglas en inglés) y los departamentos de investigación y desarrollo, de análisis de datos, de asesoramiento legal y cumplimiento, y de marketing y ventas ya estén analizando las ventajas que ofrecen. Los sectores que se enfrentan a problemas de privacidad y acceso a los datos -en particular, el sanitario, la industria farmacéutica y las ciencias de la salud, así como los servicios financieros- son los que probablemente obtendrán mayores beneficios de ellos.