Modos de anonimización
Cada ejecución de anonimización usa uno de cinco modos. El trabajo del modelo es el mismo en todos ellos: encontrar cada fragmento de PII del documento y asignar a cada forma superficial una sustitución. El modo decide qué aspecto tienen esas sustituciones.
Ocultar
Sección titulada «Ocultar»El PII se sustituye por una marca visible, [REDACTED] por defecto.
Patient Marcus Patel (DOB 14/03/1982) can be reached at [email protected].↓Patient [REDACTED] (DOB [REDACTED]) can be reached at [REDACTED].Ocultar es el modo más contundente y el más fácil de verificar: cualquier cosa sensible desaparece a la vista. El coste es el contexto. Un documento oculto puede volverse difícil de leer cuando los nombres, las fechas y los identificadores cargaban con el significado.
A través de un perfil puedes cambiar el texto de la marca y pasar a caracteres de relleno: asteriscos o una cadena personalizada, con la longitud del original, una longitud aleatoria o una fija.
Sustituir
Sección titulada «Sustituir»El PII se convierte en etiquetas numeradas que se mantienen coherentes en todo el documento.
Marcus Patel emailed Sarah Kim. Patel's address is 12 Elm St.↓[NAME_1] emailed [NAME_2]. [NAME_1]'s address is [ADDRESS_1].Dos menciones de la misma persona reciben la misma etiqueta, así que la estructura del documento se conserva: aún puedes saber quién hizo qué. El formato de etiqueta por defecto es [TYPE_NUM] y puede cambiarse en un perfil.
Sintetizar
Sección titulada «Sintetizar»El PII se convierte en valores falsos verosímiles generados en local con un runtime de Faker. Los nombres se asignan a nombres nuevos, los correos a correos falsos coherentes, las direcciones a direcciones falsas con la misma forma.
Marcus Patel ([email protected]) lives at 12 Elm St, Springfield.↓Ethan Vance ([email protected]) lives at 84 Cedar Ave, Riverside.El documento sigue leyéndose con naturalidad, lo que convierte el modo sintético en la opción adecuada para demos, fixtures de pruebas y prompts de LLM. Las sustituciones se mantienen coherentes internamente: el correo de una persona reutiliza su nombre falso, las direcciones de varias líneas proceden de un único perfil de dirección falsa y los formatos (estilos de fecha, número de dígitos, separadores) se conservan. La página de datos sintéticos cubre las familias de generadores y las reglas de coherencia.
Los perfiles exponen una semilla aleatoria (para una salida reproducible) y una localización.
LLM Gen
Sección titulada «LLM Gen»El propio modelo inventa los valores de sustitución en lugar de delegar en el runtime de Faker. Útil cuando las sustituciones necesitan un criterio que una biblioteca de generación no puede aportar, como reformular un cargo sensible o producir un valor falso apropiado para el dominio. Oriéntalo con la personalización del prompt del perfil (mensaje de sistema o texto añadido antes/después del prompt de usuario).
JavaScript
Sección titulada «JavaScript»Escribes tú la transformación. Un perfil contiene un fragmento de JavaScript que recibe cada entidad detectada y devuelve la sustitución, ejecutándose en la VM de JavaScript pura en Go que Piixie lleva integrada, con ajustes de semilla y localización. Esta es la vía de escape para reglas específicas de la organización: formatos de ID internos, esquemas de etiquetas personalizados, búsquedas contra tus propias convenciones.
Coherencia entre menciones
Sección titulada «Coherencia entre menciones»Sea cual sea el modo, Piixie indica al modelo que emita una asignación independiente para cada forma superficial de una entidad: “Marcus Patel”, “Marcus”, “Mr. Patel” y “Patel’s” reciben cada una su propia entrada, y en el modo sustituir o sintetizar todas se resuelven a la misma identidad de destino. Las formas más largas se aplican antes que las más cortas para que los solapamientos de subcadenas no corrompan el resultado.
Cómo elegir un modo
Sección titulada «Cómo elegir un modo»- Revisión legal o de cumplimiento: ocultar, el más fácil de auditar.
- Analizar la estructura, el quién-hizo-qué o alimentar un proceso que necesita identidad de entidad: sustituir.
- Cualquier cosa que vaya a leer una persona (o un LLM): sintetizar.
- Casos especiales: LLM Gen o JavaScript a través de un perfil.