Saltearse al contenido

Receta: compartir con seguridad con un LLM y restaurar

Quieres que un LLM en la nube —ChatGPT, Claude, el que sea— trabaje sobre un documento que no puede salir de tu control. La jugada es un viaje de ida y vuelta: anonimiza a la salida, desanonimiza a la vuelta. La nube solo ve falsos.

Objetivo: obtener una respuesta útil sobre un documento real desde una herramienta que no controlas, con cero PII real cruzando la frontera.

doc real ──anonimizar──▶ copia segura ──pegar──▶ LLM en la nube
▲ │
└──── desanonimizar ◀──── respuesta (en falsos) ◀──┘

Usa sintetizar (no ocultar —eso no se puede invertir) y adjunta un diccionario con añadir al diccionario activado. Sintetizar mantiene el documento legible, así que el LLM hace bien su trabajo; el diccionario registra los cambios para que puedas volver atrás incluso si el LLM reescribe el texto. Mantén la detección en local —de eso se trata: no enviar el documento bruto a ningún sitio.

Ejecútalo, revisa en el editor, guarda en la salida.

2. Usa la copia segura en la herramienta en la nube

Sección titulada «2. Usa la copia segura en la herramienta en la nube»

Pega el texto anonimizado (o sube el fichero seguro) y haz tu pregunta:

“Resume el historial cardiaco de este paciente y señala cualquier interacción medicamentosa.”

El modelo responde sobre David Romero Gil, NHC 84913366 —los falsos. No tiene ni idea de quién es el paciente real, porque nunca lo vio.

Guarda la respuesta del modelo en un .txt (o conserva el fichero editado que produjo). Está escrita con valores falsos.

Suelta ese fichero en Piixie. Dos casos:

  • Si es el fichero seguro sin cambios, Piixie lo reconoce a partir del historial y ofrece una inversión exacta.
  • Si es el texto nuevo del LLM (un resumen, una edición), Piixie no lo reconocerá —elige la ruta del diccionario. Encuentra los falsos en la respuesta y los vuelve a cambiar, tolerando los cambios de mayúsculas y acentos que introduce una herramienta de chat.
Respuesta del LLM: "David Romero Gil (NHC 84913366): angina estable, revisar dosis de estatina."
↓ desanonimizar (diccionario)
Restaurado: "Marcos Patel (NHC 1029384): angina estable, revisar dosis de estatina."

Ahora el resumen va sobre tu paciente real —y la nube solo tuvo en sus manos el falso.

Solo la versión falsa, en ambos sentidos. El documento real y la respuesta real existieron únicamente en tu equipo. Esa es la garantía que hace que las herramientas externas se puedan usar con datos que de otro modo no podrías compartir. Todo el razonamiento está en el flujo de ida y vuelta y en privacidad.

  • Ocultar rompe el viaje —no puedes invertir [REDACTED]. Usa sintetizar. (Por qué.)
  • Si el LLM parafrasea y elimina un falso (“el paciente” en lugar del nombre falso), no queda ningún falso que restaurar para ese valor. El texto natural de sintetizar hace que los modelos conserven los nombres más a menudo que con ocultar.
  • El fichero restaurado vuelve a ser PII real —mantenlo en el lado de confianza.