Por qué LLM para la detección de PII

Los detectores tradicionales captan correos y números de teléfono por su forma. Los documentos reales esconden PII en relaciones, maquetación e implicación, y por eso Piixie pone un modelo de lenguaje en el centro de la detección.

Más allá de las cadenas evidentes

Una regex encuentra [email protected]. No encuentra el dato sensible de que un paciente está vinculado a un médico, de que se menciona a un dependiente solo por su nombre de pila o de que un número de expediente aparece en mitad de un párrafo. A menudo lo sensible es la relación entre tokens de aspecto corriente, más que un único patrón predecible.

Los casos difíciles son relacionales

Un currículum menciona “Alex” en una nota de presentación, un nombre completo en la cabecera y una web personal en el pie. Un motor de reglas ve tres cadenas sin relación. Un LLM razona que pertenecen a una misma persona y las anonimiza de forma coherente, así que “Alex” no sobrevive en el cuarto párrafo después de haber borrado el nombre de la cabecera. Las tablas con columnas de “cónyuge” o “contacto de emergencia” necesitan la misma lectura contextual.

Contexto frente a coincidencia de patrones

Una regex no puede distinguir el nombre de una empresa pública del de un empleador privado en un formulario médico, ni un código de producto de un número de cuenta. Un LLM lee el texto circundante y decide que “Dr. Ruiz” es un profesional sanitario en un documento, “Ruiz family trust” es una entidad privada en otro y “Ruiz Street” es una dirección, no una persona.

Las fechas son un buen ejemplo de dónde importa el criterio. “Marzo de 2023” en una nota de prensa es información pública. “Empleado de ene. 2020 a mar. 2023” en un CV ancla la cronología de una persona y es identificativo. El prompt de Piixie trata las fechas de cronología personal como PII; un comparador de patrones no puede tomar esa decisión.

La visión sustituye al OCR

Los modelos locales de Piixie admiten visión, así que las páginas renderizadas, los escaneos, los PDF basados en imágenes y las capturas de pantalla se analizan directamente. Sin preprocesado de OCR, y sin ninguno de sus modos de fallo: caracteres mal leídos, estructura de tabla perdida, maquetaciones a varias columnas aplanadas, etiquetas desligadas.

Detección y sustitución están conectadas

Si el modelo sabe que tres menciones se refieren a la misma persona, Piixie usa una única identidad de sustitución para todas ellas. Si sabe que un correo pertenece a esa persona, el modo sintético genera una parte local coherente. Varias líneas de dirección se mantienen coherentes entre sí.

El modelo encuentra y clasifica entidades, pero Piixie controla la operación final: marcas de ocultación, etiquetas de sustitución o valores sintéticos locales respaldados por Faker. El modelo nunca reescribe libremente tu documento.

Lo local primero es el compromiso práctico

El mejor detector de PII no sirve de nada si hay que subir cada documento en bruto para usarlo. Piixie ejecuta la detección donde ya vive el documento. Las organizaciones aún pueden enviar la salida anonimizada a sus LLM externos preferidos; el paso de detección y transformación en bruto ocurre antes de esa frontera. Si quieres inferencia remota para el propio paso de detección, eso es una opción explícita mediante endpoints remotos o un servidor Piixie en tu propia red.