Saltearse al contenido

Entender los resultados de detección

Detrás de cada documento anonimizado hay una lista sencilla: cada fragmento de PII que el modelo encontró y en qué debe convertirse. Piixie llama a cada elemento un mapeo (o entrada). Entender esta lista desmitifica toda la aplicación — el editor, la tabla del historial, los diccionarios y la desanonimización giran todos en torno a ella.

El único cometido del modelo es detectar y clasificar. Para una frase como:

El paciente Marcos Patel (NHC 1029384, F. Nac. 14/03/1982) fue atendido
por la Dra. Ruiz. Contacto: [email protected].

devuelve un resultado estructurado — más o menos:

TipoOriginal
NAMEMarcos Patel
ID1029384(NHC)
DOB14/03/1982
NAMEDra. Ruiz
EMAIL[email protected]

El modelo nunca reescribe tu documento. Piixie toma esa lista y aplica el modo que elegiste —sintético, de ocultado o de etiquetas— para producir las sustituciones. Esa separación es deliberada: el modelo es bueno encontrando PII, y un motor determinista es mejor aplicando los cambios con precisión y coherencia.

Cada entrada lleva:

  • Tipo — la categoría de PII (NAME, EMAIL, ID, …).
  • Original — el texto exacto encontrado en el documento.
  • Sustitución — en qué se convierte (lo rellena el modo, o tú en el editor).
  • Generador — cómo se produjo la sustitución (una función de Faker, un relleno de ocultado, una etiqueta, un valor personalizado). Esto es lo que revela la tabla del historial cuando haces clic en un valor sintético.

Cada forma superficial recibe su propia entrada

Sección titulada «Cada forma superficial recibe su propia entrada»

Si una persona se menciona como Marcos Patel, Marcos, Sr. Patel y Patel, el modelo emite una entrada separada para cada una. En los modos sintético y de etiqueta, todas se resuelven a la misma identidad, de modo que el documento se mantiene coherente. Las formas más largas se aplican antes que las más cortas, así que sustituir Marcos nunca corrompe Marcos Patel. Más sobre esto en por qué LLM para la detección de PII.

  • Durante una ejecución — un diálogo de progreso en vivo retransmite la detección a medida que ocurre (y, con los modelos de razonamiento, el razonamiento del modelo).
  • Después de una ejecución — la entrada del historial muestra la tabla de sustituciones completa, con búsqueda y exportable.
  • En el editor — la misma lista, pero editable: activar, corregir, añadir, quitar.