Formatos de fichero admitidos

Piixie lee cuatro tipos de fichero y escribe copias anonimizadas que conservan el formato original.

Extensión	Extracción	Reescritura
`.txt`	Texto plano	Saltos de línea conservados
`.md`	Código fuente Markdown	Sintaxis Markdown intacta
`.pdf`	Capa de texto más páginas renderizadas	Texto sustituido in situ, imágenes incrustadas ocultadas o difuminadas opcionalmente
`.docx`	XML del documento	Estilos, estructura y metadatos conservados (solo texto; las imágenes incrustadas pasan sin cambios)

Conservación del formato

La anonimización se hace mediante sustituciones de subcadenas concretas, nunca una reescritura completa. El modelo devuelve una lista de cadenas originales exactas y sus sustituciones; Piixie las aplica al fichero original en su formato nativo. Un DOCX conserva sus estilos y tablas. Un PDF conserva su maquetación. Markdown conserva sus enlaces y encabezados.

Particularidades de los PDF

El tratamiento de PDF es Go puro (sin dependencias nativas), basado en una conversión de la biblioteca MuPDF. Piixie extrae la capa de texto para la detección y sustituye las cadenas coincidentes dentro de los flujos de contenido del PDF.

Las imágenes incrustadas tienen su propio pase. El modelo recibe imágenes renderizadas con coordenadas de página y puede devolver cajas delimitadoras para las regiones que contienen PII, como una firma escaneada o la foto de un documento de identidad. Piixie dibuja entonces cajas de ocultación en esas coordenadas.

Si el modelo seleccionado no admite visión y un PDF contiene imágenes, Piixie pregunta cómo proceder: seguir solo con texto, difuminar automáticamente cada imagen incrustada sin intervención del modelo o aplicar tu elección a todos los ficheros restantes de la cola.

Particularidades de los DOCX

Los documentos de Word se procesan a través de su XML subyacente. Las sustituciones caen dentro de las runs que contenían el texto original, así que el formato de carácter (negrita, color, fuente) se conserva, y los metadatos del documento (autor, título) se anonimizan junto con el cuerpo. Las imágenes incrustadas no se analizan ni se ocultan actualmente en los ficheros DOCX; si un documento de Word contiene imágenes sensibles, expórtalo primero a PDF y procesa ese.

Documentos extensos

Un documento se procesa en un único pase del modelo, así que el límite práctico de tamaño es la ventana de contexto del modelo. Los documentos muy largos pueden superarla y fallar o volver incompletos; si ocurre, divide el fichero y procesa las partes, o cambia a un modelo con una ventana de contexto mayor mediante un endpoint remoto.

Escaneos y documentos basados en imágenes

No hace falta un paso de OCR. Los modelos Gemma locales admiten visión, así que un PDF escaneado sin capa de texto se analiza directamente a partir de sus páginas renderizadas. Esto evita los modos de fallo clásicos del OCR: caracteres mal leídos, maquetaciones a varias columnas aplanadas y estructuras de tabla que se desmoronan.

Visualización en el editor

El Editor de anonimización renderiza cada formato para su revisión: los PDF se muestran página a página con una capa de texto seleccionable, los documentos de Word como una vista de lectura HTML reflowed y el texto plano tal cual. La vista reflowed de Word es para revisar el contenido — el .docx guardado conserva su maquetación original. Todo se renderiza en local; no se envía nada a ninguna parte para mostrar un documento.