Modelos locales

La inferencia local es la opción por defecto de Piixie. La aplicación descarga un modelo GGUF en el primer arranque y lo ejecuta a través de un proceso llama-server (de llama.cpp) que gestiona por ti: se lanza en segundo plano al iniciarse y se detiene cuando cierras la aplicación.

Modelos disponibles

Modelo	Tamaño	Parámetros	Notas
Gemma 4 E4B	~5,0 GB	4,5B efectivos	Por defecto. Rápido, compacto, bueno para la anonimización del día a día
Gemma 4 12B	~7,1 GB	12B	Más calidad, necesita más memoria y un equipo más rápido

Ambos son modelos Gemma 4 ajustados por instrucciones y cuantizados a Q4_K_M, descargados de Hugging Face. Cada uno incluye un fichero de proyector de visión (mmproj), así que ambos modelos analizan directamente las páginas renderizadas y las imágenes incrustadas. Sin paso de OCR.

Cambiar de modelo

Abre el selector de modelos en ajustes. Los modelos que aún no están descargados muestran un botón de descarga con una barra de progreso; cambiar a un modelo ya descargado reinicia el servidor local con los nuevos pesos. Las descargas se guardan en caché, así que ir y volver entre modelos no cuesta nada tras la primera descarga.

El mismo selector también lista los modelos de cualquier endpoint remoto que tengas configurado, marcados con el nombre de su endpoint. Los modelos locales y remotos son intercambiables desde el punto de vista de la canalización.

Dónde viven los modelos

Plataforma	Ubicación
macOS	`~/Library/Application Support/Piixie/models/`
Windows	`%APPDATA%\Piixie\models\`
Linux	`~/.config/Piixie/models/`

Borrar un fichero de modelo de esta carpeta libera el espacio en disco; Piixie te ofrecerá volver a descargarlo la próxima vez que lo selecciones.

Cómo se ejecuta la inferencia

llama-server expone una API HTTP compatible con OpenAI en un puerto local con el que solo habla Piixie. El texto del documento (y las imágenes renderizadas, cuando las hay) se envía a ese proceso local, el modelo devuelve en streaming un objeto JSON con los mapeos de PII y Piixie los aplica. Todo el bucle se queda en tu equipo.

El rendimiento depende del hardware. Apple Silicon ejecuta el modelo E4B con comodidad; en máquinas Intel antiguas, espera ejecuciones más lentas o plantéate la configuración de servidor para descargar la inferencia en un equipo más rápido.