Ejecutar Piixie como servidor local

La inferencia con LLM es la parte pesada de la anonimización. Un portátil puede ejecutar el modelo local de Piixie, pero un modelo de 5 GB haciendo análisis de visión sobre un PDF largo mantendrá los ventiladores ocupados. El modo servidor traslada esa carga a una máquina que tú elijas, normalmente un equipo Linux con GPU, mientras la interfaz de escritorio se mantiene exactamente igual.

El flujo de trabajo del documento no cambia: las estaciones de trabajo envían los documentos al servidor Piixie por tu red local, el servidor ejecuta el modelo y devuelve las asignaciones, y la aplicación de escritorio escribe la copia anonimizada. Nada pasa por internet.

Cuándo tiene sentido

Miembros del equipo en portátiles que no pueden ejecutar cómodamente un modelo local
Volúmenes altos de documentos donde una GPU rápida gana a diez CPU lentas
Control centralizado: una máquina que aprovisionar, monitorizar y auditar
Redes aisladas o sujetas a cumplimiento donde las API externas están descartadas pero un servidor interno compartido sí encaja

Arranca el servidor

En la máquina que alojará el modelo (se recomienda GPU; una tarjeta NVIDIA reciente o Apple Silicon marcan una gran diferencia):

piixie server \
  --host 0.0.0.0 \
  --port 8787

El servidor descarga su modelo en el primer arranque, los mismos modelos Gemma 4 que usa la aplicación de escritorio, y expone una API de chat compatible con OpenAI en el puerto indicado. Elige el modelo 12B, más grande, para mejor calidad si la GPU tiene memoria suficiente:

piixie server \
  --host 0.0.0.0 \
  --port 8787 \
  --model gemma-4-12b

Mantén --host 127.0.0.1 si el servidor solo debe aceptar conexiones locales (por ejemplo detrás de un proxy inverso que añade TLS y autenticación).

Conecta la aplicación de escritorio

En cada estación de trabajo, añade el servidor como endpoint:

Abre los ajustes y ve a endpoints de IA.
Añade un endpoint con el protocolo OpenAI chat.
Establece la URL base de tu servidor, por ejemplo http://gpu-box.local:8787 (sin el sufijo /v1; Piixie añade las rutas de la API por su cuenta). El campo de clave de API puede quedar vacío en los endpoints autoalojados.
Piixie consulta al endpoint los modelos disponibles; habilita el que el servidor esté alojando.
Elige ese modelo en el selector de modelos.

A partir de entonces, la anonimización se ejecuta en el servidor. La interfaz se comporta de forma idéntica: mismos modos, mismos perfiles, mismo progreso en streaming, mismo historial. Volver al modelo local incluido es un clic en el mismo selector.

Los detalles de configuración son los mismos que para cualquier endpoint remoto; consulta Endpoints remotos.

Qué sale de la estación de trabajo

En el modo servidor, el texto del documento (y las imágenes renderizadas, para el análisis de visión) se envía al servidor Piixie por la LAN. No se almacena allí; el servidor mantiene los documentos en memoria durante la inferencia. La salida anonimizada, la base de datos del historial y las tablas de sustitución se quedan todas en la estación de trabajo. Si la red entre la estación de trabajo y el servidor no es de confianza, pon el servidor detrás de TLS.

Notas de dimensionado

El modelo por defecto Gemma 4 E4B necesita aproximadamente 6 GB de margen de memoria; el modelo 12B necesita más, en torno a 9 GB.
La memoria de la GPU es el límite que importa. Una tarjeta que aloja el modelo entero en VRAM da velocidades interactivas; el desbordamiento a la CPU funciona pero es lento.
Un servidor atiende peticiones de varias estaciones de trabajo; los documentos se ponen en cola cuando el servidor está ocupado.