Ejecutar Piixie como servidor local
La inferencia con LLM es la parte pesada de la anonimización. Un portátil puede ejecutar el modelo local de Piixie, pero un modelo de 5 GB haciendo análisis de visión sobre un PDF largo mantendrá los ventiladores ocupados. El modo servidor traslada esa carga a una máquina que tú elijas, normalmente un equipo Linux con GPU, mientras la interfaz de escritorio se mantiene exactamente igual.
El flujo de trabajo del documento no cambia: las estaciones de trabajo envían los documentos al servidor Piixie por tu red local, el servidor ejecuta el modelo y devuelve las asignaciones, y la aplicación de escritorio escribe la copia anonimizada. Nada pasa por internet.
Cuándo tiene sentido
Sección titulada «Cuándo tiene sentido»- Miembros del equipo en portátiles que no pueden ejecutar cómodamente un modelo local
- Volúmenes altos de documentos donde una GPU rápida gana a diez CPU lentas
- Control centralizado: una máquina que aprovisionar, monitorizar y auditar
- Redes aisladas o sujetas a cumplimiento donde las API externas están descartadas pero un servidor interno compartido sí encaja
Arranca el servidor
Sección titulada «Arranca el servidor»En la máquina que alojará el modelo (se recomienda GPU; una tarjeta NVIDIA reciente o Apple Silicon marcan una gran diferencia):
piixie server \ --host 0.0.0.0 \ --port 8787El servidor descarga su modelo en el primer arranque, los mismos modelos Gemma 4 que usa la aplicación de escritorio, y expone una API de chat compatible con OpenAI en el puerto indicado. Elige el modelo 12B, más grande, para mejor calidad si la GPU tiene memoria suficiente:
piixie server \ --host 0.0.0.0 \ --port 8787 \ --model gemma-4-12bMantén --host 127.0.0.1 si el servidor solo debe aceptar conexiones locales (por ejemplo detrás de un proxy inverso que añade TLS y autenticación).
Conecta la aplicación de escritorio
Sección titulada «Conecta la aplicación de escritorio»En cada estación de trabajo, añade el servidor como endpoint:
- Abre los ajustes y ve a endpoints de IA.
- Añade un endpoint con el protocolo OpenAI chat.
- Establece la URL base de tu servidor, por ejemplo
http://gpu-box.local:8787(sin el sufijo/v1; Piixie añade las rutas de la API por su cuenta). El campo de clave de API puede quedar vacío en los endpoints autoalojados. - Piixie consulta al endpoint los modelos disponibles; habilita el que el servidor esté alojando.
- Elige ese modelo en el selector de modelos.
A partir de entonces, la anonimización se ejecuta en el servidor. La interfaz se comporta de forma idéntica: mismos modos, mismos perfiles, mismo progreso en streaming, mismo historial. Volver al modelo local incluido es un clic en el mismo selector.
Los detalles de configuración son los mismos que para cualquier endpoint remoto; consulta Endpoints remotos.
Qué sale de la estación de trabajo
Sección titulada «Qué sale de la estación de trabajo»En el modo servidor, el texto del documento (y las imágenes renderizadas, para el análisis de visión) se envía al servidor Piixie por la LAN. No se almacena allí; el servidor mantiene los documentos en memoria durante la inferencia. La salida anonimizada, la base de datos del historial y las tablas de sustitución se quedan todas en la estación de trabajo. Si la red entre la estación de trabajo y el servidor no es de confianza, pon el servidor detrás de TLS.
Notas de dimensionado
Sección titulada «Notas de dimensionado»- El modelo por defecto Gemma 4 E4B necesita aproximadamente 6 GB de margen de memoria; el modelo 12B necesita más, en torno a 9 GB.
- La memoria de la GPU es el límite que importa. Una tarjeta que aloja el modelo entero en VRAM da velocidades interactivas; el desbordamiento a la CPU funciona pero es lento.
- Un servidor atiende peticiones de varias estaciones de trabajo; los documentos se ponen en cola cuando el servidor está ocupado.