Prepara datasets para IA sin filtrar datos personales.

Entrena o usa LLMs con tus propios datos sin exponer datos personales. Piixie elimina los datos personales de corpus de entrenamiento, sets de evaluación y bibliotecas de prompts para que tus modelos aprendan patrones, no identidades. Todo el procesamiento, 100% en local y compatible con tu propio LLM, ya esté en Bedrock, Azure o en tu propia infraestructura.

Preparado para el EU AI Act Gobernanza de datos de entrenamiento de serie
Datasets sin datos personales Datos personales eliminados antes de entrenar
Cero fugas a la nube Los datos nunca salen de tu equipo
Trazabilidad completa Documenta todo lo que se eliminó
Datos personales en datasets de entrenamiento

Qué detecta Piixie en datasets de ML.

Piixie identifica y anonimiza datos personales en logs de clientes, contenido generado por usuarios, telemetría de sistemas y repositorios de código antes de que entren en tu pipeline de entrenamiento.

Datos de clientes

Nombres, correos electrónicos, teléfonos y números de cuenta en logs de soporte, transcripciones de chat y formularios de feedback.

Contenido generado por usuarios

Nombres de usuario, nombres reales en publicaciones, datos de ubicación, fotos personales, acontecimientos vitales y datos de salud revelados en foros y reseñas.

Identificadores de sistema

Direcciones IP, IDs de sesión, identificadores de dispositivo, cookies, user agents, claves de API y tokens de autenticación.

Patrones de comportamiento

Historial de navegación, patrones de clic, búsquedas, descargas, datos de geolocalización y marcas temporales que delatan actividad.

Encuestas y formularios

Nombres de encuestados, datos demográficos, respuestas abiertas con revelaciones personales, datos de ingresos y de salud.

Código y metadatos

Nombres de desarrolladores en commits, correos en comentarios de código, claves de API en archivos de configuración y credenciales en logs.

Míralo en acción

Chat de soporte, antes y después.

Piixie detecta datos personales en conversaciones con clientes, referencias de cuentas e identificadores personales dentro de los datos de entrenamiento.

Documento original
REGISTRO DE CHAT DE SOPORTE Cliente: Maria Santos Correo: [email protected] Cuenta: ACC-48291037 Agente: Javier Tomás Transcripción del chat: Maria Santos: Mi tarjeta acabada en 3891 se cobró dos veces por el pedido #PED-7291 Javier Tomás: Metadatos de sesión: Resolución:
Anonimizado con Piixie
REGISTRO DE CHAT DE SOPORTE Cliente: [CLIENTE_1] Correo: [CORREO_1] Cuenta: [CUENTA_1] Agente: [AGENTE_1] Transcripción del chat: [CLIENTE_1]: Mi tarjeta acabada en [TARJETA_FIN4_1] se cobró dos veces por el pedido [AGENTE_1]: Metadatos de sesión: Resolución:
Flujo de trabajo

Cómo procesa Piixie los datos de entrenamiento.

Del dataset en bruto al corpus sin datos personales, todo ocurre en tu equipo. Ningún dato cruza nunca la red.

1. Carga los datos de entrenamiento

Arrastra a Piixie logs de soporte, transcripciones de chat, respuestas de encuestas, exportaciones de foros o repositorios de código.

2. Detecta datos personales en cualquier formato

El LLM local identifica nombres, correos, IPs, números de cuenta, credenciales y revelaciones personales en datos estructurados y no estructurados.

3. Anonimiza para ML

Sustituye los datos personales por tokens consistentes (la misma persona siempre recibe el mismo token) o sintetiza sustitutos realistas que conservan la distribución de los datos.

4. Exporta el dataset limpio

Datos de entrenamiento sin datos personales, listos para tu pipeline de ML o para tu propio LLM en Bedrock, Azure o en local. El registro de auditoría documenta cada eliminación para el cumplimiento del EU AI Act.

Cumplimiento normativo

Marcos normativos que cubre Piixie.

El procesamiento 100% local elimina de raíz categorías enteras de riesgo en todos los marcos que regulan los datos usados para entrenar IA.

  • Los datos de entrenamiento se sanean en local antes de entrar en cualquier pipeline de ML, cumpliendo los requisitos de gobernanza y calidad de datos del EU AI Act.
  • La minimización del RGPD y la LOPDGDD se aplica en el origen: los datos personales se eliminan antes de formar parte del entrenamiento, no después.
  • Logs de soporte, transcripciones de chat y formularios de feedback se anonimizan sin transmitir datos de clientes a terceros.
  • La sustitución por tokens consistentes conserva las relaciones de los datos (misma persona = mismo token) eliminando el riesgo de reidentificación.
  • Las combinaciones de cuasi-identificadores (edad + ubicación + puesto) también se detectan y anonimizan, no solo los identificadores directos.
  • El registro de auditoría documenta exactamente qué datos personales se eliminaron del dataset: evidencia lista para revisiones de gobernanza de IA.
Casos de uso

Cómo usan Piixie los equipos de ML.

Del entrenamiento de NLP a la generación de código, Piixie encaja en los pipelines de datos de ML que ya tienes.

Sanear logs de soporte para entrenar NLP

Elimina nombres, correos y números de cuenta de las transcripciones de soporte antes de entrenar chatbots, clasificadores o modelos de resumen.

Limpiar encuestas para análisis

Elimina los identificadores de los encuestados conservando la utilidad estadística para estudios de mercado y desarrollo de producto.

Preparar bibliotecas de prompts

Anonimiza prompts y respuestas reales antes de usarlos como ejemplos few-shot, sets de evaluación o datos de fine-tuning, tanto con ChatGPT o Copilot como con tu propio LLM en Bedrock, Azure o en local.

Anonimizar repositorios de código

Elimina nombres de desarrolladores, correos, claves de API y credenciales de tus repositorios antes de usarlos para entrenar modelos de generación de código.

Construye tu IA sobre datos limpios.

Empieza a sanear datasets de entrenamiento en tu equipo. Sin exposición a la nube y sin datos personales colándose en tus modelos.

Descarga Piixie y sanea tu primer dataset