Prepara datasets para IA sin filtrar datos personales.
Entrena o usa LLMs con tus propios datos sin exponer datos personales. Piixie elimina los datos personales de corpus de entrenamiento, sets de evaluación y bibliotecas de prompts para que tus modelos aprendan patrones, no identidades. Todo el procesamiento, 100% en local y compatible con tu propio LLM, ya esté en Bedrock, Azure o en tu propia infraestructura.
Qué detecta Piixie en datasets de ML.
Piixie identifica y anonimiza datos personales en logs de clientes, contenido generado por usuarios, telemetría de sistemas y repositorios de código antes de que entren en tu pipeline de entrenamiento.
Datos de clientes
Nombres, correos electrónicos, teléfonos y números de cuenta en logs de soporte, transcripciones de chat y formularios de feedback.
Contenido generado por usuarios
Nombres de usuario, nombres reales en publicaciones, datos de ubicación, fotos personales, acontecimientos vitales y datos de salud revelados en foros y reseñas.
Identificadores de sistema
Direcciones IP, IDs de sesión, identificadores de dispositivo, cookies, user agents, claves de API y tokens de autenticación.
Patrones de comportamiento
Historial de navegación, patrones de clic, búsquedas, descargas, datos de geolocalización y marcas temporales que delatan actividad.
Encuestas y formularios
Nombres de encuestados, datos demográficos, respuestas abiertas con revelaciones personales, datos de ingresos y de salud.
Código y metadatos
Nombres de desarrolladores en commits, correos en comentarios de código, claves de API en archivos de configuración y credenciales en logs.
Chat de soporte, antes y después.
Piixie detecta datos personales en conversaciones con clientes, referencias de cuentas e identificadores personales dentro de los datos de entrenamiento.
Cómo procesa Piixie los datos de entrenamiento.
Del dataset en bruto al corpus sin datos personales, todo ocurre en tu equipo. Ningún dato cruza nunca la red.
1. Carga los datos de entrenamiento
Arrastra a Piixie logs de soporte, transcripciones de chat, respuestas de encuestas, exportaciones de foros o repositorios de código.
2. Detecta datos personales en cualquier formato
El LLM local identifica nombres, correos, IPs, números de cuenta, credenciales y revelaciones personales en datos estructurados y no estructurados.
3. Anonimiza para ML
Sustituye los datos personales por tokens consistentes (la misma persona siempre recibe el mismo token) o sintetiza sustitutos realistas que conservan la distribución de los datos.
4. Exporta el dataset limpio
Datos de entrenamiento sin datos personales, listos para tu pipeline de ML o para tu propio LLM en Bedrock, Azure o en local. El registro de auditoría documenta cada eliminación para el cumplimiento del EU AI Act.
Marcos normativos que cubre Piixie.
El procesamiento 100% local elimina de raíz categorías enteras de riesgo en todos los marcos que regulan los datos usados para entrenar IA.
- Los datos de entrenamiento se sanean en local antes de entrar en cualquier pipeline de ML, cumpliendo los requisitos de gobernanza y calidad de datos del EU AI Act.
- La minimización del RGPD y la LOPDGDD se aplica en el origen: los datos personales se eliminan antes de formar parte del entrenamiento, no después.
- Logs de soporte, transcripciones de chat y formularios de feedback se anonimizan sin transmitir datos de clientes a terceros.
- La sustitución por tokens consistentes conserva las relaciones de los datos (misma persona = mismo token) eliminando el riesgo de reidentificación.
- Las combinaciones de cuasi-identificadores (edad + ubicación + puesto) también se detectan y anonimizan, no solo los identificadores directos.
- El registro de auditoría documenta exactamente qué datos personales se eliminaron del dataset: evidencia lista para revisiones de gobernanza de IA.
Cómo usan Piixie los equipos de ML.
Del entrenamiento de NLP a la generación de código, Piixie encaja en los pipelines de datos de ML que ya tienes.
Sanear logs de soporte para entrenar NLP
Elimina nombres, correos y números de cuenta de las transcripciones de soporte antes de entrenar chatbots, clasificadores o modelos de resumen.
Limpiar encuestas para análisis
Elimina los identificadores de los encuestados conservando la utilidad estadística para estudios de mercado y desarrollo de producto.
Preparar bibliotecas de prompts
Anonimiza prompts y respuestas reales antes de usarlos como ejemplos few-shot, sets de evaluación o datos de fine-tuning, tanto con ChatGPT o Copilot como con tu propio LLM en Bedrock, Azure o en local.
Anonimizar repositorios de código
Elimina nombres de desarrolladores, correos, claves de API y credenciales de tus repositorios antes de usarlos para entrenar modelos de generación de código.
Construye tu IA sobre datos limpios.
Empieza a sanear datasets de entrenamiento en tu equipo. Sin exposición a la nube y sin datos personales colándose en tus modelos.