About
Responsabilidades
Diseñar y mantener frameworks de pruebas automatizadas para aplicaciones basadas en LLMs y arquitecturas multiagente.
Validar pipelines RAG (Retrieval-Augmented Generation), incluyendo procesos de ingestión, fragmentación (chunking), generación de embeddings y calidad de recuperación de información.
Realizar pruebas en bases de datos vectoriales (pgvector, Pinecone, OpenSearch) para garantizar la precisión de las búsquedas semánticas.
Automatizar pruebas de pipelines de datos y ETL, asegurando la integridad y fiabilidad de la información.
Probar servicios backend y APIs desarrolladas en Python/FastAPI que respaldan modelos y agentes de IA.
Validar despliegues en Kubernetes y servicios AWS como Bedrock, SageMaker, Lambda, S3 y Aurora.
Diseñar estrategias de evaluación para LLMs, incluyendo enfoques como LLM-as-a-Judge, Human-in-the-Loop y pruebas de regresión.
Definir metodologías de prueba para salidas no deterministas mediante técnicas estadísticas y umbrales de validación.
Colaborar con equipos de IA, datos, producto y negocio para establecer estándares de calidad.
Participar activamente en ceremonias Agile Scrum.
Impulsar la mejora continua de procesos, metodologías y herramientas de QA para IA.
Mentorar y apoyar a perfiles QA más junior.
Requisitos
Entre 3 y 5 años de experiencia en QA/testing, con al menos 1 o 2 años en entornos de IA o Machine Learning.
Sólidos conocimientos de Python y experiencia con frameworks de testing como Pytest o Robot Framework.
Experiencia validando LLMs, sistemas RAG y soluciones de IA conversacional.
Experiencia con Playwright y Cucumber.
Conocimientos y experiencia trabajando con MCPs (Playwright MCP, Atlassian MCP, GitHub MCP).
Conocimiento de herramientas de evaluación de LLMs como RAGAS, LangChain Eval o Hugging Face Evaluation.
Comprensión de técnicas de Prompt Engineering y metodologías de testing para sistemas no deterministas.
Experiencia integrando y validando APIs de modelos de lenguaje como AWS Bedrock, OpenAI o Anthropic.
Conocimientos sólidos de AWS, especialmente en EC2, S3, Lambda, Aurora, SageMaker y Bedrock.
Experiencia con Docker y Kubernetes.
Experiencia trabajando con pipelines de datos utilizando herramientas como Airflow o Prefect.
Experiencia en entornos Agile Scrum.
Excelentes habilidades de comunicación, análisis y resolución de problemas.
Se Valorará
Experiencia con sistemas multiagente y protocolos como A2A o MCP.
Conocimientos de MLOps, incluyendo herramientas como MLflow, Weights & Biases o pipelines CI/CD para Machine Learning.
Experiencia con herramientas de observabilidad para LLMs como Langfuse, LangSmith o Datadog LLM Observability.
Conocimientos de herramientas de pruebas de rendimiento como k6, Locust o JMeter aplicadas a sistemas de IA.
Experiencia en la implementación de CI/CD mediante GitHub Actions.
Conocimientos de Infraestructura como Código (IaC) utilizando Terraform.
Experiencia previa en los sectores de viajes, transporte o aviación.
Conocimientos de herramientas de seguridad y calidad de código como SonarCloud o Snyk.
Condiciones y Beneficios
Contratación indefinida.
Horario flexible y conciliador; el equipo suele trabajar de 9 am a 5 pm.
Trabajo en un ambiente agradable y retador, con oportunidades de superación de retos profesionales.
Posibilidad de teletrabajo en modelo híbrido (2-3 días presencialidad en Viladecans).
Retribución flexible que incluye seguro médico, tickets de transporte, ticket restaurante y cheque guardería.
Acceso a beneficios extra, como descuentos en marcas y formación, y una plataforma integral de bienestar (gimnasios, salud mental, nutrición).
Programas de desarrollo profesional con planes de carrera individualizados y formaciones certificadas.
Oportunidad de mejorar el nivel de idiomas a través de formaciones y planes.
Compromiso con la igualdad y la diversidad.
#J-18808-Ljbffr
Languages
- English
Notice for Users
This job comes from a TieTalent partner platform. Click "Apply Now" to submit your application directly on their site.