Jon Abad Assistant
Asistente conversacional con RAG, guardarraíles y streaming en Edge, integrado en mi portfolio.
RAG
Streaming
Guardarraíles

Highlights
- P95 de respuesta ≈ 950 ms con streaming Edge.
- RAG con embeddings (top-K=10) y KB de 176 entradas.
- Rate limiting distribuido (Supabase): 429 + Retry-After y UX de bloqueo.
Caso: Jon Abad Assistant
Objetivo. Llevar un asistente real a producción con latencia P95 sub-segundo, garantizando calidad de recuperación (RAG) y seguridad (guardarraíles).
Contexto
- Streaming Edge → UI con control de cancelación.
- RAG con embeddings (top-K=10) y KB curada.
- Rate limit por IP con Supabase RPC (429 + Retry-After).
Enfoque
- Saneado de entradas y guardarraíl semántico.
- Construcción de contexto con re-ranking y citación.
- Medición continua: P95, recall@k, 4xx/5xx y satisfacción.
Resultados
- P95 ≈ 950 ms en producción (Edge).
- Cobertura RAG estable y trazable.
- UX de bloqueo/contador para 429.
Stack
Next.js (Edge), OpenAI SDK, Supabase (RPC), Tailwind/shadcn.