Qué hace especial a Scout
Llama 4 Scout usa una arquitectura Mixture-of-Experts (MoE) con 17B de parámetros activos por token, pero 109B de parámetros totales. Esto le da la eficiencia de inferencia de un modelo pequeño con la calidad de uno mucho mayor.
Benchmarks:
- HumanEval (generación de código): 89.3% vs GPT-4o 87.1%
- MBPP: 82.7% vs GPT-4o 81.2%
- MMLU: 86.1% (similar a GPT-4o)
- Velocidad en A100: ~180 tokens/segundo (2.4x más rápido que Llama 3.1 405B)
La importancia del open source aquí
El modelo se publica con licencia Llama 4 Community License — comercialmente usable para la mayoría de casos (excepto competidores directos con >700M usuarios activos). Los pesos están en Hugging Face desde el día 1.
Esto significa que cualquier empresa puede:
- Hacer fine-tuning sobre sus propios datos
- Deployar en su infraestructura sin pagar por token
- Modificar y redistribuir (con restricciones)
Cómo probarlo ahora
# Con Ollama (la forma más rápida)
ollama pull llama4:scout
ollama run llama4:scout
# Con la API de Hugging Face
pip install transformers
# modelo: meta-llama/Llama-4-Scout-17B-16E-Instruct
Bottom line: Para empresas que procesan datos sensibles o volúmenes altos, Scout cambia la ecuación económica. Un buen modelo de código que puedes correr on-premise es un game changer para equipos de desarrollo.