La sorpresa del nuevo Claude Opus 4.8 no es que sea (un poco) mejor. La sorpresa es el “solo sé que no sé nada”

No lo esperábamos tan pronto, pero aquí está Claude Opus 4.8, la nueva versión del modelo frontera de Anthropic. Han pasado tan solo 41 días desde el lanzamiento de Claude Opus 4.7, lo que parece dejar claro que la empresa no estaba del todo contenta con dicho modelo, que no acabó tampoco de conquistar muy buenas críticas. Con Claude Opus 4.8 lo realmente curioso no es que vuelva a establecer récords en la mayoría de benchmarks. La sorpresa es su honestidad. Es mejor, sí, pero es no es lo que importa. En los resultados internos de los benchmarks publicados por Anthropic queda claro que Opus 4.8 está por encima de Opus 4.7, pero también de GPT 5.5 y de Gemini 3.1 Pro (curioso, no lo comparan con el reciente Gemini 3.5 Flash. Supera a todos ellos en esas pruebas salvo en TerminalBench 2.1, en la que GPT-5.5 es algo superior. Es en realidad esperable que cada nuevo modelo supere a su antecesor, pero aquí lo llamativo es el enfoque del modelo. Honestidad ante todo. Boris Cherny, máximo responsable de Claude Code en Anthropic, explicaba que el modelo no solo programa mejor: “es significativamente más honesto sobre su propio trabajo. Te dice cuándo no está seguro de algo y detecta sus propios fallos en lugar de declarar demasiado pronto la victoria”. Solo sé que no sé nada. Otra de las ingenieras de Anthropic, Catherine Wu, incidía en esa nueva “personalidad” de Claude Opus 4.8, que es capaz de admitir que no sabe algo en lugar de contestar por contestar y de pasar por alto errores en sus respuestas o en el código que genera. Quienes lo han probado coinciden en que es un modelo más “alineado”, es decir, que se ajusta a los valores, intenciones, éticas y objetivos humanos. Menos alucinaciones, más humanidad. Desde hace tiempo estamos viendo cómo los nuevos modelos de IA son mejores en benchmarks, pero también ha habido saltos significativos en la disminución de alucinaciones. No solo inventan y se equivocan menos: comienzan a reconocer que no lo saben todo. Eso es muy importante… y muy humano. La completísima “Tarjeta de Sistema” incluye numerosas métricas que desde luego parecen demostrar que estamos ante un modelo mucho más pulido que sus antecesores en este ámbito. Flujos de trabajo. Una de las novedades presentadas junto al modelo son los flujos de trabajo dinámicos (Dynamic Workflows), que están disponibles en versión preliminar y que están orientados a una sola cosa: lograr trabajar con tareas más complejas en Claude Code. Gracias a esta opción es posible desplegar cientos de agentes paralelos en una única sesión, algo por ejemplo útil para analizar y migrar repositorios de código de cientos de miles de líneas. Nada de Sonnet y Haiku. Claude Sonnet 4.6 se lanzó el 17 de febrero de 2026, pero desde entonces Anthropic no ha actualizado este modelo. La cosa es aún peor para Claude Haiku, cuya última versión es la 4.5, lanzada el 15 de octubre de 2025. Estos modelos eran versiones más modestas en prestaciones pero mucho más baratas (sobre todo Haiku), y de momento Anthropic no los ha actualizado. Eso beneficia sus intereses, porque si quieres lo mejor, solo puedes tener lo mejor y lo más caro, pero no lo mejor en su versión “asequible”. Los modelos de la capacidad de Mythos llegarán pronto. En el anuncio oficial Anthropic dejaban claro que “Los usuarios detectarán que Opus 4.8 es una mejora modesta pero tangible sobre su predecesor”, pero además señalaban algo importante, y es que en las próximas semanas tendremos modelos de IA con capacidades similares a Claude Mythos, pero disponibles públicamente: “Planeamos lanzar una nueva clase de modelo con una inteligencia aún mayor que la de Opus. Como parte del Proyecto Glasswing, un pequeño número de organizaciones está utilizando actualmente Claude Mythos Preview para trabajos de ciberseguridad. Los modelos con este nivel de capacidad requieren medidas de ciberseguridad más sólidas antes de su lanzamiento general. Estamos avanzando rápidamente en el desarrollo de estas medidas y esperamos poder ofrecer modelos de la clase Mythos a todos nuestros clientes en las próximas semanas”. En Xataka | Bienvenidos al duopolio de la IA: el sector ya factura 80.000 millones al año, pero OpenAI y Anthropic se llevan el 89% de los ingresos – La noticia La sorpresa del nuevo Claude Opus 4.8 no es que sea (un poco) mejor. La sorpresa es el “solo sé que no sé nada” fue publicada originalmente en Xataka por Javier Pastor .

Es mejor, sí, pero es no es lo que importa. En los resultados internos de los benchmarks publicados por Anthropic queda claro que Opus 4.8 está por encima de Opus 4.7, pero también de GPT 5.5 y de Gemini 3.1 Pro (curioso, no lo comparan con el reciente Gemini 3.5 Flash. Supera a todos ellos en esas pruebas salvo en TerminalBench 2.1, en la que GPT-5.5 es algo superior. Es en realidad esperable que cada nuevo modelo supere a su antecesor, pero aquí lo llamativo es el enfoque del modelo.

Honestidad ante todo. Boris Cherny, máximo responsable de Claude Code en Anthropic, explicaba que el modelo no solo programa mejor: “es significativamente más honesto sobre su propio trabajo. Te dice cuándo no está seguro de algo y detecta sus propios fallos en lugar de declarar demasiado pronto la victoria”.

Solo sé que no sé nada. Otra de las ingenieras de Anthropic, Catherine Wu, incidía en esa nueva “personalidad” de Claude Opus 4.8, que es capaz de admitir que no sabe algo en lugar de contestar por contestar y de pasar por alto errores en sus respuestas o en el código que genera. Quienes lo han probado coinciden en que es un modelo más “alineado”, es decir, que se ajusta a los valores, intenciones, éticas y objetivos humanos.

Menos alucinaciones, más humanidad. Desde hace tiempo estamos viendo cómo los nuevos modelos de IA son mejores en benchmarks, pero también ha habido saltos significativos en la disminución de alucinaciones. No solo inventan y se equivocan menos: comienzan a reconocer que no lo saben todo. Eso es muy importante… y muy humano. La completísima “Tarjeta de Sistema” incluye numerosas métricas que desde luego parecen demostrar que estamos ante un modelo mucho más pulido que sus antecesores en este ámbito.

Flujos de trabajo. Una de las novedades presentadas junto al modelo son los flujos de trabajo dinámicos (Dynamic Workflows), que están disponibles en versión preliminar y que están orientados a una sola cosa: lograr trabajar con tareas más complejas en Claude Code. Gracias a esta opción es posible desplegar cientos de agentes paralelos en una única sesión, algo por ejemplo útil para analizar y migrar repositorios de código de cientos de miles de líneas.

Nada de Sonnet y Haiku. Claude Sonnet 4.6 se lanzó el 17 de febrero de 2026, pero desde entonces Anthropic no ha actualizado este modelo. La cosa es aún peor para Claude Haiku, cuya última versión es la 4.5, lanzada el 15 de octubre de 2025. Estos modelos eran versiones más modestas en prestaciones pero mucho más baratas (sobre todo Haiku), y de momento Anthropic no los ha actualizado. Eso beneficia sus intereses, porque si quieres lo mejor, solo puedes tener lo mejor y lo más caro, pero no lo mejor en su versión “asequible”.

Los modelos de la capacidad de Mythos llegarán pronto. En el anuncio oficial Anthropic dejaban claro que “Los usuarios detectarán que Opus 4.8 es una mejora modesta pero tangible sobre su predecesor”, pero además señalaban algo importante, y es que en las próximas semanas tendremos modelos de IA con capacidades similares a Claude Mythos, pero disponibles públicamente:

“Planeamos lanzar una nueva clase de modelo con una inteligencia aún mayor que la de Opus. Como parte del Proyecto Glasswing, un pequeño número de organizaciones está utilizando actualmente Claude Mythos Preview para trabajos de ciberseguridad. Los modelos con este nivel de capacidad requieren medidas de ciberseguridad más sólidas antes de su lanzamiento general. Estamos avanzando rápidamente en el desarrollo de estas medidas y esperamos poder ofrecer modelos de la clase Mythos a todos nuestros clientes en las próximas semanas”.

En Xataka | Bienvenidos al duopolio de la IA: el sector ya factura 80.000 millones al año, pero OpenAI y Anthropic se llevan el 89% de los ingresos

–
La noticia

La sorpresa del nuevo Claude Opus 4.8 no es que sea (un poco) mejor. La sorpresa es el “solo sé que no sé nada”

fue publicada originalmente en

Xataka

por

Javier Pastor

.