Загрузка...

Tutuca Bench Round 3: "Mini models" Gemini Flash, Haiku & GPT 5.4 Mini

Ask coding agents to use a new framework not in the training set to implement Todo-MVC.

Gemini Flash, Haiku & GPT 5.4 Mini in their native code harness (Gemini CLI, Codex and Claude Code) and all again in OpenCode to see if it makes a difference.

1. Gemini 3 flash (one shot)
2. GPT-5.4-mini
3. Haiku

- Using the "native" harness for a model makes a small positive difference, except for haiku
- Haiku hallucinated syntax the most
- Hallucinations where the same across harnesses for the same model
- GPT-mini in opencode got stuck and then in a thinking spiral
- When errors are pointed out the models tend to fix them quickly

Видео Tutuca Bench Round 3: "Mini models" Gemini Flash, Haiku & GPT 5.4 Mini канала Mariano Guerra
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять