Den 5: Lokální modely, OpenRouter a návrat k Anthropic

Tři týdny s lokálními modely a OpenRouter přinesly cenné zkušenosti — i konkrétní čísla. Pak jsme se vrátili k Anthropic. Zde je proč.

Poznámka k cenám: Čísla v tabulce níže odpovídají cenám k Q2 2026. Trh s AI modely se mění rychle — ověřte aktuální ceníky na stránkách providerů.

Tři týdny po banu: lokální modely v praxi

Po incidentu s Anthropic jsem strávil tři týdny testováním alternativ. Ne jednorázovým testem — skutečným agentním provozem na reálných úkolech: psaní kódu, code review, generování testů, analýza dokumentace.

Modely, které prošly testem: Qwen 2.5 Coder (72B), DeepSeek Coder V2 a jejich menší varianty. Testoval jsem je lokálně přes Ollama i přes OpenRouter jako cloudovou alternativu.

OpenRouter: první ahoj za $0,11

OpenRouter funguje jako agregátor přístupu k modelům. Místo zvláštního API klíče pro každého providera máte jeden endpoint. Pro agentní provoz je to elegantní řešení: orchestrátor zavolá OpenRouter, OpenRouter přepošle na Qwen, DeepSeek, nebo cokoliv jiného.

První test s DeepSeek přes OpenRouter stál $0,11 za celý pracovní cyklus, který by přes Anthropic Claude Sonnet stál přibližně $1,40. Rozdíl je výrazný.

Srovnání modelů: co ukázala praxe

Model Cena (vstup / 1M tokenů) Cena (výstup / 1M tokenů) Kvalita kódu Latence
Claude Sonnet 3.7 $3,00 $15,00 Výborná Střední
Claude Opus 4 $15,00 $75,00 Výborná Vyšší
DeepSeek Coder V2 (OpenRouter) $0,14 $0,28 Dobrá Nízká
Qwen 2.5 Coder 72B (lokální) Hardware náklady Hardware náklady Dobrá Závisí na HW

Kde lokální modely zaspaly

Na přímočarém kódování — psaní nových funkcí, refaktoring, generování testů — byly lokální modely srovnatelné s Claude. Na komplexním reasoning — architektonická rozhodnutí, analýza závislostí, bezpečnostní review — byl rozdíl znatelný.

Dalším problémem bylo kontextové okno. Pro agentní provoz potřebujete velký kontext — celé soubory, historie kroků, výstupy nástrojů. Menší lokální modely zde zaostávaly.

Proč jsme se vrátili k Anthropic

Po třech týdnech jsem se vrátil k Claude — ale jinak nakonfigurovaný. Ban byl vyřešen (byl to skutečně false positive), přidal jsem rate limiting na straně orchestrátoru a nastavil retry logiku s exponenciálním backoffem.

Lokální modely zůstaly jako záloha a jako volba pro rutinní úkoly, kde cena hraje roli. Claude zůstal pro komplexní práci. Orchestrátor přepíná podle povahy úkolu automaticky.

Tohle je pravděpodobně optimální architektura pro většinu týmů: hybridní přístup s možností přepnutí.

Chcete vidět, jak jdou automatizovat firemní procesy? Domluvte si konzultaci — naše řešení začíná tam, kde vibe-coding končí.


V dalším díle

Den 6: Neočekávaný problém. Agent začal podepisovat kód jako co-author. A to má právní implikace, které nikdo nečekal.