AI Agents · 2026

AI agents w polskiej firmie 2026 — co naprawdę dzialaja, a co marketing

Claude 4.7, GPT-5 i Gemini 3.1 to nie chatboty — to agenty zdolne do wieloetapowych zadań. Pokazuję 4 realne use case z polskich firm: research konkurencji, ops monitoring, sales follow-up, code review. Plus konkretne koszty miesięczne.

30 kwietnia 2026·12 min czytania·AI

AI agent vs chatbot — co się zmieniło

Chatbot 2023: zadajesz pytanie, dostajesz odpowiedź, kończysz. Agent 2026: dostaje cel ("Zrób research konkurencji X w 5 wymiarach"), planuje kroki, używa narzędzi (web search, code execution, file read, API calls), iteruje, weryfikuje, zwraca finalny raport. Klucz: agent działa autonomicznie przez 5-30 minut na jednym zleceniu, bez human-in-the-loop.

4 modele 2026 — szybkie porównanie

Claude Opus 4.7 (Anthropic) — najlepszy do rozumowania, długi kontekst 1M tokens, najsilniejszy w code i agentic workflows. $15 input / $75 output per 1M tokens.
GPT-5 (OpenAI) — najszerszy w narzędziach (Code Interpreter, DALL-E, web), świetny w multilingua w tym PL. $10 input / $50 output.
Gemini 3.1 Ultra (Google) — najlepszy w native multimodal (image/video/audio in one prompt), tani. $5 input / $25 output.
Llama 3.5 70B (Meta, self-hosted) — najtaniej w produkcji, słabszy w polskim, wymaga GPU. ~$0.5 input / $2 output (na własnym hardware).

Use case #1: Research konkurencji (autonomiczny)

Zadanie: agent ma za zadanie codziennie monitorować 5 konkurentów (ceny, promocje, nowe produkty) i raportować zmiany w Slack rano. Bez code-u, bez SQL, bez nikogo wstając o 6:00.

Stack

Claude 4.7 z Computer Use API (klika w przeglądarce, robi screenshot, czyta tekst)
n8n cron co 6:00 trigger
PostgreSQL — zapisuje wczorajsze ceny dla diff
Slack webhook — wysyła raport poranny

Flow agenta

Cron 6:00 → n8n → Claude API z prompted: "Sprawdź ceny tych 5 produktów u tych 5 konkurentów"
Claude otwiera browser (Playwright headless) i nawiguje
Dla każdego konkurenta: screenshot strony produktu, OCR/parse ceny
Compare z wczorajszą ceną w PostgreSQL — flag jeśli >5% zmiana
Generate Slack message: "🔴 Konkurent X obniżył cenę produktu Y o 12% (450 zł → 396 zł)"
Send do #pricing-watch Slack channel

Use case #2: Ops monitoring + auto-resolve

Zadanie: agent monitoruje 5 workflows w n8n (sprzedażowy, magazynowy, fakturowy), detection anomalii (np. backlog >50 items, error rate >5%), auto-resolve typowych problemów, eskalacja do człowieka gdy nie wie.

Co agent rozwiązuje sam

Webhook się powtarza (Shopify retry storm) → identifikuje duplikaty, usuwa, kontynuuje
KSeF timeout → kolejkuje fakturę, retry za 5 min, alert dopiero po 3 failach
Subiekt Web API zwraca 500 → restart connection, retry 3×, jeśli nadal — Slack alert
Mapa produktu missing → tworzy placeholder w mapping table, ping w Slack żeby uzupełnić
Stan magazynowy <0 → blokuje workflow, alert "Wymaga ręcznej weryfikacji"

Use case #3: Sales follow-up (Claude jako asystent handlowca)

Zadanie: handlowiec wysyła ofertę. Agent po 24h sprawdza CRM — czy klient otworzył ofertę, kliknął link, odpowiedział. Generuje personalized follow-up message i wysyła (lub draftuje w skrzynce handlowca do approval).

Logika follow-up

Klient otworzył 0 razy → "Soft bump" w 24h: "Cześć Jan, wysłałem ofertę wczoraj, daj znać jeśli pominęło"
Klient otworzył ofertę, ale nie odpisał → "Value bump" w 48h: "Czy mogę pomóc rozjaśnić ten temat X, który omawialiśmy?"
Klient otworzył 3+ razy ale brak akcji → "Decision pressure" w 72h: "Jakie pytania mogę odpowiedzieć żebyś mógł zdecydować?"
Klient odpisał z zastrzeżeniem → agent analizuje object i sugeruje 3 możliwe odpowiedzi handlowcowi

Use case #4: Code review automatyczny

Zadanie: każde GitHub PR triggeruje Claude jako reviewer. Agent czyta diff, sprawdza pod kątem: błędy logiczne, security issues (np. SQL injection), brak testów dla nowego kodu, naming inconsistency, performance regressions.

Co Claude wyłapuje (a CI nie)

Logika biznesowa — "Ta funkcja liczy podatek netto, ale używasz wartości brutto z requestu"
Edge case missing — "Co jeśli user.email jest null? Test nie pokazuje tego scenariusza"
Performance — "Ten loop robi N+1 queries do bazy, zrób batch select"
Security — "Ten endpoint nie ma rate limitingu, otwarty na DDoS"
Brak komentarzy — "Funkcja sortByCustomLogic ma 47 linii bez wyjaśnienia algorytmu"

Koszty AI agents w polskim MŚP — realne liczby

Każdy use case z powyższych można skonfigurować z budżetem $30-200/mc. Najwięcej "płaci" za context windows — long prompts (1000+ tokens) × hundreds of calls. Najefektywniej: krótkie prompts, structured outputs (JSON), caching dla repeating data.

Use case #1 (research): ~$60-90/mc (12 produktów × 5 konkurentów × 30 dni)
Use case #2 (ops monitoring): ~$40-80/mc (200 events/dzień × Claude Sonnet)
Use case #3 (sales agent): ~$100-200/mc (50 leadów aktywnych × 4 follow-ups)
Use case #4 (code review): ~$30-60/mc (20-30 PRs/mc × Claude review)

Co NIE działa (jeszcze)

Decyzje finansowe wymagające judgment ("Czy dać zniżkę 15% temu klientowi?") — agent strzeli z mało kontekstu, lepiej human-in-loop
Long-form creative writing (artykuły, content marketing) — agenci 2026 wciąż brzmią "AI-flavor", lepiej do drafting niż final
Multi-tenant security context — agent nie wie kto pyta, łatwo zhackować przez prompt injection. Wymagana strict isolation w role-based prompts
Polski język w bardzo niszowych branżach (np. medyczna, prawnicza) — Claude jest dobry, ale GPT-5 dalej halucynuje terminologię

Bezpieczeństwo — co MUSI być

Sandbox dla agent actions — żadnego "exec arbitrary command", whitelist konkretnych tools
Cost limits per agent run — max $5/run, alert przy >$3, hard stop przy $10
Audit trail — każda decyzja agenta jest logowana z full chain-of-thought
Human escalation triggers — "Niejasna sytuacja", "Wymaga zatwierdzenia", "Brak danych" → Slack ping
PII redaction przed wysłaniem do LLM — żeby Claude/GPT nie zobaczyło prawdziwych NIP, emaili, telefonów

Jak zacząć — minimalna inwestycja

Wybierz JEDEN process który Cię boli (np. follow-up po ofercie, monitoring konkurencji).
Buduj proof of concept z Claude API + n8n — 2-3 dni roboty, koszt poniżej $50.
Testuj na 5-10 przypadkach realnych, analizuj jakość output (co agent zrobił dobrze, gdzie failował).
Dopiero jak działa: scale, monitoring, integracja z resztą stack.
Pierwszy agent w produkcji = wartość $500-2000/mc jeśli dobrze targetowany.

FAQ — najczęstsze pytania

Czy Claude API jest dostępne dla polskich firm?

Tak — Anthropic dostarcza usługi do PL od 2024 (umowa zawierana z Anthropic Ireland, faktura z UE, NIP reverse charge). Wymóg: karta kredytowa firmy lub przelew. Brak limitów regionalnych.

Czy mogę użyć ChatGPT Plus zamiast OpenAI API?

Dla manualnego użycia tak, dla automatyzacji NIE — Plus ma limity i nie ma webhook/API access do agenta. Musisz mieć OpenAI API account (osobny billing).

Czy AI agent może zastąpić handlowca?

Nie. Agent może zastąpić powtarzalne zadania handlowca (follow-up, qualifying, drafting), ale relacja z klientem, negotiation, closing — to nadal człowiek. Agent = 30-40% pracy handlowca offloaded.

Jak liczyć ROI z AI agenta?

Prosty wzór: (godziny zaoszczędzone × stawka osoby) - koszt API - koszt utrzymania = miesięczny zysk. Typowo break-even w 1-2 miesiące, dalej net positive.

Czy mogę self-hostować LLM zamiast korzystać z Claude/GPT?

Tak — Llama 3.5 70B / Qwen 2.5 / Mistral Large mogą działać self-hosted. Wymaga GPU (min. RTX 4090 dla 70B, A100 dla większych). Koszt hardware: 15-40 tys. zł + 300-600 zł/mc prąd. Sensowne dla >100k requests/mc.

Czy AI agent może decydować autonomicznie o wydatkach firmy?

Technicznie tak, ale prawnie ryzykownie. PL prawo cywilne wymaga "zgody świadomego człowieka" dla większości transakcji. Practical: agent może proponować decyzję, człowiek approve klikiem.

Powiązane artykuły

Voice AI