AI agents w polskiej firmie 2026 — co naprawdę dzialaja, a co marketing
Claude 4.7, GPT-5 i Gemini 3.1 to nie chatboty — to agenty zdolne do wieloetapowych zadań. Pokazuję 4 realne use case z polskich firm: research konkurencji, ops monitoring, sales follow-up, code review. Plus konkretne koszty miesięczne.
AI agent vs chatbot — co się zmieniło
Chatbot 2023: zadajesz pytanie, dostajesz odpowiedź, kończysz. Agent 2026: dostaje cel ("Zrób research konkurencji X w 5 wymiarach"), planuje kroki, używa narzędzi (web search, code execution, file read, API calls), iteruje, weryfikuje, zwraca finalny raport. Klucz: agent działa autonomicznie przez 5-30 minut na jednym zleceniu, bez human-in-the-loop.
4 modele 2026 — szybkie porównanie
- Claude Opus 4.7 (Anthropic) — najlepszy do rozumowania, długi kontekst 1M tokens, najsilniejszy w code i agentic workflows. $15 input / $75 output per 1M tokens.
- GPT-5 (OpenAI) — najszerszy w narzędziach (Code Interpreter, DALL-E, web), świetny w multilingua w tym PL. $10 input / $50 output.
- Gemini 3.1 Ultra (Google) — najlepszy w native multimodal (image/video/audio in one prompt), tani. $5 input / $25 output.
- Llama 3.5 70B (Meta, self-hosted) — najtaniej w produkcji, słabszy w polskim, wymaga GPU. ~$0.5 input / $2 output (na własnym hardware).
Use case #1: Research konkurencji (autonomiczny)
Zadanie: agent ma za zadanie codziennie monitorować 5 konkurentów (ceny, promocje, nowe produkty) i raportować zmiany w Slack rano. Bez code-u, bez SQL, bez nikogo wstając o 6:00.
Stack
- Claude 4.7 z Computer Use API (klika w przeglądarce, robi screenshot, czyta tekst)
- n8n cron co 6:00 trigger
- PostgreSQL — zapisuje wczorajsze ceny dla diff
- Slack webhook — wysyła raport poranny
Flow agenta
- Cron 6:00 → n8n → Claude API z prompted: "Sprawdź ceny tych 5 produktów u tych 5 konkurentów"
- Claude otwiera browser (Playwright headless) i nawiguje
- Dla każdego konkurenta: screenshot strony produktu, OCR/parse ceny
- Compare z wczorajszą ceną w PostgreSQL — flag jeśli >5% zmiana
- Generate Slack message: "🔴 Konkurent X obniżył cenę produktu Y o 12% (450 zł → 396 zł)"
- Send do #pricing-watch Slack channel
Use case #2: Ops monitoring + auto-resolve
Zadanie: agent monitoruje 5 workflows w n8n (sprzedażowy, magazynowy, fakturowy), detection anomalii (np. backlog >50 items, error rate >5%), auto-resolve typowych problemów, eskalacja do człowieka gdy nie wie.
Co agent rozwiązuje sam
- Webhook się powtarza (Shopify retry storm) → identifikuje duplikaty, usuwa, kontynuuje
- KSeF timeout → kolejkuje fakturę, retry za 5 min, alert dopiero po 3 failach
- Subiekt Web API zwraca 500 → restart connection, retry 3×, jeśli nadal — Slack alert
- Mapa produktu missing → tworzy placeholder w mapping table, ping w Slack żeby uzupełnić
- Stan magazynowy <0 → blokuje workflow, alert "Wymaga ręcznej weryfikacji"
Use case #3: Sales follow-up (Claude jako asystent handlowca)
Zadanie: handlowiec wysyła ofertę. Agent po 24h sprawdza CRM — czy klient otworzył ofertę, kliknął link, odpowiedział. Generuje personalized follow-up message i wysyła (lub draftuje w skrzynce handlowca do approval).
Logika follow-up
- Klient otworzył 0 razy → "Soft bump" w 24h: "Cześć Jan, wysłałem ofertę wczoraj, daj znać jeśli pominęło"
- Klient otworzył ofertę, ale nie odpisał → "Value bump" w 48h: "Czy mogę pomóc rozjaśnić ten temat X, który omawialiśmy?"
- Klient otworzył 3+ razy ale brak akcji → "Decision pressure" w 72h: "Jakie pytania mogę odpowiedzieć żebyś mógł zdecydować?"
- Klient odpisał z zastrzeżeniem → agent analizuje object i sugeruje 3 możliwe odpowiedzi handlowcowi
Use case #4: Code review automatyczny
Zadanie: każde GitHub PR triggeruje Claude jako reviewer. Agent czyta diff, sprawdza pod kątem: błędy logiczne, security issues (np. SQL injection), brak testów dla nowego kodu, naming inconsistency, performance regressions.
Co Claude wyłapuje (a CI nie)
- Logika biznesowa — "Ta funkcja liczy podatek netto, ale używasz wartości brutto z requestu"
- Edge case missing — "Co jeśli user.email jest null? Test nie pokazuje tego scenariusza"
- Performance — "Ten loop robi N+1 queries do bazy, zrób batch select"
- Security — "Ten endpoint nie ma rate limitingu, otwarty na DDoS"
- Brak komentarzy — "Funkcja sortByCustomLogic ma 47 linii bez wyjaśnienia algorytmu"
Koszty AI agents w polskim MŚP — realne liczby
Każdy use case z powyższych można skonfigurować z budżetem $30-200/mc. Najwięcej "płaci" za context windows — long prompts (1000+ tokens) × hundreds of calls. Najefektywniej: krótkie prompts, structured outputs (JSON), caching dla repeating data.
- Use case #1 (research): ~$60-90/mc (12 produktów × 5 konkurentów × 30 dni)
- Use case #2 (ops monitoring): ~$40-80/mc (200 events/dzień × Claude Sonnet)
- Use case #3 (sales agent): ~$100-200/mc (50 leadów aktywnych × 4 follow-ups)
- Use case #4 (code review): ~$30-60/mc (20-30 PRs/mc × Claude review)
Co NIE działa (jeszcze)
- Decyzje finansowe wymagające judgment ("Czy dać zniżkę 15% temu klientowi?") — agent strzeli z mało kontekstu, lepiej human-in-loop
- Long-form creative writing (artykuły, content marketing) — agenci 2026 wciąż brzmią "AI-flavor", lepiej do drafting niż final
- Multi-tenant security context — agent nie wie kto pyta, łatwo zhackować przez prompt injection. Wymagana strict isolation w role-based prompts
- Polski język w bardzo niszowych branżach (np. medyczna, prawnicza) — Claude jest dobry, ale GPT-5 dalej halucynuje terminologię
Bezpieczeństwo — co MUSI być
- Sandbox dla agent actions — żadnego "exec arbitrary command", whitelist konkretnych tools
- Cost limits per agent run — max $5/run, alert przy >$3, hard stop przy $10
- Audit trail — każda decyzja agenta jest logowana z full chain-of-thought
- Human escalation triggers — "Niejasna sytuacja", "Wymaga zatwierdzenia", "Brak danych" → Slack ping
- PII redaction przed wysłaniem do LLM — żeby Claude/GPT nie zobaczyło prawdziwych NIP, emaili, telefonów
Jak zacząć — minimalna inwestycja
- Wybierz JEDEN process który Cię boli (np. follow-up po ofercie, monitoring konkurencji).
- Buduj proof of concept z Claude API + n8n — 2-3 dni roboty, koszt poniżej $50.
- Testuj na 5-10 przypadkach realnych, analizuj jakość output (co agent zrobił dobrze, gdzie failował).
- Dopiero jak działa: scale, monitoring, integracja z resztą stack.
- Pierwszy agent w produkcji = wartość $500-2000/mc jeśli dobrze targetowany.
FAQ — najczęstsze pytania
Czy Claude API jest dostępne dla polskich firm?
Tak — Anthropic dostarcza usługi do PL od 2024 (umowa zawierana z Anthropic Ireland, faktura z UE, NIP reverse charge). Wymóg: karta kredytowa firmy lub przelew. Brak limitów regionalnych.
Czy mogę użyć ChatGPT Plus zamiast OpenAI API?
Dla manualnego użycia tak, dla automatyzacji NIE — Plus ma limity i nie ma webhook/API access do agenta. Musisz mieć OpenAI API account (osobny billing).
Czy AI agent może zastąpić handlowca?
Nie. Agent może zastąpić powtarzalne zadania handlowca (follow-up, qualifying, drafting), ale relacja z klientem, negotiation, closing — to nadal człowiek. Agent = 30-40% pracy handlowca offloaded.
Jak liczyć ROI z AI agenta?
Prosty wzór: (godziny zaoszczędzone × stawka osoby) - koszt API - koszt utrzymania = miesięczny zysk. Typowo break-even w 1-2 miesiące, dalej net positive.
Czy mogę self-hostować LLM zamiast korzystać z Claude/GPT?
Tak — Llama 3.5 70B / Qwen 2.5 / Mistral Large mogą działać self-hosted. Wymaga GPU (min. RTX 4090 dla 70B, A100 dla większych). Koszt hardware: 15-40 tys. zł + 300-600 zł/mc prąd. Sensowne dla >100k requests/mc.
Czy AI agent może decydować autonomicznie o wydatkach firmy?
Technicznie tak, ale prawnie ryzykownie. PL prawo cywilne wymaga "zgody świadomego człowieka" dla większości transakcji. Practical: agent może proponować decyzję, człowiek approve klikiem.
Powiązane artykuły
Voice AI dla MŚP w Polsce 2026 — Vicidial + ElevenLabs case study
Voicebot AI w 2026 brzmi naturalnie po polsku, kwalifikuje leady, umawia callbacki i zapisuje notatki w CRM. Vicidial + …
Automatyzacjen8n vs Zapier vs Make 2026 — co wybrać dla polskiej firmy MŚP
Wybór platformy automatyzacji to decyzja na 3-5 lat. Zapier się zmienia, Make rośnie, n8n jako self-hosted dominuje w PL…
KSeFKSeF 2026 — kompletny przewodnik dla MŚP. Jak się wpiąć w 2 tygodnie
Od 1 lutego 2026 każda firma B2B w Polsce musi wystawiać faktury przez KSeF. Penalty za niezgodność = 100% VAT. Pokażę d…