Przedwczoraj, czyli 16 czerwca, Microsoft udostępnił wszystkim klientom Copilot Cowork, zaawansowanego agenta opartego na modelach Claude, który samodzielnie wykonuje wieloetapowe zadania w środowisku Microsoft 365: czyta źródła, sięga do danych, uruchamia narzędzia, generuje dokumenty, przeprowadza analizy. Ciekawsza od samej funkcji jest jednak metka z ceną. Cowork nie jest już wliczony w abonament. Owszem, żeby w ogóle go włączyć, trzeba mieć płatną licencję Microsoft 365 Copilot (około 30 dolarów za użytkownika miesięcznie), ale to dopiero bilet wstępu. Realne korzystanie rozlicza się osobno, „na licznik": każde zadanie kosztuje Copilot Credits, po 0.01 USD za kredyt, a liczba kredytów zależy od czterech rzeczy: od tego, jak mocny model wybierzesz, ile danych wciągnie do kontekstu, ile narzędzi uruchomi i jak długo będzie pracował (blog Microsoft 365).
Dla osoby, która zarządza budżetem lub kupuje technologię dla firmy, to diametralna zmiana. Do tej pory AI w pakiecie biurowym była jak abonament za telefon: stała kwota, przewidywalna pozycja w arkuszu. Cowork zamienia ją w coś bliższego rachunkowi za prąd, płacisz za zużycie, a zużycie zależy od zachowań, których z góry nie znasz. Microsoft daje narzędzia kontroli (limity wydatków na poziomie całej organizacji, grupy i pojedynczego użytkownika, alerty, raportowanie, a sam Cowork jest domyślnie wyłączony), ale haczyk jest w szczegółach: w modelu pay-as-you-go limity budżetu w Copilocie potrafią tylko ostrzegać, a nie blokować. Usługa działa dalej po przekroczeniu progu, a alert bywa opóźniony nawet o 24 godziny (dokumentacja Microsoft Learn). Czyli budżet jest, ale to bardziej kontrolka „rezerwa" niż hamulec.
Paradoks: cena za token spada, a rachunek rośnie
Najbardziej mylący jest tu pierwszy odruch. „Skoro modele tanieją, to i koszt powinien spadać." Modele faktycznie tanieją i to szybko. Flagowy model Anthropic, Claude Opus, jeszcze w 2024 roku kosztował 15 dolarów za milion tokenów wejścia i 75 za milion wyjścia; dziś jego nowsze wersje są w cenie 5 i 25 dolarów — około trzykrotnie taniej (cennik Anthropic). Gartner idzie dalej i prognozuje, że do 2030 roku koszt inference (czyli „przepuszczenia" zapytania przez model) spadnie po stronie dostawców o ponad 90% — ale w tym samym komunikacie dorzuca zdanie, które warto zapamiętać: te oszczędności nie zostaną w pełni przekazane klientom (Gartner).
A jednak całkowite rachunki firm idą w górę. Powód nie leży w cenie jednostkowej, tylko w wolumenie. Token (najmniejsza jednostka tekstu, którą przelicza model — z grubsza kawałek słowa) zdrożał nie wtedy, gdy podniesiono cennik, tylko wtedy, gdy jedno „zadanie" zaczęło ich zużywać dziesiątki tysięcy zamiast kilkuset. Gartner szacuje, że agent AI zużywa od 5 do 30 razy więcej tokenów na zadanie niż zwykły czatbot, bo zamiast jednej odpowiedzi wykonuje pętlę: planuje, sięga po dane, wywołuje narzędzie, sprawdza wynik, poprawia się i próbuje znowu — często 10–20 wywołań modelu na jedno polecenie (Cockroach Labs / Gartner). Do tego dochodzą „reasoning tokens”, czyli model, zanim odpowie, prowadzi długi wewnętrzny monolog, którego nie widzisz, ale za który płacisz jak za zwykłe wyjście. Przy najwyższym wysiłku potrafi to być kilkadziesiąt tysięcy tokenów na jedną turę.
To jest sedno paradoksu: cena za litr spada, ale silnik zaczął palić dziesięć razy więcej. I dlatego analitycy Gartnera prognozują, że ponad 40% projektów z agentami AI zostanie skasowanych do końca 2027 roku, głównie z powodu kosztów, które wymknęły się spod kontroli, niejasnej wartości biznesowej albo braku nadzoru (Gartner).
To nie jest wybryk Microsoftu. To trend
Cowork jest dziś najgłośniejszym przykładem, ale ruch z modelu „za stanowisko" (per-seat) na model „za zużycie" (per-usage) przetacza się przez całą branżę narzędzi AI.
GitHub Copilot, sztandarowe narzędzie dla programistów, od 1 czerwca 2026 r. przeszedł w pełni na rozliczenie zużyciowe. Wcześniej wprowadził „premium requests" z miesięcznym limitem i dopłatą za nadprogram, w którym mocniejsze modele zużywały twój limit z mnożnikiem (najdroższe potrafiły liczyć się jak 10 zapytań za jedno) (GitHub Blog). Cursor, popularny edytor z AI, zmienił zasady tak niefortunnie, że prezes musiał publicznie przeprosić i oddać pieniądze użytkownikom zaskoczonym rachunkami (TechCrunch). Replit przeszedł na „rozliczenie za wysiłek" i zebrał lawinę skarg o rachunki-niespodzianki, pojedynczy użytkownicy raportowali wydatki rzędu tysiąca dolarów w tydzień zamiast dotychczasowych dwustu miesięcznie (The Register). Nawet Anthropic wprowadził tygodniowe limity dla najbardziej aktywnych użytkowników Claude Code (TechCrunch).
Wniosek dla zakupowca jest prosty: stary scenariusz negocjacji się zdezaktualizował. Kupowanie AI coraz mniej przypomina zakup licencji na stanowiska (gdzie negocjujesz cenę za sztukę i masz spokój na rok), a coraz bardziej kontraktowanie chmury, gdzie negocjuje się zobowiązania wolumenowe, rabaty za commit, limity i mechanizmy odcięcia. Microsoft zresztą sam to odzwierciedla, oferując obok pay-as-you-go opcję P3 (zobowiązanie do określonego zużycia z góry w zamian za rabat) oraz pakiety pojemności po 200 dolarów za 25 000 kredytów miesięcznie. Jeśli wcześniej negocjowałeś Enterprise Agreement, to teraz musisz umieć negocjować jak z dostawcą chmury.
Rachunek za nieuwagę
Najdroższe w tym modelu nie są zadania, które zaplanowałeś. Najdroższe są te, których nikt nie pilnował. Najlepiej udokumentowany przykład to 47 tysięcy dolarów spalone w 11 dni przez zapętlonych agentów: dwa z nich (analizujący i weryfikujący) zaczęły wymieniać się zapytaniami w nieskończoność, bez żadnego limitu, a problem wyszedł na jaw dopiero przy fakturze. Koszt rósł tydzień po tygodniu od 127 do 18 400 dolarów (TechStartups). Krążą też głośniejsze anegdoty o rzekomym rachunku rzędu pół miliarda dolarów w jeden miesiąc czy o firmach, które wyczerpały roczny budżet na AI już w kwietniu, itd..
Skala anegdot jest mniej istotna niż mechanizm, który jest za nimi wspólny: w modelu zużyciowym koszt jest funkcją zachowania, a zachowanie trudno przewidzieć. Dlatego trzy rzeczy przestają być „nice to have" i stają się obowiązkiem zakupowo-finansowym: twarde limity, które naprawdę odcinają (a nie tylko wysyłają mail), widoczność zużycia w czasie zbliżonym do rzeczywistego, oraz świadoma decyzja, które zadania w ogóle muszą trafiać do najdroższego modelu w chmurze. I to jest moment, w którym do gry wchodzą modele lokalne.
Rozwiązanie: dobierz model do zadania, nie zadanie do modelu
Najprostsza, a najbardziej niedoceniana dźwignia kosztowa brzmi: nie każde zadanie potrzebuje flagowego modelu. Streszczenie e-maila, klasyfikacja zgłoszenia, wyciągnięcie pozycji z faktury, pierwsza wersja zapytania ofertowego: to wszystko da się dziś zrobić w modelu otwartym (open-weight, czyli takim, którego „wagi" możesz pobrać i uruchomić u siebie), działającym na własnym sprzęcie, za zero kosztu tokenowego. Najdroższy model w chmurze zostawiasz wtedy tam, gdzie naprawdę robi różnicę: w złożonym rozumowaniu, trudnej analizie, generowaniu kodu.
Krajobraz otwartych modeli w połowie 2026 jest zaskakująco dojrzały. W lekkiej klasie (7–14 miliardów parametrów) świetnie sprawdzają się Qwen3, Gemma 3 czy Phi-4. Wystarczą do czatu, streszczeń, prostego kodu i przeszukiwania dokumentów. W klasie średniej ciekawostką jest GLM-4.5-Air (architektura MoE, czyli „mieszanka ekspertów", w której naraz pracuje tylko część modelu, ale daje jakość bliską modelu stumiliardowego przy zużyciu rzędu kilkunastomiliardowego, a zmieści się na jednej karcie 24 GB) (SiliconFlow). Na samej górze są duże modele MoE: DeepSeek V3.2, Qwen3.5, GLM-4.6, Kimi K2, Llama 4, które wymagają już serwera, ale zapewniają jakość zbliżoną do komercyjnych flagowców. Co ważne dla firmy: licencje większości z nich (Apache 2.0, MIT) pozwalają na komercyjne użycie i hosting u siebie bez opłat.
Polski akcent: koszt to jedno, suwerenność danych to drugie
Dla firmy działającej w Polsce i Unii lokalny model rozwiązuje problem, którego żaden cennik nie ujmie: co dzieje się z danymi. Tu warto rozróżnić dwie rzeczy, które łatwo pomylić — rezydencję danych (gdzie fizycznie stoi serwer) i suwerenność danych (kto ma nad nimi wyłączną, prawną i techniczną kontrolę). Dane mogą leżeć w Warszawie, a i tak podlegać amerykańskiemu CLOUD Act, jeśli operatorem jest podmiot z USA. Model uruchomiony całkowicie u siebie, bez wywołań do zewnętrznego API, to jedyny sposób, by ta kontrola była naprawdę pełna.
Robi się to też pilne z innego powodu: 2 sierpnia 2026 zaczynają obowiązywać unijne przepisy AI Act dla systemów wysokiego ryzyka (m.in. rekrutacja, scoring kredytowy, infrastruktura krytyczna), a kary w tym rozporządzeniu sięgają 35 milionów euro lub 7% globalnego obrotu. Dla wielu organizacji to wystarczający argument, by część przetwarzania trzymać na własnym podwórku.
I tu dobra wiadomość: polskie modele są gotowe. Bielik (projekt SpeakLeash) to rodzina modeli na licencji Apache 2.0, w pełni do samodzielnego hostowania, trenowana z naciskiem na polszczyznę, w wersjach od 1,5 do 11 miliardów parametrów, z gotowymi „skompresowanymi" wariantami pod różny sprzęt (Hugging Face). PLLuM, model rozwijany przy wsparciu rządowym, wystartował 22 maja 2026 w rodzinie od 4 do 70 miliardów parametrów, potrafi generować kilkadziesiąt typów polskich pism urzędowych i, co kluczowe dla sektora publicznego, jest udostępniony z pełną dokumentacją pod kątem AI Act (ISPAN). Bawię się właśnie tymi modelami i jest na prawdę ok.
Co z tym wszystkim zrobić?
Nie chodzi o to, żeby wypisać się z chmury i postawić serwerownię. Chodzi o jedną zmianę nawyku. I jest to nawyk czysto zakupowy. Zanim zatwierdzisz kolejny rachunek za AI, zadaj pytanie: czego to konkretne zadanie naprawdę wymaga? Czy klasyfikacja zgłoszeń musi iść przez najdroższy model na świecie, czy poradzi sobie z nią model otwarty na firmowej maszynie? Czy każdy użytkownik agenta musi mieć go włączonego, czy tylko ci, którzy faktycznie z niego korzystają? Czy budżet, który ustawiłeś, naprawdę odcina, czy tylko wysyła maila?
W modelu „na licznik" wygrywa nie ten, kto ma najlepszy model, tylko ten, kto najlepiej dobiera narzędzie do zadania. A to akurat jest dokładnie ta sama dyscyplina, którą zakupowcy uprawiają od zawsze, tylko zastosowana do nowego rodzaju zużycia.
Źródła
- Microsoft 365 Blog — Copilot Cowork GA: https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available/
- Microsoft Learn — Copilot pay-as-you-go (budżety notification-only): https://learn.microsoft.com/en-us/microsoft-365/copilot/pay-as-you-go/overview
- GitHub Blog — Copilot usage-based billing: https://github.blog/news-insights/company-news/github-copilot-is-moving-to-usage-based-billing/
- TechCrunch — Cursor pricing apology: https://techcrunch.com/2025/07/07/cursor-apologizes-for-unclear-pricing-changes-that-upset-users/
- The Register — Replit Agent 3 bill shock: https://www.theregister.com/2025/09/18/replit_agent3_pricing/
- TechCrunch — Anthropic Claude Code rate limits: https://techcrunch.com/2025/07/28/anthropic-unveils-new-rate-limits-to-curb-claude-code-power-users/
- Cockroach Labs / Gartner — token amplification 5–30×: https://www.cockroachlabs.com/blog/agentic-ai-costs-at-scale/
- Gartner — 40%+ agentic projects canceled by 2027: https://www.gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027
- Gartner — inference cost −90% by 2030: https://www.gartner.com/en/newsroom/press-releases/2026-03-25-gartner-predicts-that-by-2030-performing-inference-on-an-llm-with-1-trillion-parameters-will-cost-genai-providers-over-90-percent-less-than-in-2025
- TechStartups — $47k/11-day agent loop: https://techstartups.com/2025/11/14/ai-agents-horror-stories-how-a-47000-failure-exposed-the-hype-and-hidden-risks-of-multi-agent-systems/
- Anthropic — cennik modeli: https://platform.claude.com/docs/en/about-claude/pricing
- llama.cpp — kwantyzacja / Q4_K_M: https://github.com/ggml-org/llama.cpp/discussions/2094
- InsiderLLM — VRAM dla modeli 70B: https://insiderllm.com/guides/running-70b-models-locally-vram-guide/
- SiliconFlow — GLM-4.5-Air: https://www.siliconflow.com/models/glm-4-5-air
- Hugging Face — Bielik 11B v3.0: https://huggingface.co/speakleash/Bielik-11B-v3.0-Instruct
- ISPAN — premiera modeli PLLuM: https://ispan.waw.pl/default/en/launch-of-the-new-pllum-language-models/



