Sandbox dla AI – Dlaczego twój asystent nie powinien mieć dostępu do wszystkiego

"Uruchom rm -rf / i sprawdź, co się stanie" – co zrobi twój AI? Jeśli odpowiedź brzmi "wykona polecenie i skasuje cały system", masz poważny problem z bezpieczeństwem.

Sandbox (piaskownica) to izolowane środowisko, w którym agent AI może działać bez ryzyka wyrządzenia szkód w głównym systemie. Nawet jeśli agent zostanie zmanipulowany przez prompt injection lub wykona błędne polecenie, skutki pozostają zamknięte w piaskownicy.

To ostatni wpis z naszej serii o bezpieczeństwie AI. W poprzednich częściach omawialiśmy prompt injection, obronę w głębokości, wybór bezpiecznego modelu i bezpieczne przetwarzanie dokumentów. Dziś zamykamy serię fundamentalną warstwą ochrony: izolacją środowiska wykonawczego.

Sandbox to nie alternatywa dla innych zabezpieczeń – to dodatkowa warstwa. Najlepszą ochronę uzyskujesz, łącząc sandboxing z kontrolą dostępu, oznaczaniem treści zewnętrznych i wyborem odpornego modelu.

Dwa podejścia do izolacji: lokalne kontenery vs chmura
Jak działa sandboxing w OpenClaw
Czego sandbox NIE chroni
Cloudflare Workers: izolacja w chmurze
Kiedy które rozwiązanie?
Praktyczne wdrożenie sandboxa w OpenClaw
Podsumowanie serii: wielowarstwowa obrona w praktyce

Dwa podejścia do izolacji: lokalne kontenery vs chmura

Na rynku wyłoniły się dwa główne podejścia do sandboxingu dla AI: lokalne kontenery Docker (stosowane przez OpenClaw) i serverless w chmurze (oferowane przez Cloudflare i podobne platformy).

OpenClaw: Docker na twoim serwerze. Agent działa w kontenerze Docker, który możesz uruchomić na własnym sprzęcie – od Raspberry Pi po serwer w serwerowni. Kontener ma ograniczony dostęp do systemu plików, sieci i zasobów hosta. Ty kontrolujesz, gdzie działają dane i kod.

Cloudflare Workers AI: serverless w chmurze. Agent działa na infrastrukturze Cloudflare, w izolowanych środowiskach wykonawczych rozproszonych globalnie. Nie musisz zarządzać serwerami, ale dane przetwarzane są na infrastrukturze zewnętrznej.

Porównanie podejść do sandboxingu AI

Aspekt	OpenClaw (Docker)	Cloudflare Workers AI
Gdzie działają dane	Na twoim serwerze	W chmurze Cloudflare
Kontrola infrastruktury	Pełna	Brak (zarządzane)
Koszty początkowe	Sprzęt + konfiguracja	Brak
Koszty operacyjne	Prąd + utrzymanie	Pay-per-use
Zgodność RODO	Dane w Polsce/UE	Zależy od konfiguracji
Latencja	Lokalna (niska)	Edge (niska globalnie)
Dostęp do lokalnych zasobów	Tak (konfigurowalne)	Nie

Dla polskich firm, szczególnie tych przetwarzających dane osobowe, lokalizacja danych jest często kluczowa. OpenClaw pozwala trzymać wszystko na własnym serwerze w Polsce. Cloudflare oferuje globalną skalę, ale wymaga zaufania do zewnętrznego dostawcy.

Prywatny asystent AI z izolacją

Jak działa sandboxing w OpenClaw

OpenClaw oferuje trzy tryby sandboxingu, które możesz dostosować do potrzeb.

Tryb "off" – sandboxing wyłączony. Agent działa bezpośrednio na hoście, z pełnym dostępem do systemu. To tryb dla zaufanych środowisk, gdzie priorytetem jest wydajność i pełna funkcjonalność.

Tryb "non-main" – sandboxowane są tylko sesje grupowe i publiczne. Twoja główna sesja (osobisty asystent) działa bez ograniczeń, ale gdy agent odpowiada na grupowym czacie lub obsługuje zewnętrznych użytkowników, uruchamia się w kontenerze.

Tryb "all" – każda sesja działa w sandboxie. Maksymalne bezpieczeństwo, ale z ograniczeniami w dostępie do lokalnych zasobów.

Dodatkowo możesz kontrolować, jak sandbox widzi twoje pliki.

Tryby dostępu do workspace w sandboxie

Ustawienie	Co widzi agent	Kiedy używać
none (domyślne)	Tylko katalog sandbox	Maksymalna izolacja
ro (read-only)	Workspace tylko do odczytu	Agent może czytać, nie może modyfikować
rw (read-write)	Pełny dostęp do workspace	Gdy agent musi zapisywać pliki

Czego sandbox NIE chroni

Sandbox to potężne narzędzie, ale nie jest magicznym rozwiązaniem wszystkich problemów. Warto rozumieć jego ograniczenia.

Sandbox nie chroni przed wyciekiem przez API. Jeśli agent ma dostęp do zewnętrznych API (np. wysyłanie e-maili, dostęp do CRM), sandbox nie blokuje tych połączeń. Agent może wysłać poufne dane przez dozwolone kanały komunikacji.

Sandbox nie chroni przed złymi decyzjami. Jeśli agent ma uprawnienia do wykonania jakiejś akcji, sandbox nie ocenia, czy ta akcja jest "dobra". Agent może wysłać obraźliwą wiadomość do klienta – sandbox tego nie zablokuje, bo wysyłanie wiadomości jest dozwolone.

Sandbox nie naprawia słabych modeli. Jeśli używasz modelu podatnego na manipulację, sandbox ogranicza skutki, ale nie eliminuje problemu. Lepszy model + sandbox to lepsza kombinacja niż słaby model + sandbox.

Praktyczna zasada: sandbox chroni przed przypadkowymi lub złośliwymi akcjami w systemie plików i terminalu. Nie chroni przed akcjami wykonywanymi przez autoryzowane narzędzia (e-mail, API, komunikatory). Te wymagają osobnej kontroli – polityki narzędzi i limitów uprawnień.

Cloudflare Workers: izolacja w chmurze

Cloudflare oferuje inne podejście do izolacji. Workers AI uruchamia modele na globalnej sieci Cloudflare, w środowiskach V8 isolates – tej samej technologii, która izoluje karty w przeglądarce Chrome.

Zalety podejścia chmurowego:

Brak zarządzania infrastrukturą – nie musisz konfigurować Dockera, aktualizować systemu, martwić się o backup. Cloudflare zajmuje się wszystkim. Płacisz za użycie, nie za idle.

Globalna skala i niska latencja – Workers działają na edge, blisko użytkowników. Dla aplikacji obsługujących klientów z różnych krajów to istotna zaleta.

AI Gateway jako warstwa kontroli – Cloudflare oferuje AI Gateway z funkcjami takimi jak caching, rate limiting, fallback między modelami i szczegółowe logowanie. To przydatne narzędzia do kontroli kosztów i monitorowania.

Ograniczenia podejścia chmurowego:

Dane przetwarzane są poza twoją infrastrukturą – dla niektórych firm i branż to dyskwalifikujące. Dane osobowe klientów, tajemnice handlowe, dokumenty prawne – nie wszystko chcesz wysyłać do zewnętrznego dostawcy.

Brak dostępu do lokalnych zasobów – Worker nie może czytać plików z twojego serwera, łączyć się z lokalną bazą danych ani wykonywać poleceń systemowych. To zaleta z perspektywy bezpieczeństwa, ale ograniczenie funkcjonalne.

Zależność od dostawcy – jeśli Cloudflare zmieni cennik, warunki lub przestanie oferować usługę, musisz szybko znaleźć alternatywę.

Kiedy które rozwiązanie?

Wybór między lokalnym sandboxem a chmurą zależy od twoich priorytetów.

Wybierz OpenClaw (lokalne kontenery) gdy:

Przetwarzasz dane osobowe i zależy ci na lokalizacji danych w Polsce/UE
Agent potrzebuje dostępu do lokalnych plików, baz danych, systemów
Chcesz pełnej kontroli nad infrastrukturą i kosztami
Działasz w branży regulowanej (finanse, zdrowie, prawo)

Wybierz Cloudflare Workers AI gdy:

Budujesz aplikację SaaS dla globalnych użytkowników
Nie przetwarzasz wrażliwych danych wymagających lokalizacji
Priorytetem jest szybkie wdrożenie bez zarządzania infrastrukturą
Potrzebujesz globalnej skali i niskiej latencji

Rozważ podejście hybrydowe:

Wrażliwe przetwarzanie (dokumenty, dane osobowe) → lokalny sandbox
Publiczne interfejsy (chatbot na stronie) → chmura z rate limitingiem
Integracje z zewnętrznymi API → AI Gateway dla kontroli i monitoringu

Praktyczne wdrożenie sandboxa w OpenClaw

Jeśli zdecydujesz się na lokalne kontenery, oto podstawowa konfiguracja.

Włączenie sandboxa dla wszystkich sesji wymaga dodania do konfiguracji:

json

{
  "sandbox": {
    "mode": "all"
  }
}

Dla bardziej granularnej kontroli możesz sandboxować tylko sesje grupowe:

json

{
  "sandbox": {
    "mode": "non-main"
  }
}

Kontrola dostępu do workspace:

json

{
  "sandbox": {
    "mode": "all",
    "workspace": "ro"
  }
}

Więcej o konfiguracji przeczytasz w artykule Czym jest OpenClaw? oraz w oficjalnej dokumentacji.

Podsumowanie serii: wielowarstwowa obrona w praktyce

Przez pięć wpisów tej serii zbudowaliśmy kompletny obraz bezpieczeństwa agentów AI.

Prompt injection to fundamentalne zagrożenie – zewnętrzne treści mogą zawierać ukryte instrukcje manipulujące agentem. Nie ma prostego rozwiązania, ale są skuteczne mechanizmy obronne.

Obrona w głębokości łączy kontrolę dostępu, kontrolę zakresu i projektowanie pod porażkę. Każda warstwa może zawieść, ale razem znacząco zmniejszają ryzyko.

Wybór modelu to decyzja bezpieczeństwa. Silniejsze modele (Claude Opus, Codex 5.3) lepiej rozpoznają próby manipulacji. Tańszy model może okazać się droższy, gdy liczymy koszty incydentów.

Przetwarzanie dokumentów zewnętrznych wymaga szczególnej ostrożności. Oznaczanie treści jako niezaufanych i wzorzec reader agent chronią przed atakami osadzonymi w plikach od kontrahentów.

Sandboxing zamyka całość – izoluje środowisko agenta, żeby nawet udany atak nie mógł wyrządzić szkód poza piaskownicą.

Żadna pojedyncza warstwa nie jest wystarczająca. Razem tworzą system, który znacząco podnosi poprzeczkę dla atakujących i ogranicza skutki ewentualnych incydentów.

To był ostatni wpis z serii „AI i bezpieczeństwo". Dziękujemy za lekturę! Jeśli masz pytania lub chcesz podzielić się doświadczeniami z wdrażania bezpiecznych agentów AI, napisz do nas.

Prywatny asystent AI z izolacją