Agent AI bez sandboxa to jak pracownik z kluczami do wszystkich szaf, hasłami do wszystkich systemów i pełną autonomią działania. Brzmi jak przepis na katastrofę? Bo nim jest.
W poprzednim wpisie opisałem trzy warunki, które czynią agenta AI wektorem ataku. Teraz pokażę, jak się przed tym bronić – przez trzy warstwy zabezpieczeń.
- Warstwa 1: Izolacja (sandbox)
- Warstwa 2: Minimalne uprawnienia
- Warstwa 3: Ludzki nadzór
- Jak to wygląda w praktyce
- Checklist dla twojego agenta
Warstwa 1: Izolacja (sandbox)
Sandbox to odizolowane środowisko, w którym agent może działać bez ryzyka wyrządzenia szkód w głównym systemie. Jeśli coś pójdzie nie tak, szkody są ograniczone do tego jednego kontenera.
Co to oznacza w praktyce?
- Agent nie widzi całego systemu plików – tylko dedykowany folder
- Agent nie ma dostępu do sieci poza zdefiniowanymi endpointami
- Agent nie może instalować oprogramowania ani modyfikować systemu
- Każda sesja zaczyna się od czystego stanu
Dobry sandbox to taki, w którym nawet jeśli agent zostanie przejęty przez atakującego, może wyrządzić minimalne szkody. Atakujący kontroluje agenta – ale agent nie kontroluje niczego wartościowego.
Przykład: Agent przetwarzający dokumenty od kontrahentów powinien działać w izolowanym kontenerze Docker. Nawet jeśli dokument zawiera złośliwe instrukcje i agent je wykona, nie ma dostępu do głównej bazy danych, nie może wysłać maili, nie widzi innych plików.
Warstwa 2: Minimalne uprawnienia
Zasada najmniejszych uprawnień (principle of least privilege) to fundament bezpieczeństwa informatycznego. Dla agentów AI jest jeszcze ważniejsza niż dla ludzi.
Dlaczego? Bo agent może zostać zmanipulowany przez zewnętrzne treści. Im więcej może zrobić, tym więcej może zrobić źle.
| Agent | Potrzebuje | NIE potrzebuje |
| Obsługa formularzy | Odczyt bieżącego formularza | Dostęp do całego CRM |
| Analiza dokumentów | Odczyt przesłanego pliku | Dostęp do systemu plików |
| Asystent kalendarza | Odczyt/zapis kalendarza | Dostęp do e-maili |
| Chatbot sprzedażowy | Odczyt cennika | Możliwość zmiany cen |
Kluczowe pytanie: Czy mój agent naprawdę potrzebuje tego uprawnienia, czy dałem mu je "na wszelki wypadek"?
Każde nadmiarowe uprawnienie to dodatkowa powierzchnia ataku. Agent, który może tylko czytać, nie może niczego usunąć ani wysłać.
Warstwa 3: Ludzki nadzór
Human-in-the-loop to mechanizm, w którym krytyczne akcje wymagają zatwierdzenia człowieka. Agent przygotowuje – człowiek zatwierdza.
Które akcje powinny wymagać zatwierdzenia?
- Wysyłanie komunikacji na zewnątrz (e-maile, wiadomości)
- Modyfikacja danych w CRM lub bazie
- Operacje finansowe (faktury, płatności)
- Usuwanie czegokolwiek
- Dostęp do nowych zbiorów danych
Uwaga na dialog fatigue! Jeśli użytkownik musi zatwierdzać 50 akcji dziennie, zacznie klikać OK bez patrzenia. Wybierz mądrze, które akcje naprawdę wymagają nadzoru.
Jak zaprojektować dobre potwierdzenie:
- Pokaż jasno, co agent chce zrobić ("Wysłać e-mail do jan.kowalski@firma.pl")
- Pokaż treść, nie tylko akcję ("Treść e-maila: ...")
- Daj opcję edycji, nie tylko OK/Anuluj
- Loguj każdą decyzję (kto zatwierdził, kiedy)
Jak to wygląda w praktyce
Platformy takie jak OpenClaw implementują te trzy warstwy domyślnie:
Izolacja: Każdy agent działa w osobnym kontenerze Docker. Sandbox ogranicza dostęp do sieci tylko do skonfigurowanych endpointów.
Uprawnienia: System narzędzi wymaga jawnej konfiguracji. Agent nie ma dostępu do niczego, czego mu nie dasz. Każde narzędzie ma zdefiniowany zakres działania.
Nadzór: Gateway loguje każdą interakcję. Krytyczne akcje mogą wymagać zatwierdzenia przez użytkownika przed wykonaniem.
| Warstwa | Chroni przed | Implementacja |
| Izolacja | Rozprzestrzenianiem się ataku | Docker, piaskownica, ograniczony filesystem |
| Uprawnienia | Nadużyciem możliwości | Jawna konfiguracja narzędzi, read-only gdzie możliwe |
| Nadzór | Nieautoryzowanymi akcjami | Human-in-the-loop dla krytycznych operacji |
Checklist dla twojego agenta
Zanim wdrożysz agenta AI, przejdź przez tę listę:
Izolacja:
- Agent działa w odizolowanym środowisku (kontener, VM, sandbox)
- Nie ma dostępu do głównego systemu plików
- Ma ograniczony dostęp do sieci (allowlist, nie blocklist)
Uprawnienia:
- Każde uprawnienie jest jawnie skonfigurowane
- Agent ma tylko uprawnienia niezbędne do zadania
- Gdzie możliwe, uprawnienia są tylko do odczytu
Nadzór:
- Krytyczne akcje wymagają zatwierdzenia człowieka
- Wszystkie interakcje są logowane
- Istnieje możliwość audytu "co agent zrobił i dlaczego"
Jeśli nie możesz zaznaczyć wszystkich punktów – wróć do planowania. Każda pominięta warstwa to potencjalna luka bezpieczeństwa.
To drugi wpis z serii o bezpieczeństwie agentów AI. W następnym wpisie wyjaśnię, dlaczego popularna idea "AI sprawdzi AI" nie działa jako zabezpieczenie.

