Jak ocenić bezpieczeństwo agenta AI przed wdrożeniem – 5 pytań

Jak ocenić bezpieczeństwo agenta AI przed wdrożeniem – 5 pytań

Zanim zapłacisz za agenta AI – albo zanim wdrożysz własne rozwiązanie – zadaj pięć pytań. Odpowiedzi powiedzą ci wszystko o poziomie bezpieczeństwa.

To ostatni wpis z serii o bezpieczeństwie agentów AI. Czas na praktyczną checklistę.

  1. Pytanie 1: Do jakich danych ma dostęp?
  2. Pytanie 2: Jakie zewnętrzne treści przetwarza?
  3. Pytanie 3: Jak może komunikować się na zewnątrz?
  4. Pytanie 4: Jak wygląda izolacja?
  5. Pytanie 5: Kiedy wymaga zatwierdzenia człowieka?
  6. Red flags – odpowiedzi które powinny zapalić lampkę

Pytanie 1: Do jakich danych ma dostęp?

To pytanie o pierwszą nogę triady zagrożeń, którą opisałem w pierwszym wpisie serii.

Co chcesz usłyszeć:

  • Dostęp tylko do danych niezbędnych do zadania
  • Jasna lista uprawnień
  • Możliwość ograniczenia dostępu per projekt/użytkownik

Czerwona flaga:

  • "Ma dostęp do wszystkiego, żeby działał lepiej"
  • Brak jasnej listy uprawnień
  • Niemożność ograniczenia dostępu

Pytanie 2: Jakie zewnętrzne treści przetwarza?

To pytanie o drugą nogę triady – czy agent jest narażony na treści kontrolowane przez potencjalnego atakującego.

Co chcesz usłyszeć:

  • Lista konkretnych źródeł (tylko e-maile od zweryfikowanych nadawców, tylko dokumenty z SharePoint, itp.)
  • Świadomość ryzyka prompt injection
  • Mechanizmy sanityzacji wejścia

Czerwona flaga:

  • "Może przetwarzać cokolwiek"
  • Brak świadomości ryzyka zewnętrznych treści
  • "To nie problem, mamy guardrails"

Jeśli dostawca mówi że guardrails rozwiązują problem prompt injection – to czerwona flaga. Jak opisałem w trzecim wpisie serii, AI-based guardrails nie są wystarczającą ochroną.

Pytanie 3: Jak może komunikować się na zewnątrz?

To pytanie o trzecią nogę triady – kanały eksfiltracji danych.

Co chcesz usłyszeć:

  • Allowlist domen, z którymi agent może się komunikować
  • Brak możliwości dynamicznego generowania URL-i
  • Content Security Policy dla renderowanych odpowiedzi

Czerwona flaga:

  • "Może wywoływać dowolne API"
  • Możliwość generowania linków/obrazków z dowolnych URL-i
  • Brak CSP
Pytania diagnostyczne – podsumowanie
PytanieDobra odpowiedźZła odpowiedź
Dostęp do danychMinimum niezbędne + listaWszystko / nie wiadomo
Zewnętrzne treściKonkretna lista + sanityzacjaCokolwiek / guardrails
Komunikacja zewnętrznaAllowlist + CSPDowolne API / dowolne URL

Pytanie 4: Jak wygląda izolacja?

To pytanie o sandboxing – co się stanie jeśli agent zostanie przejęty.

Co chcesz usłyszeć:

  • Agent działa w izolowanym środowisku (kontener, VM)
  • Ograniczony dostęp do filesystem
  • Ograniczony dostęp do sieci
  • Sesje są izolowane od siebie

Czerwona flaga:

  • Agent działa na głównym serwerze
  • Pełny dostęp do filesystem
  • Brak izolacji między sesjami

Pytanie 5: Kiedy wymaga zatwierdzenia człowieka?

To pytanie o human-in-the-loop, które omówiłem w poprzednim wpisie.

Co chcesz usłyszeć:

  • Lista akcji wymagających zatwierdzenia
  • Możliwość konfiguracji (co wymaga zatwierdzenia)
  • Logowanie wszystkich decyzji
  • Możliwość audytu

Czerwona flaga:

  • "Jest w pełni autonomiczny"
  • Brak możliwości konfiguracji nadzoru
  • Brak logów

Pełna autonomia brzmi jak feature, ale w bezpieczeństwie to bug. Dobre rozwiązania dają ci kontrolę nad poziomem nadzoru.

Red flags – odpowiedzi które powinny zapalić lampkę

Jeśli słyszysz którąkolwiek z tych odpowiedzi, wstrzymaj się z wdrożeniem:

  • "Guardrails rozwiązują problem bezpieczeństwa"
  • "Ma dostęp do wszystkiego, ale to bezpieczne bo..."
  • "Nie mamy przypadków nadużyć" (to znaczy: nie wiemy o nich)
  • "Izolacja spowalnia, więc jej nie używamy"
  • "Ludzki nadzór jest opcjonalny, ale zazwyczaj niepotrzebny"
Checklista przed wdrożeniem
ObszarPytanie
DaneCzy wiem dokładnie do czego ma dostęp?
WejścieCzy wiem jakie zewnętrzne treści przetwarza?
WyjścieCzy wiem jak może komunikować się na zewnątrz?
IzolacjaCzy działa w sandboxie?
NadzórCzy mogę skonfigurować wymagane zatwierdzenia?
AudytCzy wszystko jest logowane?

Jeśli nie możesz zaznaczyć wszystkich punktów – albo wróć do dostawcy z pytaniami, albo poszukaj innego rozwiązania.


To był ostatni wpis z serii o bezpieczeństwie agentów AI. Jeśli chcesz wdrożyć agenta AI w swojej firmie i masz pytania o bezpieczeństwo – skontaktuj się z nami.

Poprzednie wpisy z serii:

Jak ocenić bezpieczeństwo agenta AI przed wdrożeniem – 5 pytań