Context Window w Claude Code: Zarządzanie pamięcią AI w długich sesjach

Pracujesz nad złożoną funkcją przez dwie godziny. Claude Code początkowo rozumiał kontekst doskonale, ale teraz zaczyna zapominać wcześniejsze ustalenia. Co poszło nie tak? Odpowiedź: context window się wypełnił.

Czym jest context window?
Co zajmuje miejsce w kontekście?
Co się dzieje gdy kontekst się przepełnia?
Jak monitorować zużycie kontekstu?
Strategie zarządzania kontekstem
Subagenci jako izolacja kontekstu

Czym jest context window?

Context window to pamięć robocza Claude Code – wszystko, co AI widzi podczas sesji. Obejmuje całą konwersację, każdy odczytany plik, każdy wynik polecenia terminalowego, zawartość pliku CLAUDE.md i załadowane Skills.

Krytyczny fakt: Wydajność modeli językowych spada wraz z wypełnianiem kontekstu. Gdy context window zbliża się do limitu, Claude może zacząć ignorować wcześniejsze instrukcje lub popełniać więcej błędów. To najważniejszy zasób, którym musisz zarządzać.

Rozmiar context window zależy od modelu. Claude Sonnet 4.6 i Opus 4.6 oferują okno 200 000 tokenów, co odpowiada mniej więcej 500 stronom tekstu. Brzmi dużo? W praktyce pojedyncza sesja debugowania może zużyć dziesiątki tysięcy tokenów w ciągu minut.

Tokenów nie da się odzyskać. Każda wiadomość, każdy odczytany plik, każdy wynik komendy jest dodawany do kontekstu i pozostaje tam do końca sesji lub kompaktowania. Planuj z wyprzedzeniem.

Optymalizuj pracę z AI w swojej firmie

Co zajmuje miejsce w kontekście?

Kontekst wypełnia się szybciej niż myślisz. Oto typowe źródła zużycia tokenów:

Źródła zużycia kontekstu

Źródło	Typowe zużycie	Przykład
Twoje wiadomości	50-500 tokenów	Każde polecenie lub pytanie
Odpowiedzi Claude	200-2000 tokenów	Wyjaśnienia, propozycje zmian
Odczyt pliku	500-5000 tokenów	Każdy plik źródłowy
Wynik komendy	100-10000 tokenów	npm test, git log, ls -la
CLAUDE.md	200-2000 tokenów	Ładowany na starcie każdej sesji
Serwery MCP	500-3000 tokenów	Definicje narzędzi każdego serwera

Zauważ, że serwery MCP dodają swoje definicje do każdego requestu – nawet gdy ich nie używasz. Kilka serwerów może zużyć znaczną część kontekstu zanim zaczniesz właściwą pracę.

Co się dzieje gdy kontekst się przepełnia?

Claude Code zarządza kontekstem automatycznie przez mechanizm auto-compaction. Gdy zbliżasz się do limitu:

Najpierw usuwane są starsze wyniki narzędzi (komendy, odczyty plików)
Następnie historia konwersacji jest podsumowywana
Twoje najważniejsze zapytania i kluczowe fragmenty kodu są zachowywane
Szczegółowe instrukcje z początku konwersacji mogą zostać utracone

To jest problem. Jeśli na początku sesji powiedziałeś Claude, że ma używać określonego stylu kodu lub unikać pewnych wzorców – te instrukcje mogą zniknąć podczas kompaktowania.

Rozwiązanie: Trwałe instrukcje umieszczaj w pliku CLAUDE.md, nie w konwersacji. CLAUDE.md jest ładowany przy każdej sesji i chroniony podczas kompaktowania.

Jak monitorować zużycie kontekstu?

Claude Code oferuje kilka narzędzi do śledzenia stanu kontekstu:

Komenda /context – pokazuje szczegółowy rozkład zużycia:

Ile tokenów zajmuje historia konwersacji
Ile zużywają serwery MCP
Ile pozostało wolnego miejsca

Komenda /cost – dla użytkowników API pokazuje szczegółowe statystyki tokenów i kosztów bieżącej sesji.

Status line – możesz skonfigurować pasek stanu, aby ciągle wyświetlał procent zużycia kontekstu. To najbardziej przydatne podejście dla długich sesji.

Uruchom /context regularnie, szczególnie gdy zauważysz, że Claude zaczyna zapominać wcześniejsze ustalenia lub odpowiada mniej precyzyjnie.

Strategie zarządzania kontekstem

1. Czyść kontekst między zadaniami

Komenda /clear rozpoczyna świeżą sesję. Używaj jej gdy przechodzisz do niepowiązanego zadania. Stary kontekst tylko marnuje tokeny.

2. Kontroluj kompaktowanie

Komenda /compact z fokusem mówi Claude, co zachować. Możesz napisać: /compact Focus on API changes and test cases

Możesz też dodać sekcję Compact instructions w CLAUDE.md.

3. Przenieś instrukcje z CLAUDE.md do Skills

Plik CLAUDE.md jest ładowany przy każdej sesji. Jeśli zawiera szczegółowe instrukcje dla specyficznych workflow (np. tworzenie PR, migracje bazy danych), te tokeny są zużywane nawet gdy robisz coś zupełnie innego.

Skills ładują się na żądanie – tylko gdy są wywoływane. Przenosząc specjalistyczne instrukcje do Skills, zmniejszasz bazowy rozmiar kontekstu.

Cel: CLAUDE.md poniżej 500 linii, zawierający tylko esencję.

4. Wyłącz nieużywane serwery MCP

Każdy serwer MCP dodaje definicje narzędzi do kontekstu. Uruchom /mcp aby zobaczyć skonfigurowane serwery i wyłącz te, których aktualnie nie używasz.

Porównanie: CLI vs MCP

Aspekt	CLI tools (gh, aws)	Serwery MCP
Zużycie kontekstu	Tylko wynik komendy	Definicje + wynik
Kiedy preferować	Pojedyncze operacje	Złożone interakcje
Przykład	gh pr list	GitHub MCP Server

5. Pisz precyzyjne polecenia

Ogólne polecenia typu popraw ten codebase wymuszają szerokie skanowanie. Precyzyjne polecenia typu dodaj walidację inputu do funkcji login w auth.ts pozwalają Claude pracować efektywnie z minimalnym odczytem plików.

Subagenci jako izolacja kontekstu

Subagenci działają we własnym, oddzielnym kontekście. Ich praca nie obciąża twojego głównego okna konwersacji.

To idealne rozwiązanie dla operacji generujących dużo outputu:

Uruchamianie testów (tysiące linii logów)
Pobieranie dokumentacji
Przetwarzanie dużych plików logów
Eksploracja nieznanych części codebase

Subagent przetwarza verbose output w swoim kontekście, a do twojej głównej sesji wraca tylko podsumowanie. Zamiast 10 000 tokenów z logów testowych, otrzymujesz 200-tokenowe podsumowanie: 3 testy failed w module auth, szczegóły w pliku X.

Pro tip: Dla długich sesji regularnie deleguj ciężkie operacje do subagentów. Twój główny kontekst pozostaje czysty, a ty zachowujesz pełną historię konwersacji na temat architektury i decyzji.