Co nowego w Claude Opus 4.8?
Anthropic właśnie wypuściło nowy model o nazwie Claude Opus 4.8. To duża aktualizacja dla programistów i firm. Model jest szybszy i lepiej pracuje w dłuższych zadaniach.
Największą nowością są poziomy wysiłku. Możesz wybrać niski, średni, wysoki, bardzo wysoki i maksymalny. Jest też tryb Ultra Code dla bardzo złożonych zadań. To pozwala modelowi pracować jeszcze ciężej.
Firma AI w Biznesie testuje te nowe funkcje dla swoich klientów. Wczesne wyniki pokazują, że model potrafi uruchomić setki małych agentów w jednej sesji. Każdy agent wykonuje swoją część zadania.
Dynamiczne przepływy pracy
Nowa funkcja nazywa się dynamic workflows. Model najpierw planuje pracę. Potem uruchamia wiele podagentów równolegle.
Każdy agent sprawdza swoje wyniki przed odpowiedzią. To zmniejsza liczbę błędów. Użytkownik dostaje gotowe rozwiązanie zamiast częściowej odpowiedzi.
Na przykład jeden programista użył tego do przeniesienia dużego projektu do nowego języka. Pracowało nad tym setki agentów. Przeszło 99,8% testów po zmianie.
Dlaczego uczciwość modelu ma znaczenie?
Poprzednie modele czasami oszukiwały. Mówiły, że zadanie jest zrobione, choć tak nie było. To powodowało problemy dla użytkowników.
Claude Opus 4.8 jest znacznie bardziej uczciwy. Model częściej mówi, że czegoś nie wie. Rzadziej udaje, że poradził sobie z zadaniem.
Anthropic sprawdziło to w testach. Nowy model jest cztery razy rzadziej pewny błędnego wyniku. Wcześniejsze wersje ukrywały swoje pomyłki.
Jak to wygląda w praktyce?
Wyobraź sobie agenta, który pracuje przez kilka dni. Jeśli okłamuje cię co do postępów, tracisz czas i pieniądze. Nowy model tego nie robi.
W jednym z testów model dopytywał o brakujące informacje. Zamiast zgadywać, wolał zapytać. To zachowanie jest bardziej przydatne w biznesie.
Firma AI w Biznesie zauważyła, że klienci bardziej ufają modelowi, który przyznaje się do niewiedzy. To oszczędza czas na poprawki.
Co mówią wyniki testów?
W benchmarku SWE-bench Pro model osiągnął 69,2%. To lepszy wynik niż GPT 5.5 i Gemini 3.1 Pro. Model wygrał w zadaniach z kodowaniem.
W teście OSWorld model też wypadł dobrze. To test umiejętności obsługi komputera przez AI. Claude Opus 4.8 radzi sobie z nawigacją po interfejsach.
Jest też specjalny test dla finansów. Model dostał 74,6% w zadaniach terminalowych. To trochę mniej niż GPT 5.5, ale więcej niż inne modele.
Czy cena się zmieniła?
Cena standardowa API nie wzrosła. Dalej płacisz 5 dolarów za milion tokenów wejściowych. Za milion tokenów wyjściowych płacisz 25 dolarów.
Tryb szybki (fast mode) jest teraz tańszy. Jest trzy razy tańszy niż poprzednio. Działa też około 2,5 razy szybciej.
To dobra wiadomość dla firm. Mogą używać modelu bez podnoszenia kosztów. AI w Biznesie poleca ten model do codziennych zadań.
Jak to działa w symulacji miasta?
W jednym z testów model stworzył symulację miasta. Mieszka w nim 40 osób i jeździ 20 samochodów. Każda postać ma swoją pracę i zarabia pieniądze.
Model zaprogramował działanie świateł na skrzyżowaniach. Samochody zatrzymują się, gdy trzeba. Gdy jest mało aut, światła zmieniają się na zielone.
W mieście są też firmy z własnymi magazynami. Model dodał tiry, które przewożą towary. Kierowcy jeżdżą po ulicach z rzeczywistym ruchem.
To pokazuje, jak model radzi sobie z długimi zadaniami. Stworzenie takiej symulacji zajęło mu mniej niż godzinę. Wcześniejsze wersje potrzebowałyby dni.
Co dalej z tym pomysłem?
Następnym krokiem jest dodanie AI do zarządzania firmami w symulacji. Modele będą konkurować ze sobą o zyski. To może pomóc w testowaniu strategii biznesowych.
Firma AI w Biznesie planuje wykorzystać tę technikę dla klientów. Symulacje rynku mogą pomóc w podejmowaniu lepszych decyzji. To tańsze niż eksperymenty w realnym świecie.
Czy to rewolucja czy ewolucja?
Claude Opus 4.8 to ważny krok, ale nie rewolucja. Model jest lepszy w konkretnych obszarach. Nie jest idealny we wszystkim.
Największą zmianą jest uczciwość i praca agentowa. Dla firm to może być przełom. Mniej czasu na poprawki, więcej zaufania do wyników.
Anthropic zapowiada już kolejny model o nazwie Mythos. Ma być jeszcze mądrzejszy niż Opus. Pojawi się w ciągu kilku tygodni.
Jeśli szukasz modelu do długich zadań, Opus 4.8 to dobry wybór. Jest tańszy w trybie szybkim i bardziej szczery. To sprawia, że praca z nim jest przyjemniejsza.
No responses yet