fot. Alibaba
Na rynek sztucznej inteligencji wkroczyła nowa siła. Model językowy Qwen3-Max już na starcie prezentuje się jako godny rywal dla GPT-5, Gemini 2.5 Pro i Claude Opus 4.
Qwen3-Max ma ponad bilion parametrów i został wytrenowany na kolosalnej liczbie 36 bilionów tokenów. Aby utrzymać stabilność treningu, inżynierowie Alibaby wdrożyli coś, co określa się mianem „globalnego zrównoważenia obciążenia wsadowego”.
W celu stworzenia modelu o tak potężnej licznie parametrów, wykorzystano architekturę Mixture-of-Experts (MoE). Działa jak inteligentny zespół, w którym tylko właściwi eksperci włączają się w razie potrzeby. Zamiast aktywować całą sieć, uruchamiane są tylko określone podzbiory podczas każdego przejścia.
Globalne równoważenie obciążenia wsadowego sprawia, że krzywa strat pozostaje płynna przez cały proces treningu – bez skoków napięcia, bez konieczności restartowania, bez przetasowań danych. Każdy, kto trenował duże modele, wie, jak rzadko się to zdarza.
Druga innowacja to PAI-FlashMoE – strategia optymalizacji wieloetapowej, przebiegająca równoległe do procesu. Rezultat? O 30% lepsza przepustowość treningu w porównaniu z Qwen2.5-Max-Base. To nie tylko niewielka poprawa, to różnica między miesiącami a tygodniami treningu.
Dzięki temu w rankingu LMArena Qwen3-Max zajmuje trzecie miejsce w klasyfikacji generalnej, wyprzedzając GPT-5-Chat. A to naprawdę imponujący wynik.
Lista nowatorskich rozwiązań zastosowanych w tym modelu obejmuje także strategię ChunkFlow. Jest przeznaczona do obsługi naprawdę długich dokumentów i zapewnia ponad trzykrotnie szybszą przepustowość niż tradycyjny paralelizm sekwencyjny w przypadku długich kontekstów.
Systemy o nazwach SanityCheck i EasyCheckpoint skróciły przestoje spowodowane awariami sprzętu do jednej piątej tego, co miało miejsce w przypadku Qwen2.5-Max. W przypadku obsługi ogromnych klastrów obliczeniowych, tego rodzaju inżynieria niezawodności jest absolutnie niezbędna.
W teście Tau2-Bench, który mierzy, jak dobrze modele faktycznie wykorzystują API i narzędzia zewnętrzne, Qwen3-Max uzyskał 74,8 pkt. Wynik ten przewyższył wyniki Claude Opus 4 i DeepSeek V3.1, co jest zaskakujące.
W innym benchmarku, SWE-Bench Verified, który sprawdza, czy sztuczna inteligencja rzeczywiście rozwiązuje rzeczywiste problemy GitHub i problemy programistyczne, wynik wyniósł 69,6 pkt. To przewyższa Claude Opus 4 i DeepSeek V3.1
Qwen3-Max powstało do obsługi zadań wielojęzycznych, ze szczególnym naciskiem na język angielski i chiński. Ulepszenia są znaczące w zakresie wykonywania poleceń, rozumowania matematycznego i zadań naukowych, a co ważne, program generuje mniej halucynacji niż poprzednie wersje.
Alibaba nie tylko stara się dorównać istniejącym modelom, ale także przesuwa granice technologiczne w określonych obszarach, takich jak przetwarzanie długokontekstowe, wydajność szkolenia i niezawodność systemu. Szczegóły techniczne świadczą o prawdziwej innowacyjności, a nie tylko o ulepszaniu istniejących rozwiązań.
Ale inżynierowie chińskiego giganta e-commerce pracują już nad Qwen3-Max-Thinking. Ma być to wariant skoncentrowany na rozumowaniu i obecnie już jest w fazie wczesnych testów. Pierwsze wyniki pokazują, że model ten uzyskał wynik 100% w testach AIME 25 i HMMT, dwóch najbardziej wymagających testach wnioskowania matematycznego w dziedzinie sztucznej inteligencji.
No dobrze, a co nam z tego? Qwen3-Max-Instruct jest już dostępny za pośrednictwem aplikacji Qwen (iOS/Android) oraz strony internetowej . Domyślnie aplikacja korzysta z Qwen3-Max, ale można ręcznie przełączyć się na inne wersje, aby porównać je z innymi.
Jeśli jesteś osobą, która korzysta od czasu do czasu a AI, otrzymasz kolejny model najwyższej klasy do eksperymentowania, zwłaszcza jeśli potrzebujesz przetwarzania długiego kontekstu lub funkcji wielojęzycznych.
Jeśli jesteś programistą, dostęp do interfejsu API i możliwości techniczne sprawiają, że warto poważnie rozważyć Qwen jako narzędzie do codziennej pracy.
Źródło: GizmoChina
Na stronie mogą występować linki afiliacyjne lub reklamowe.
Jak ważne jest wsparcie aktualizacjami telefonu? Czasami jest to coś, co decyduje o życiu lub…
Kompaktowy telefon z przepotężną baterią oraz z rewelacyjną specyfikacją może jednak zostać anulowany. Mowa tu…
Wydawałoby się, że Apple to synonim dbałości o każdy detal i skrupulatnej kontroli jakości. Tymczasem…
Jeden z najciekawszych głośników do 500 złotych doczekał się w Polsce przyjaznej przeceny. Niejaki Soundcore…
Akcje promocyjne Black Friday od zawsze wzbudzały emocje. I prawidłowo, gdyż nie zawsze czarnopiątkowe "okazje"…
Ogromna awaria Cloudflare sparaliżowała tysiące stron i aplikacji. Początkowo podejrzewano potężny atak DDoS, ale rzeczywista…