Więcej, szybciej, po polsku. Rodzina modeli PLLuM się powiększa

Urzędy

Więcej, szybciej, po polsku. Rodzina modeli PLLuM się powiększa

piątek, 22 maja 2026 roku
Informacja - Ministerstwo Cyfryzacji

Udostępniamy 11 nowych modeli PLLuM – polskich, otwartych modeli językowych zaprojektowanych z myślą o administracji publicznej, biznesie i użytkownikach indywidualnych. Modele rozumieją język urzędowy, obsługują ponad 20 gatunków tekstów administracyjnych i działają na otwartych licencjach zgodnych z wymogami AI Act. To największa porcja modeli PLLuM uwolniona na w pełni otwartych licencjach.

Więcej, szybciej, po polsku. Rodzina modeli PLLuM się powiększa

– PLLuM odnajduje się w polskim kontekście prawnym i kulturowym, precyzyjniej niż modele zagraniczne. Jest otwarty i dostępny dla wszystkich. Już dzisiaj znajduje zastosowanie w sprawa urzędowych, rozmowach w mObywatelu, a także w wielu firmach i jednostkach badawczych. Dzisiaj rozwijamy rodzinę modeli, za co dziękuję całemu konsorcjum HIVE – powiedział wiceminister cyfryzacji Dariusz Standerski.

Co wyróżnia nowe modele PLLuM?

Lepsza znajomość języka polskiego – zarówno w codziennej, jak i urzędowej formie, wraz z polskim kontekstem kulturowym, historycznym i prawnym.
Lepsze przystosowanie do pracy w administracji publicznej. Modele potrafią m.in.:

generować teksty w ponad 20 gatunkach urzędowych,
wspierać zadania biurowe i operacyjne,
rozumieć kontekst procedur administracyjnych,
upraszczać język urzędowy,
pracować na wzorach dokumentów prawnych.

Lepsze działanie w systemach opartych na RAG.
Bezpieczniejsze odpowiedzi – na podstawie analizy rzeczywistych interakcji użytkowników w PLLuM Chat.

– Chcemy, żeby PLLuM był coraz lepszy i znajdował zastosowanie w kolejnych miejscach. Zbudowaliśmy nie tylko modele językowe, ale i unikalne kompetencje w polskim ekosystemie AI – mówi dyrektor Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK Szymon Łukasik.

Cztery kategorie wagowe

Nowa rodzina PLLuM obejmuje cztery rozmiary modeli, dopasowane do różnych potrzeb i możliwości technicznych:

4B – najmniejszy i najszybszy, działa nawet przy ograniczonej mocy obliczeniowej, najlepiej sprawdza się po dostosowaniu do konkretnego zadania.
8B i 12B – dobry kompromis między szybkością a jakością, polecane do wdrożeń produkcyjnych, np. jako silnik w systemach RAG.
70B – największy model, najlepiej radzi sobie ze złożonymi zadaniami, bez konieczności dodatkowego dostosowania.

Modele 4B, 8B i 12B dostępne są w trzech wariantach: bazowym (do eksperymentów i dostrajania), instrukcyjnym (do konkretnych zadań) i dialogowym (z zabezpieczeniami przed szkodliwymi treściami). Model 70B dostępny jest w wariantach instrukcyjnym i dialogowym.

Wszystkie modele opublikowano na otwartych licencjach z pełną dokumentacją zgodną z AI Act – obejmuje ona opis modeli, źródła danych oraz metody treningu i oceny jakości.

Jak trenowano modele

Modele powstały w ramach projektu HIVE AI, zrealizowanego w 2025 roku przez konsorcjum pod kierownictwem NASK, z udziałem ACK Cyfronet AGH, Instytutu Podstaw Informatyki PAN, OPI PIB, Instytutu Slawistyki PAN, Uniwersytetu Łódzkiego i Politechniki Wrocławskiej.

Zbiór danych treningowych objął około 7 milionów tekstów w języku polskim – wyselekcjonowanych pod kątem jakości, legalności i transparentności źródeł. Dane pochodziły z umów licencyjnych, domeny publicznej (m.in. Monitor Polski, Dziennik Ustaw, stenogramy parlamentarne) oraz zasobów na licencjach Creative Commons.

Pretrening zaprojektowano w paradygmacie curriculum learning – model uczył się stopniowo, przechodząc od danych prostszych do bardziej złożonych. Na potrzeby dostrajania opracowano ok. 17,5 tys. nowych instrukcji organicznych, w tym ponad 6 tys. dialogów wieloturowych. Łącznie, wraz z danymi z projektu PLLuM z 2024 roku, wykorzystano ok. 80 tys. ręcznie tworzonych instrukcji.

Dowiedz się więcej o PLLuM (Polish Large Language Model).