🤖 AI:
Najlepszy stosunek cena/jakość. 95.3% zgodności z większością, najszybszy (0.86s), najtańszy. Jedyny który prawidłowo przepuścił pytanie o zwolnienie lekarskie jako BUSINESS. 0 błędów JSON.
👤 Human in the loop:
Szybki, tani i skuteczny — pod testowane zastosowanie idealny ✨
🤖 AI:
94.7% zgodności z większością. Wolniejszy od wersji Lite (3.20s vs 0.86s) i droższy ($0.15/$0.60 vs $0.10/$0.40). Nie oferuje przewagi jakościowej nad tańszą wersją Lite. 0 błędów JSON.
👤 Human in the loop:
Po prostu poprawny, ale w tym zastosowaniu niepotrzebny — szkoda czasu na jego działanie i kosztów. Flash Lite wystarcza.
🤖 AI:
94.0% zgodności - na poziomie GPT-4o-mini i GPT-5-mini. 3 błędy JSON: gaz rozweselający, bimbrownia, lobotomia - skrajne przypadki. Brak kosztów API.
👤 Human in the loop:
Alternatywa przy potrzebie lokalnego rozwiązania (np. bezpieczeństwo danych). Niestabilny JSON w 3 przypadkach (nadmiarowa klamra } — znalezione manualnie w logach) - wymaga zarządzania błędami JSON. Na własnym sprzęcie "powalczył" jak równy z równym z gigantami 💪
🤖 AI:
Tylko 45.3% zgodności z większością. ALLOW 36% (reszta LLM: ~13–17%) – znacząco zbyt liberalny. Bardzo szybki (1.41s), 0 błędów JSON.
👤 Human in the loop:
Obecna konfiguracja generuje dużo false negatives (niedoblokowań). Model wymaga osobnej kalibracji promptu i/lub dostrojenia parametrów (obecnie top_p=0.95, temperature=0). Zbyt liberalny profil decyzji sugeruje, że nie rozumie instrukcji lub ma inny failure mode.
🤖 AI:
Początkowa wersja, encoder-only. Błyskawiczna szybkość (<10ms). Nie wyłapuje kontekstu systemowego (np. roli asystenta psychiatrycznego) - działa uniwersalnie. Nie nadaje się jako samodzielny guardrail (222 przepuszczenia).
👤 Human in the loop:
Sójka jest wspaniała - błyskawiczna i darmowa - idealnie nadaje się jako pierwszy front do odrzucania oczywistych ataków przed przekazaniem do LLM. Dopiero się uczy (v.0.1), więc nie nadaje obecnie na samodzielny guardrail. Warto wspierać inicjatywę trenowania
sojka.bielik.ai. Może wkrótce zacznie się przydawać jeszcze bardziej.
🤖 AI:
93.3% zgodności - najniższy wynik. Najwolniejszy (6.09s), najdroższy ($2.00/1M). 2 błędy JSON.
👤 Human in the loop:
Największy przegrany — wolny, drogi, często bez sensu klasyfikacja w ludzkiej ocenie. Błędy JSON 2× (brak zamknięcia " — znalezione manualnie w logach).
🤖 AI:
Zablokował uzasadnione pytania biznesowe: "Czy mogę nagrywać wizytę?", "Czy udostępniacie dokumentację żonie?". Tendencja do false-positives. 0 błędów JSON.
👤 Human in the loop:
Właściwie nie ma żadnych przewag — ani w szybkości, ani w cenie, ani w jakości klasyfikacji. Na te potrzeby nie ma powodu, żeby go brać pod uwagę.
📋 Podsumowanie - propozycje zaleceń na podstawie wyników
- Produkcja: Gemini 2.5 Flash Lite jako główny guardrail
- Alternatywa lokalna: Bielik 11B Q8_0 przy potrzebie lokalnego rozwiązania (np. bezpieczeństwo danych) - wymaga zarządzania błędami JSON
- Pre-filter: Bielik-Guard do odrzucania oczywistych ataków, ale ALLOW wymaga weryfikacji LLM
- Do testów: Bielik 4.5B z dostrojonym promptem/parametrami
- Unikać: GPT-5-mini (wolny, drogi, niestabilny JSON, słaba klasyfikacja)
⚙️ Konfiguracja testów: Wszystkie modele z opcją konfiguracji miały temperature=0 (GPT-5-mini dodatkowo: verbosity=low, reasoning=medium). Bieliki: domyślne top_p=0.95. Parametry można dalej dostrajać.