18 testova, 1.49M vektora, 0% halucinacija - V2 benchmark analiza
10. travnja 2026.
Prošli tjedan smo objavili rezultate prvog benchmarka s 8 testova. Ovaj tjedan smo napravili nešto ambicioznije - proširili benchmark na 18 testova u 10 kategorija, analizirali 1.49 milijuna pravnih vektora u bazi, i otkrili točno gdje sustav pada i zašto.
Sve što slijedi temelji se na stvarnim rezultatima. Nismo ništa zaokruživali naviše niti skrivali slabe rezultate. Kad LexBox dobije 15/100 na testu, to objavljujemo.
Što smo testirali
V2 benchmark je inspiriran akademskim okvirima (LegalBench, LEXam) ali prilagođen hrvatskom pravnom sustavu. 18 testova u 10 kategorija - od zastarnih rokova i nadležnosti sudova do GDPR-a, stečajnog izračuna i provjere halucinacija. Svaki test ima jasne kriterije, očekivane odgovore i rubrike za ocjenjivanje.
Benchmark koristi produkcijski sustav (Qwen 3.5 397B + Voyage-law-2 embeddings + Qdrant vektorska baza s 1.49 milijuna vektora), top_k=12 izvora po upitu, i istu RAG pipeline-u koju koriste pravi korisnici.
Rezultati po kategoriji

| Kategorija | Što testira | Ocjena |
|---|---|---|
| Hallucination Detection | Prepoznaje li izmišljene zakone i presude | 95/100 |
| Self-Correction | Ispravlja li pogrešne pretpostavke korisnika | 90/100 |
| Statutory Interpretation | Tumačenje ZOO, ZTD, kolizije zakona | 87/100 |
| EU-HR Crossover | GDPR video nadzor, potrošačka prava EU | 85/100 |
| Case Analysis | Ratio decidendi, distinguishing slučajeva | 82/100 |
| Multi-step Reasoning | Stečajni izračun, nasljednopravna analiza | 78/100 |
| Citation Accuracy | Točnost citiranja presuda i zakonskih članaka | 55/100 |
| Rule Recall | Zastarni rokovi, nadležnost sudova | 38/100 |
| Procedural Knowledge | ZPP rokovi, pravni lijekovi | 30/100 |
| Comparative Analysis | Usporedba HR i EU regulatornih okvira | 15/100 |
Svih 18 testova - rangirano

Od 18 testova, 10 prolazi s ocjenom iznad 70%. Preostalih 8 pada - ali ne zato što sustav halucinira, nego zato što ili nema podatke u bazi ili ih RAG pretraga ne pronalazi dovoljno precizno.
Najjači rezultat: 0% halucinacija

Dva testa su bila namjerne zamke. Test T15 je tražio objašnjenje nepostojećeg "Zakona o digitalnoj imovini (NN 45/2025)". Test T16 je tražio potvrdu izmišljene presude "Rev-1847/2023-4" s lažnom tvrdnjom o 12 plaća odštete za neosnovani otkaz.
LexBox je na oba odmah odgovorio: "taj zakon ne postoji u izvorima", odnosno "ta presuda nije pronađena". Na testu T16, sustav je čak ispravio lažnu tvrdnju - citirao stvarni čl. 125 Zakona o radu koji propisuje raspon od 3 do 8 plaća, ne 12.
Za kontekst: Stanford HAP studija (2023.) pokazala je da general-purpose LLM-ovi haluciniraju u 28-32% pravnih upita. LexBox: 0%. Sustav radije kaže "ne znam" nego da izmisli odgovor.
Konkretni primjeri
Stečajni izračun (T20 - 80/100)
Složen zadatak: stečajna masa od 500.000 EUR, hipotekarni vjerovnik, neisplaćene plaće radnika, porezna uprava, dva dobavljača, odvjetnički troškovi. LexBox je pravilno poredao isplatne redove prema Stečajnom zakonu, izdvojio razlučnog vjerovnika (banku s hipotekom), prioritizirao radnike i izračunao raspodjelu. Citirao čl. 137 SZ i stvarnu presudu St-466/2022-89.
Self-correction (T25 - 90/100)
Korisnik je postavio pitanje: "Kolega kaže da ugovor o kupoprodaji nekretnine mora biti javnobilježnički akt, inače je ništetan. Je li to točno?" Umjesto da potvrdi krivu pretpostavku, LexBox je ispravio zabludu - citirao čl. 377 ZOO (pisani oblik je dovoljan za valjanost), objasnio razliku između valjanosti ugovora i mogućnosti upisa u zemljišne knjige, i naveo tri relevantne presude.
GDPR video nadzor (T21 - 87/100)
Tvrtka želi postaviti kamere u uredima bez obavijesti zaposlenika. LexBox je citirao čl. 30 st. 1 Zakona o provedbi Opće uredbe o zaštiti podataka (ZPOU), čl. 88 GDPR-a, objasnio obvezu DPIA procjene, identificirao da legitimni interes (ne privola) je pravna osnova, i zaključio da je sustav nezakonit bez prethodne obavijesti.
Distinguishing (T24 - 82/100)
Dva slučaja otkaza - radnik koji psuje šefa na Facebooku vs. radnik koji prijavljuje neisplatu prekovremenih. LexBox je pravilno primijenio test razmjernosti (sloboda izražavanja vs. lojalnost) na prvi slučaj i zaštitu prijavitelja nepravilnosti na drugi. Citirao Zakon o zaštiti prijavitelja nepravilnosti, čl. 10 EKLJP, i VSRH presudu Revd-3290/2024-5.
Zašto 8 testova pada - root cause analiza

Analizirali smo svaki neuspjeli test i identificirali tri uzroka:
1. Retrieval dilution (5 testova)
Ovo je najčešći problem. Podaci postoje u bazi - ZOO, ZPP, Zakon o radu su svi ingestirani sa svih 100.647 zakonskih chunk-ova. Ali kad sustav traži "zastarni rokovi", vektorska pretraga vraća sudsku praksu koja spominje zastaru umjesto samih zakonskih članaka koji je definiraju.
S 1.49 milijuna vektora u bazi, generički upiti se "gube" u moru sličnih rezultata. To je poznati problem u velikim RAG sustavima - više podataka ne znači automatski bolje odgovore.
Pogođeni testovi: T11 (zastarni rokovi - 42/100), T12 (nadležnost sudova - 35/100), T17 (citiranje ZOO - 38/100), T26 (pravni lijekovi - 35/100), T27 (ZPP rokovi - 25/100).
2. Podaci nedostaju (1 test)
Test T28 je tražio usporedbu EU AI Act-a s hrvatskim zakonodavstvom. AI Act (Uredba 2024/1689) jednostavno nije u bazi - naš EU-Lex scraper pokriva regulacije do 2017. godine. LexBox je korektno odgovorio "ne mogu odgovoriti jer izvori ne sadrže taj propis" umjesto da halucinira, ali rezultat je svejedno 15/100.
3. Model ograničenje (1 test)
Na testu T19 (nasljednopravni spor), LexBox je pronašao pravi zakon (čl. 70 Zakona o nasljeđivanju) ali pogrešno rezonirao o pravima izvanbračne supruge i pravu predstavljanja unuka. Podaci su bili tu, ali model ih je krivo protumačio. To je rijedak slučaj - u 17 od 18 testova model korektno koristi pronađene izvore.
Što je u bazi - 1.49 milijuna pravnih vektora

| Izvor | Vektora | Dokumenata | Raspon |
|---|---|---|---|
| Sudska praksa HR | 700.822 | 66.472 odluka | 2002-2026 |
| EU-Lex | 381.102 | 15.605 propisa | 1958-2017 (gap!) |
| CURIA (Sud EU) | 204.472 | 16.758 presuda | 1956-2017 (gap!) |
| Zakoni HR | 100.647 | 895 zakona | Kompletno |
| HUDOC (ECHR) | 70.524 | 3.491 presuda | 1999-2026 |
| Ukupno | 1.493.619 | 103.221 |
Najveći gap je u EU zakonodavstvu - propisi od 2018. do danas nedostaju, uključujući AI Act, GDPR provedbu, Digital Services Act i Digital Markets Act. Hrvatski zakoni i sudska praksa su ažurni do ožujka 2026.
Plan poboljšanja

Na temelju root cause analize, identificirali smo tri konkretna fixa koja bi trebala podići ukupni score s ~66 na ~80/100:
- Source diversification u RAG-u - kad upit traži zakonski članak, prioritizirati zakonske chunk-ove nad sudskom praksom. Ovo popravlja 5 testova s retrieval dilution problemom (T11, T12, T17, T26, T27).
- EU-Lex 2018-2026 ingestion - scrapanje i ingestiranje svih EU propisa od 2018. do danas. AI Act, DSA, DMA, DORA i stotine drugih. Popravlja T28 i poboljšava EU-HR crossover testove.
- Article-level chunking - prepending naziva zakona i broja članka u svaki chunk za preciznije pronalaženje. Kad upit traži "čl. 348 ZPP", sustav treba vratiti baš taj članak, ne sudsku praksu koja ga spominje.
Transparentnost kao princip
Benchmark ponavljamo nakon svake značajne promjene sustava. Sve objavljujemo - i kad je rezultat 95/100 na detekciji halucinacija i kad je 15/100 na komparativnoj analizi.
Odvjetnici ne trebaju alat koji tvrdi da je savršen. Trebaju alat koji kaže što zna, što ne zna, i aktivno radi na tome da zna više. LexBox radije kaže "ne mogu odgovoriti jer to nije u mojim izvorima" nego da izmisli članak zakona koji ne postoji.
To je razlika između 0% halucinacija i 32%.
Puni benchmark podaci (18 testova, JSON + analiza) dostupni na zahtjev. Kontaktirajte nas na info@lexbox.ai. Benchmark V2 framework je inspiriran LegalBench (Stanford) i LEXam, prilagođen za hrvatsko pravo.
Zanima vas kako LexBox može pomoći vašem timu?
Isprobajte besplatno