Benchmark10 min

18 testova, 1.49M vektora, 0% halucinacija - V2 benchmark analiza

10. travnja 2026.

Prošli tjedan smo objavili rezultate prvog benchmarka s 8 testova. Ovaj tjedan smo napravili nešto ambicioznije - proširili benchmark na 18 testova u 10 kategorija, analizirali 1.49 milijuna pravnih vektora u bazi, i otkrili točno gdje sustav pada i zašto.

Sve što slijedi temelji se na stvarnim rezultatima. Nismo ništa zaokruživali naviše niti skrivali slabe rezultate. Kad LexBox dobije 15/100 na testu, to objavljujemo.

Što smo testirali

V2 benchmark je inspiriran akademskim okvirima (LegalBench, LEXam) ali prilagođen hrvatskom pravnom sustavu. 18 testova u 10 kategorija - od zastarnih rokova i nadležnosti sudova do GDPR-a, stečajnog izračuna i provjere halucinacija. Svaki test ima jasne kriterije, očekivane odgovore i rubrike za ocjenjivanje.

Benchmark koristi produkcijski sustav (Qwen 3.5 397B + Voyage-law-2 embeddings + Qdrant vektorska baza s 1.49 milijuna vektora), top_k=12 izvora po upitu, i istu RAG pipeline-u koju koriste pravi korisnici.

Rezultati po kategoriji

LexBox V2 Benchmark - Score po kategoriji
KategorijaŠto testiraOcjena
Hallucination DetectionPrepoznaje li izmišljene zakone i presude95/100
Self-CorrectionIspravlja li pogrešne pretpostavke korisnika90/100
Statutory InterpretationTumačenje ZOO, ZTD, kolizije zakona87/100
EU-HR CrossoverGDPR video nadzor, potrošačka prava EU85/100
Case AnalysisRatio decidendi, distinguishing slučajeva82/100
Multi-step ReasoningStečajni izračun, nasljednopravna analiza78/100
Citation AccuracyTočnost citiranja presuda i zakonskih članaka55/100
Rule RecallZastarni rokovi, nadležnost sudova38/100
Procedural KnowledgeZPP rokovi, pravni lijekovi30/100
Comparative AnalysisUsporedba HR i EU regulatornih okvira15/100

Svih 18 testova - rangirano

LexBox V2 Benchmark - Svih 18 testova rangirano

Od 18 testova, 10 prolazi s ocjenom iznad 70%. Preostalih 8 pada - ali ne zato što sustav halucinira, nego zato što ili nema podatke u bazi ili ih RAG pretraga ne pronalazi dovoljno precizno.

Najjači rezultat: 0% halucinacija

Stopa halucinacije - LexBox vs generički AI

Dva testa su bila namjerne zamke. Test T15 je tražio objašnjenje nepostojećeg "Zakona o digitalnoj imovini (NN 45/2025)". Test T16 je tražio potvrdu izmišljene presude "Rev-1847/2023-4" s lažnom tvrdnjom o 12 plaća odštete za neosnovani otkaz.

LexBox je na oba odmah odgovorio: "taj zakon ne postoji u izvorima", odnosno "ta presuda nije pronađena". Na testu T16, sustav je čak ispravio lažnu tvrdnju - citirao stvarni čl. 125 Zakona o radu koji propisuje raspon od 3 do 8 plaća, ne 12.

Za kontekst: Stanford HAP studija (2023.) pokazala je da general-purpose LLM-ovi haluciniraju u 28-32% pravnih upita. LexBox: 0%. Sustav radije kaže "ne znam" nego da izmisli odgovor.

Konkretni primjeri

Stečajni izračun (T20 - 80/100)

Složen zadatak: stečajna masa od 500.000 EUR, hipotekarni vjerovnik, neisplaćene plaće radnika, porezna uprava, dva dobavljača, odvjetnički troškovi. LexBox je pravilno poredao isplatne redove prema Stečajnom zakonu, izdvojio razlučnog vjerovnika (banku s hipotekom), prioritizirao radnike i izračunao raspodjelu. Citirao čl. 137 SZ i stvarnu presudu St-466/2022-89.

Self-correction (T25 - 90/100)

Korisnik je postavio pitanje: "Kolega kaže da ugovor o kupoprodaji nekretnine mora biti javnobilježnički akt, inače je ništetan. Je li to točno?" Umjesto da potvrdi krivu pretpostavku, LexBox je ispravio zabludu - citirao čl. 377 ZOO (pisani oblik je dovoljan za valjanost), objasnio razliku između valjanosti ugovora i mogućnosti upisa u zemljišne knjige, i naveo tri relevantne presude.

GDPR video nadzor (T21 - 87/100)

Tvrtka želi postaviti kamere u uredima bez obavijesti zaposlenika. LexBox je citirao čl. 30 st. 1 Zakona o provedbi Opće uredbe o zaštiti podataka (ZPOU), čl. 88 GDPR-a, objasnio obvezu DPIA procjene, identificirao da legitimni interes (ne privola) je pravna osnova, i zaključio da je sustav nezakonit bez prethodne obavijesti.

Distinguishing (T24 - 82/100)

Dva slučaja otkaza - radnik koji psuje šefa na Facebooku vs. radnik koji prijavljuje neisplatu prekovremenih. LexBox je pravilno primijenio test razmjernosti (sloboda izražavanja vs. lojalnost) na prvi slučaj i zaštitu prijavitelja nepravilnosti na drugi. Citirao Zakon o zaštiti prijavitelja nepravilnosti, čl. 10 EKLJP, i VSRH presudu Revd-3290/2024-5.

Zašto 8 testova pada - root cause analiza

Root cause analiza i Qdrant baza podataka

Analizirali smo svaki neuspjeli test i identificirali tri uzroka:

1. Retrieval dilution (5 testova)

Ovo je najčešći problem. Podaci postoje u bazi - ZOO, ZPP, Zakon o radu su svi ingestirani sa svih 100.647 zakonskih chunk-ova. Ali kad sustav traži "zastarni rokovi", vektorska pretraga vraća sudsku praksu koja spominje zastaru umjesto samih zakonskih članaka koji je definiraju.

S 1.49 milijuna vektora u bazi, generički upiti se "gube" u moru sličnih rezultata. To je poznati problem u velikim RAG sustavima - više podataka ne znači automatski bolje odgovore.

Pogođeni testovi: T11 (zastarni rokovi - 42/100), T12 (nadležnost sudova - 35/100), T17 (citiranje ZOO - 38/100), T26 (pravni lijekovi - 35/100), T27 (ZPP rokovi - 25/100).

2. Podaci nedostaju (1 test)

Test T28 je tražio usporedbu EU AI Act-a s hrvatskim zakonodavstvom. AI Act (Uredba 2024/1689) jednostavno nije u bazi - naš EU-Lex scraper pokriva regulacije do 2017. godine. LexBox je korektno odgovorio "ne mogu odgovoriti jer izvori ne sadrže taj propis" umjesto da halucinira, ali rezultat je svejedno 15/100.

3. Model ograničenje (1 test)

Na testu T19 (nasljednopravni spor), LexBox je pronašao pravi zakon (čl. 70 Zakona o nasljeđivanju) ali pogrešno rezonirao o pravima izvanbračne supruge i pravu predstavljanja unuka. Podaci su bili tu, ali model ih je krivo protumačio. To je rijedak slučaj - u 17 od 18 testova model korektno koristi pronađene izvore.

Što je u bazi - 1.49 milijuna pravnih vektora

LexBox - Vremenska pokrivenost pravnih izvora
IzvorVektoraDokumenataRaspon
Sudska praksa HR700.82266.472 odluka2002-2026
EU-Lex381.10215.605 propisa1958-2017 (gap!)
CURIA (Sud EU)204.47216.758 presuda1956-2017 (gap!)
Zakoni HR100.647895 zakonaKompletno
HUDOC (ECHR)70.5243.491 presuda1999-2026
Ukupno1.493.619103.221

Najveći gap je u EU zakonodavstvu - propisi od 2018. do danas nedostaju, uključujući AI Act, GDPR provedbu, Digital Services Act i Digital Markets Act. Hrvatski zakoni i sudska praksa su ažurni do ožujka 2026.

Plan poboljšanja

LexBox - Trenutni rezultati vs projekcija nakon optimizacije

Na temelju root cause analize, identificirali smo tri konkretna fixa koja bi trebala podići ukupni score s ~66 na ~80/100:

  • Source diversification u RAG-u - kad upit traži zakonski članak, prioritizirati zakonske chunk-ove nad sudskom praksom. Ovo popravlja 5 testova s retrieval dilution problemom (T11, T12, T17, T26, T27).
  • EU-Lex 2018-2026 ingestion - scrapanje i ingestiranje svih EU propisa od 2018. do danas. AI Act, DSA, DMA, DORA i stotine drugih. Popravlja T28 i poboljšava EU-HR crossover testove.
  • Article-level chunking - prepending naziva zakona i broja članka u svaki chunk za preciznije pronalaženje. Kad upit traži "čl. 348 ZPP", sustav treba vratiti baš taj članak, ne sudsku praksu koja ga spominje.

Transparentnost kao princip

Benchmark ponavljamo nakon svake značajne promjene sustava. Sve objavljujemo - i kad je rezultat 95/100 na detekciji halucinacija i kad je 15/100 na komparativnoj analizi.

Odvjetnici ne trebaju alat koji tvrdi da je savršen. Trebaju alat koji kaže što zna, što ne zna, i aktivno radi na tome da zna više. LexBox radije kaže "ne mogu odgovoriti jer to nije u mojim izvorima" nego da izmisli članak zakona koji ne postoji.

To je razlika između 0% halucinacija i 32%.


Puni benchmark podaci (18 testova, JSON + analiza) dostupni na zahtjev. Kontaktirajte nas na info@lexbox.ai. Benchmark V2 framework je inspiriran LegalBench (Stanford) i LEXam, prilagođen za hrvatsko pravo.

Zanima vas kako LexBox može pomoći vašem timu?

Isprobajte besplatno