LexBox postiže 82/100 na 8 pravnih testova
8. travnja 2026.
Kad smo počeli razvijati LexBox, postavili smo si jedno pravilo: ne govorimo da radi dok ne dokažemo da radi. Nema "naš AI je revolucionaran" bez brojki. Nema "mijenjamo pravnu industriju" bez konkretnih primjera.
Zato smo napravili nešto što, koliko znamo, nitko u Hrvatskoj još nije napravio za legal AI - formalni benchmark s 8 različitih pravnih zadataka, ocijenjenih po objektivnim kriterijima.
Rezultati po testu
| Test | Što smo testirali | Ocjena |
|---|---|---|
| Analiza ugovora o najmu | Prepoznavanje problematičnih klauzula u najmu poslovnog prostora | 79/100 |
| Pretraga sudske prakse | Pronalaženje relevantnih presuda za ozljedu na radu | 67/100 |
| Prigovor na rješenje HANFA-e | Generiranje formalnog prigovora s pravnom argumentacijom | 83/100 |
| MiCA gap analiza | Usklađenost pravilnika CASP-a s MiCA Uredbom | 83/100 |
| Analiza IT ugovora | Klasifikacija rizika u outsourcing ugovoru | 87/100 |
| Odluka Nadzornog odbora d.d. | Generiranje korporativnog akta s ispravnom strukturom | 85/100 |
| Distribucijski ugovor HR-AT | Jurisdikcijski konflikti u međunarodnom ugovoru | 84/100 |
| M&A closing review | Pregled closing liste za akviziciju | 90/100 |
| Prosjek | 82/100 | |
Najjači rezultat je M&A closing review (90/100), najslabiji pretraga sudske prakse (67/100). O oba ćemo biti potpuno transparentni.
Što ovi testovi zapravo mjere
Svaki test ima realan dokument s namjerno ubačenim problemima. Ne testiramo LexBox na pitanjima tipa "Što je ZOO?" - testiramo ga na zadacima kakve odvjetnici rade svaki dan.
Na primjer, test analize IT ugovora sadrži ugovor od 20 članaka s 14 ubačenih rizika - od prebačene GDPR odgovornosti (čl. 28 Opće uredbe) do subjektivne definicije više sile i asimetričnih otkaznih rokova. LexBox je pronašao 12 od 14 rizika.
Test M&A closing liste sadrži 25 stavki od kojih 7 blokira closing - neobjavljeni sudski spor od 150.000 EUR, CFO koji je dao otkaz 10 dana prije closinga, nedostajući revidirani financijski izvještaji za 2023. LexBox je pronašao svih 7 i ispravno zaključio: closing na planirani datum nije izvediv.
Konkretni primjeri iz outputa
Nećemo samo reći "83/100 na MiCA testu". Evo što je LexBox konkretno pronašao.
MiCA gap analiza
LexBox je analizirao pravilnik o upravljanju rizicima fiktivnog CASP-a i identificirao:
- Sredstva klijenata na zajedničkom računu društva (čl. 70 MiCA Uredbe)
- Privatni ključevi pohranjeni u bazi s korisničkim podacima (čl. 68 MiCA)
- Nedostaje plan kontinuiteta poslovanja (čl. 68 st. 7 MiCA)
- Ručno praćenje transakcija jednom tjedno umjesto automatiziranog AML/CFT sustava
Distribucijski ugovor HR-AT
Ugovor između hrvatskog dobavljača i austrijskog distributera s engleskim pravom kao mjerodavnim. LexBox je automatski detektirao jurisdikcijski konflikt i citirao Rim I Uredbu (EC 593/2008), čl. 3 st. 3 i čl. 4 st. 1 - za ugovor o distribuciji primjenjuje se pravo države u kojoj je distributer.
Analiza IT ugovora
Klauzula da se naručitelj obvezuje obeštetiti izvršitelja od GDPR zahtjeva. LexBox je to označio kao visok rizik i citirao čl. 28 Opće uredbe o zaštiti podataka - izvršitelj (processor) ne može prebaciti regulatornu odgovornost na voditelja obrade.
Gdje nismo zadovoljni
Pretraga sudske prakse je naš najslabiji rezultat (67/100). Sustav pronalazi relevantne presude, ali dubina analize nije na razini koju očekujemo. ECLI citati trebaju dodatnu verifikaciju. To je prioritet za sljedeći sprint.
U testu analize ugovora o najmu (79/100), LexBox je prepoznao 5 od 6 ubačenih rizika - ali je propustio klauzulu o strukturalnim popravcima (krov, temelji) na teret najmoprimca. To je tip klauzule koju iskusan odvjetnik ne bi propustio. Mi to ne skrivamo.
Također, neke pravne reference su generičke - sustav ponekad citira isti sudski predmet za više različitih pravnih pitanja, što odvjetniku odmah upada u oči. Radimo na tome.
Kako smo testirali
- 468.000+ pravnih vektora (zakoni, sudska praksa, EU propisi) pretraženih u stvarnom vremenu
- Svaki test koristi realan dokument s poznatim problemima
- Ocjenjivanje po 5 kriterija: identifikacija problema, točnost pravnih referenci, odsutnost lažnih pozitiva, prioritizacija i kvaliteta preporuka
- LLM: Qwen3 235B putem Together.ai s automatskim fallbackom na OpenRouter
- Embeddings: Voyage-law-2 (specijalizirani za pravne tekstove)
Što dalje
Dva testa još nisu pokrenuta - EU regulatorni rokovi (čeka dovršetak ingestion-a EU propisa) i test samokorekcije (namjerno pogrešna analiza pa provjera ispravlja li se).
Benchmark ponavljamo svakih 2-4 tjedna. Svaka promjena u sustavu - novi prompt, novi model, nova baza - se odmah testira. Ove rezultate objavljujemo ovdje da ih možete pratiti sami.
LexBox ne zamjenjuje odvjetnika. Ali može napraviti prvu analizu ugovora od 20 stranica za 2 minute umjesto 2 sata - i pritom uhvatiti 85% onoga što bi uhvatio iskusan odvjetnik. Tih ušteđenih sat i pol vrijedi.
Puni benchmark podaci dostupni na zahtjev. Kontaktirajte nas na info@lexbox.ai.
Zanima vas kako LexBox može pomoći vašem timu?
Zatražite pristup