Benchmark6 min

LexBox postiže 82/100 na 8 pravnih testova

8. travnja 2026.

Kad smo počeli razvijati LexBox, postavili smo si jedno pravilo: ne govorimo da radi dok ne dokažemo da radi. Nema "naš AI je revolucionaran" bez brojki. Nema "mijenjamo pravnu industriju" bez konkretnih primjera.

Zato smo napravili nešto što, koliko znamo, nitko u Hrvatskoj još nije napravio za legal AI - formalni benchmark s 8 različitih pravnih zadataka, ocijenjenih po objektivnim kriterijima.

Rezultati po testu

TestŠto smo testiraliOcjena
Analiza ugovora o najmuPrepoznavanje problematičnih klauzula u najmu poslovnog prostora79/100
Pretraga sudske praksePronalaženje relevantnih presuda za ozljedu na radu67/100
Prigovor na rješenje HANFA-eGeneriranje formalnog prigovora s pravnom argumentacijom83/100
MiCA gap analizaUsklađenost pravilnika CASP-a s MiCA Uredbom83/100
Analiza IT ugovoraKlasifikacija rizika u outsourcing ugovoru87/100
Odluka Nadzornog odbora d.d.Generiranje korporativnog akta s ispravnom strukturom85/100
Distribucijski ugovor HR-ATJurisdikcijski konflikti u međunarodnom ugovoru84/100
M&A closing reviewPregled closing liste za akviziciju90/100
Prosjek82/100

Najjači rezultat je M&A closing review (90/100), najslabiji pretraga sudske prakse (67/100). O oba ćemo biti potpuno transparentni.

Što ovi testovi zapravo mjere

Svaki test ima realan dokument s namjerno ubačenim problemima. Ne testiramo LexBox na pitanjima tipa "Što je ZOO?" - testiramo ga na zadacima kakve odvjetnici rade svaki dan.

Na primjer, test analize IT ugovora sadrži ugovor od 20 članaka s 14 ubačenih rizika - od prebačene GDPR odgovornosti (čl. 28 Opće uredbe) do subjektivne definicije više sile i asimetričnih otkaznih rokova. LexBox je pronašao 12 od 14 rizika.

Test M&A closing liste sadrži 25 stavki od kojih 7 blokira closing - neobjavljeni sudski spor od 150.000 EUR, CFO koji je dao otkaz 10 dana prije closinga, nedostajući revidirani financijski izvještaji za 2023. LexBox je pronašao svih 7 i ispravno zaključio: closing na planirani datum nije izvediv.

Konkretni primjeri iz outputa

Nećemo samo reći "83/100 na MiCA testu". Evo što je LexBox konkretno pronašao.

MiCA gap analiza

LexBox je analizirao pravilnik o upravljanju rizicima fiktivnog CASP-a i identificirao:

  • Sredstva klijenata na zajedničkom računu društva (čl. 70 MiCA Uredbe)
  • Privatni ključevi pohranjeni u bazi s korisničkim podacima (čl. 68 MiCA)
  • Nedostaje plan kontinuiteta poslovanja (čl. 68 st. 7 MiCA)
  • Ručno praćenje transakcija jednom tjedno umjesto automatiziranog AML/CFT sustava

Distribucijski ugovor HR-AT

Ugovor između hrvatskog dobavljača i austrijskog distributera s engleskim pravom kao mjerodavnim. LexBox je automatski detektirao jurisdikcijski konflikt i citirao Rim I Uredbu (EC 593/2008), čl. 3 st. 3 i čl. 4 st. 1 - za ugovor o distribuciji primjenjuje se pravo države u kojoj je distributer.

Analiza IT ugovora

Klauzula da se naručitelj obvezuje obeštetiti izvršitelja od GDPR zahtjeva. LexBox je to označio kao visok rizik i citirao čl. 28 Opće uredbe o zaštiti podataka - izvršitelj (processor) ne može prebaciti regulatornu odgovornost na voditelja obrade.

Gdje nismo zadovoljni

Pretraga sudske prakse je naš najslabiji rezultat (67/100). Sustav pronalazi relevantne presude, ali dubina analize nije na razini koju očekujemo. ECLI citati trebaju dodatnu verifikaciju. To je prioritet za sljedeći sprint.

U testu analize ugovora o najmu (79/100), LexBox je prepoznao 5 od 6 ubačenih rizika - ali je propustio klauzulu o strukturalnim popravcima (krov, temelji) na teret najmoprimca. To je tip klauzule koju iskusan odvjetnik ne bi propustio. Mi to ne skrivamo.

Također, neke pravne reference su generičke - sustav ponekad citira isti sudski predmet za više različitih pravnih pitanja, što odvjetniku odmah upada u oči. Radimo na tome.

Kako smo testirali

  • 468.000+ pravnih vektora (zakoni, sudska praksa, EU propisi) pretraženih u stvarnom vremenu
  • Svaki test koristi realan dokument s poznatim problemima
  • Ocjenjivanje po 5 kriterija: identifikacija problema, točnost pravnih referenci, odsutnost lažnih pozitiva, prioritizacija i kvaliteta preporuka
  • LLM: Qwen3 235B putem Together.ai s automatskim fallbackom na OpenRouter
  • Embeddings: Voyage-law-2 (specijalizirani za pravne tekstove)

Što dalje

Dva testa još nisu pokrenuta - EU regulatorni rokovi (čeka dovršetak ingestion-a EU propisa) i test samokorekcije (namjerno pogrešna analiza pa provjera ispravlja li se).

Benchmark ponavljamo svakih 2-4 tjedna. Svaka promjena u sustavu - novi prompt, novi model, nova baza - se odmah testira. Ove rezultate objavljujemo ovdje da ih možete pratiti sami.

LexBox ne zamjenjuje odvjetnika. Ali može napraviti prvu analizu ugovora od 20 stranica za 2 minute umjesto 2 sata - i pritom uhvatiti 85% onoga što bi uhvatio iskusan odvjetnik. Tih ušteđenih sat i pol vrijedi.


Puni benchmark podaci dostupni na zahtjev. Kontaktirajte nas na info@lexbox.ai.

Zanima vas kako LexBox može pomoći vašem timu?

Zatražite pristup