Kako testiramo LexBox - i zašto objavljujemo kad pogriješi
8. travnja 2026.
Kad odvjetnik koristi AI alat za analizu ugovora, mora znati jednu stvar: koliko mu može vjerovati? Ne općenito, ne "AI je budućnost" - konkretno. Za ovaj tip dokumenta, s ovim pitanjem, kolika je šansa da će output biti upotrebljiv?
Većina legal AI kompanija odgovara na to marketingom. Mi smo odlučili odgovoriti brojevima.
Problem s "AI je 95% točan"
Izjava "naš AI je 95% točan" ne znači ništa bez konteksta. Točan u čemu? Na kakvim dokumentima? Po čijem mjerilu?
Stanford HAI istraživanje je pokazalo da legalni AI alati haluciniraju u svakom šestom upitu. Vals AI-jev VLAIR benchmark, koji je testirao Harvey, CoCounsel i druge, otkrio je da su alati odlični u nekim zadacima (pretraga dokumenata, odgovori na pitanja), a loši u drugima (redlining, analiza promjena).
Mi smo htjeli znati isto za LexBox - ali za hrvatski pravni sustav.
Naš pristup testiranju
Dizajnirali smo 8 testova koji pokrivaju različite tipove pravnog posla:
Analiza ugovora
Ugovor o najmu s 6 namjerno problematičnih klauzula (jednostrano povećanje najamnine 20%, odricanje prava na žalbu, asimetrični otkazni rokovi). Pitamo LexBox da ih pronađe i ocijeni rizik.
Generiranje dokumenata
Prigovor na rješenje HANFA-e i odluka nadzornog odbora. Oba zahtijevaju ispravnu strukturu, pravne reference i profesionalan jezik.
Compliance gap analiza
Pravilnik fiktivnog pružatelja usluga kripto-imovine s namjernim nedostacima u odnosu na MiCA Uredbu. LexBox treba identificirati propuste i citirati relevantne članke.
Risk classification
IT outsourcing ugovor s 14 ubačenih rizika, od prebačene GDPR odgovornosti do subjektivne definicije više sile. LexBox treba svaki rizik klasificirati i predložiti rješenje.
Jurisdikcijska analiza
Distribucijski ugovor između hrvatskog i austrijskog subjekta s engleskim pravom kao mjerodavnim. Ključno pitanje: hoće li LexBox detektirati da je izbor prava problematičan?
M&A closing review
Closing lista s 25 stavki za akviziciju. 7 neispunjenih uvjeta. Pitanje: je li closing izvediv na planirani datum?
Kako ocjenjujemo
Svaki test se ocjenjuje po 5 kriterija:
- Identifikacija problema (30 bodova) - je li pronašao ono što treba pronaći?
- Odsutnost lažnih pozitiva (20 bodova) - je li prijavio nešto što zapravo nije problem?
- Pravna točnost (25 bodova) - jesu li citirani zakoni i članci ispravni?
- Prioritizacija (15 bodova) - je li pravilno ocijenio što je kritično, a što nije?
- Preporuke (10 bodova) - jesu li savjeti konkretni i primjenjivi?
Ukupno 100 bodova. Nema zaokruživanja, nema "bonus bodova za trud".
Što smo otkrili o sebi
Rezultati su otkrili ozbiljan bug u našem sustavu za generiranje dokumenata. LexBox je sve dokumente generirao u formatu "podnesak upravnom tijelu" - čak i odluku nadzornog odbora dioničkog društva. Rezultat: 23/100 na testu korporativnog akta.
Problem je bio hardkodirani prompt koji je tretirao svaki dokument kao adversarial podnesak. Dodali smo klasifikator koji razlikuje adversarial dokumente (prigovor, tužba, žalba) od korporativnih akata (odluka NO, zapisnik, izjava). Nakon popravka, test je skočio s 23 na 85.
Taj bug bismo otkrili tek kad bi ga primijetio korisnik - možda nakon što bi poslao neupotrebljivu odluku nadzornog odbora svom klijentu. Benchmark ga je uhvatio prije toga.
Rezultati - kompletna tablica
| Test | Kategorija | Score | Ključni nalaz |
|---|---|---|---|
| Analiza ugovora (najam) | Analiza | 79/100 | 5/6 rizika, propustio strukturalne popravke |
| Sudska praksa | Pretraga | 67/100 | Pronalazi relevantno, nedovoljna dubina |
| Prigovor HANFA | Generiranje | 83/100 | Ispravna forma, dobra argumentacija |
| MiCA gap analiza | Compliance | 83/100 | 8/12 nedostataka, ispravni EU članci |
| IT ugovor rizici | Analiza | 87/100 | 12/14 rizika, detektira GDPR čl. 28 |
| Odluka NO | Generiranje | 85/100 | Ispravni ZTD članci (259, 260, 263) |
| Distribucija HR-AT | Jurisdikcija | 84/100 | Detektira Rim I Uredbu, VBER čl. 5(3) |
| M&A closing | Review | 90/100 | Svih 7 blockera, ispravan zaključak |
| Prosjek | 82/100 | ||
Gdje smo loši
Pretraga sudske prakse (67/100) je ispod prihvatljive razine. Sustav pronalazi relevantne presude, ali analiza je površna. ECLI citati ponekad nisu provjerljivi. Ovo je prioritet broj jedan za poboljšanje.
Također imamo problem s generičkim sudskim referencama. U nekim analizama, LexBox citira istu presudu Trgovačkog suda za potpuno različita pravna pitanja. To je nešto što svaki odvjetnik odmah primijeti i što narušava povjerenje u cijeli output.
I u testu analize ugovora o najmu, propuštena klauzula o strukturalnim popravcima na teret najmoprimca je vrsta pogreške koja ne bi smjela proći. Krov i temelji na teret najmoprimca su crvena zastava koju iskusan odvjetnik nikad ne propušta.
Tehničke napomene
Za one koji žele znati kako radi ispod haube:
- 468.000+ pravnih vektora (zakoni RH, sudska praksa, EU propisi, HUDOC, CURIA)
- Voyage-law-2 embeddings specijalizirani za pravne tekstove
- LLM: Qwen3 235B s automatskim failoverom na OpenRouter kad je primarni provider nedostupan
- Pretraga u stvarnom vremenu - nema predgeneriranih odgovora, svaki upit pretražuje cijelu bazu
Zašto ovo objavljujemo
Odvjetnici su po prirodi skeptični. I trebaju biti. AI alat koji radi s pravnim dokumentima mora zaslužiti povjerenje, a povjerenje se ne gradi marketingom.
Harvey AI, koji koriste najveće američke odvjetničke tvrtke, objavljuje svoje benchmark rezultate. Lexis+ AI je pozvao Stanford da ih nezavisno testira. Vals AI je napravio prvi benchmark koji uspoređuje AI s odvjetnicima na istim zadacima.
Mi smo manji. Ali princip je isti. Ovi rezultati se ponavljaju svakih 2-4 tjedna. Svaka promjena u sustavu se odmah testira. Kad se rezultati poboljšaju - ili pogoršaju - objavit ćemo ih.
Dva testa su još u pripremi: ekstrakcija regulatornih rokova iz EU propisa i test samokorekcije. Rezultate očekujemo u sljedećem ciklusu.
LexBox ne zamjenjuje odvjetnika. Ali može ga učiniti bržim, i uhvatiti stvari koje se lako previde kad imate 50 stranica ugovora i rok do sutra.
Imate pitanja o našoj metodologiji? Pišite nam na info@lexbox.ai. Rado dijelimo detalje.
Zanima vas kako LexBox može pomoći vašem timu?
Zatražite pristup