Metodologija7 min

Kako testiramo LexBox - i zašto objavljujemo kad pogriješi

6. travnja 2026.

Kad odvjetnik koristi AI alat za analizu ugovora, mora znati jednu stvar: koliko mu može vjerovati? Ne općenito, ne "AI je budućnost" - konkretno. Za ovaj tip dokumenta, s ovim pitanjem, kolika je šansa da će output biti upotrebljiv?

Većina legal AI kompanija odgovara na to marketingom. Mi smo odlučili odgovoriti brojevima.

Problem s "AI je 95% točan"

Izjava "naš AI je 95% točan" ne znači ništa bez konteksta. Točan u čemu? Na kakvim dokumentima? Po čijem mjerilu?

Stanford HAI istraživanje je pokazalo da legalni AI alati haluciniraju u svakom šestom upitu. Vals AI-jev VLAIR benchmark, koji je testirao Harvey, CoCounsel i druge, otkrio je da su alati odlični u nekim zadacima (pretraga dokumenata, odgovori na pitanja), a loši u drugima (redlining, analiza promjena).

Mi smo htjeli znati isto za LexBox - ali za hrvatski pravni sustav.

Naš pristup testiranju

Dizajnirali smo 8 testova koji pokrivaju različite tipove pravnog posla:

Analiza ugovora

Ugovor o najmu s 6 namjerno problematičnih klauzula (jednostrano povećanje najamnine 20%, odricanje prava na žalbu, asimetrični otkazni rokovi). Pitamo LexBox da ih pronađe i ocijeni rizik.

Generiranje dokumenata

Prigovor na rješenje HANFA-e i odluka nadzornog odbora. Oba zahtijevaju ispravnu strukturu, pravne reference i profesionalan jezik.

Compliance gap analiza

Pravilnik fiktivnog pružatelja usluga kripto-imovine s namjernim nedostacima u odnosu na MiCA Uredbu. LexBox treba identificirati propuste i citirati relevantne članke.

Risk classification

IT outsourcing ugovor s 14 ubačenih rizika, od prebačene GDPR odgovornosti do subjektivne definicije više sile. LexBox treba svaki rizik klasificirati i predložiti rješenje.

Jurisdikcijska analiza

Distribucijski ugovor između hrvatskog i austrijskog subjekta s engleskim pravom kao mjerodavnim. Ključno pitanje: hoće li LexBox detektirati da je izbor prava problematičan?

M&A closing review

Closing lista s 25 stavki za akviziciju. 7 neispunjenih uvjeta. Pitanje: je li closing izvediv na planirani datum?

Kako ocjenjujemo

Svaki test se ocjenjuje po 5 kriterija:

Identifikacija problema (30 bodova) - je li pronašao ono što treba pronaći?
Odsutnost lažnih pozitiva (20 bodova) - je li prijavio nešto što zapravo nije problem?
Pravna točnost (25 bodova) - jesu li citirani zakoni i članci ispravni?
Prioritizacija (15 bodova) - je li pravilno ocijenio što je kritično, a što nije?
Preporuke (10 bodova) - jesu li savjeti konkretni i primjenjivi?

Ukupno 100 bodova. Nema zaokruživanja, nema "bonus bodova za trud".

Scoring rubrika: 100 bodova, 5 kriterija - Identifikacija problema 30, Bez lažnih pozitiva 20, Pravna točnost 25, Prioritizacija 15, Preporuke 10

Što smo otkrili o sebi

Rezultati su otkrili ozbiljan bug u našem sustavu za generiranje dokumenata. LexBox je sve dokumente generirao u formatu "podnesak upravnom tijelu" - čak i odluku nadzornog odbora dioničkog društva. Rezultat: 23/100 na testu korporativnog akta.

Problem je bio hardkodirani prompt koji je tretirao svaki dokument kao adversarial podnesak. Dodali smo klasifikator koji razlikuje adversarial dokumente (prigovor, tužba, žalba) od korporativnih akata (odluka NO, zapisnik, izjava). Nakon popravka, test je skočio s 23 na 85.

Taj bug bismo otkrili tek kad bi ga primijetio korisnik - možda nakon što bi poslao neupotrebljivu odluku nadzornog odbora svom klijentu. Benchmark ga je uhvatio prije toga.

Rezultati - kompletna tablica

Test	Kategorija	Score	Ključni nalaz
Analiza ugovora (najam)	Analiza	79/100	5/6 rizika, propustio strukturalne popravke
Sudska praksa	Pretraga	67/100	Pronalazi relevantno, nedovoljna dubina
Prigovor HANFA	Generiranje	83/100	Ispravna forma, dobra argumentacija
MiCA gap analiza	Compliance	83/100	8/12 nedostataka, ispravni EU članci
IT ugovor rizici	Analiza	87/100	12/14 rizika, detektira GDPR čl. 28
Odluka NO	Generiranje	85/100	Ispravni ZTD članci (259, 260, 263)
Distribucija HR-AT	Jurisdikcija	84/100	Detektira Rim I Uredbu, VBER čl. 5(3)
M&A closing	Review	90/100	Svih 7 blockera, ispravan zaključak
Prosjek		82/100

8 testova, prosjek 82/100. Najgori: sudska praksa (67). Najbolji: M&A closing (90).

Gdje smo loši

Pretraga sudske prakse (67/100) je ispod prihvatljive razine. Sustav pronalazi relevantne presude, ali analiza je površna. ECLI citati ponekad nisu provjerljivi. Ovo je prioritet broj jedan za poboljšanje.

Također imamo problem s generičkim sudskim referencama. U nekim analizama, LexBox citira istu presudu Trgovačkog suda za potpuno različita pravna pitanja. To je nešto što svaki odvjetnik odmah primijeti i što narušava povjerenje u cijeli output.

I u testu analize ugovora o najmu, propuštena klauzula o strukturalnim popravcima na teret najmoprimca je vrsta pogreške koja ne bi smjela proći. Krov i temelji na teret najmoprimca su crvena zastava koju iskusan odvjetnik nikad ne propušta.

Tehničke napomene

Za one koji žele znati kako radi ispod haube:

226.000+ pravnih dokumenata (zakoni RH, sudska praksa, EU propisi, HUDOC, CURIA, USRH)
Voyage-law-2 embeddings specijalizirani za pravne tekstove
LLM: Qwen 3.5 397B putem Scaleway (EU) s automatskim failoverom na Mistral Large (EU)
Pretraga u stvarnom vremenu - nema predgeneriranih odgovora, svaki upit pretražuje cijelu bazu

Zašto ovo objavljujemo

Odvjetnici su po prirodi skeptični. I trebaju biti. AI alat koji radi s pravnim dokumentima mora zaslužiti povjerenje, a povjerenje se ne gradi marketingom.

Harvey AI, koji koriste najveće američke odvjetničke tvrtke, objavljuje svoje benchmark rezultate. Lexis+ AI je pozvao Stanford da ih nezavisno testira. Vals AI je napravio prvi benchmark koji uspoređuje AI s odvjetnicima na istim zadacima.

Mi smo manji. Ali princip je isti. Ovi rezultati se ponavljaju svakih 2-4 tjedna. Svaka promjena u sustavu se odmah testira. Kad se rezultati poboljšaju - ili pogoršaju - objavit ćemo ih.

Dva testa su još u pripremi: ekstrakcija regulatornih rokova iz EU propisa i test samokorekcije. Rezultate očekujemo u sljedećem ciklusu.

LexBox ne zamjenjuje odvjetnika. Ali može ga učiniti bržim, i uhvatiti stvari koje se lako previde kad imate 50 stranica ugovora i rok do sutra.

Imate pitanja o našoj metodologiji? Pišite nam na info@lexbox.ai. Rado dijelimo detalje.

Zanima vas kako LexBox može pomoći vašem timu?

Isprobajte besplatno

Kako testiramo LexBox - i zašto objavljujemo kad pogriješi

Problem s "AI je 95% točan"

Naš pristup testiranju

Analiza ugovora

Generiranje dokumenata

Compliance gap analiza

Risk classification

Jurisdikcijska analiza

M&A closing review

Kako ocjenjujemo

Što smo otkrili o sebi

Rezultati - kompletna tablica

Gdje smo loši

Tehničke napomene

Zašto ovo objavljujemo

Ostali postovi

Deset besplatnih upita i Građanin mod: što se promijenilo

Predmeti su stigli. I s njima prvi tablični pregled.

EU AI Act i pravni uredi - što se mijenja od kolovoza 2026.

Kako radi LexBox

10 pravnih pitanja, 2 AI sustava - LexBox vs Claude benchmark

Odvjetnička tajna i AI - kako LexBox čuva povjerljivost vaših podataka