Metodologija7 min

Kako testiramo LexBox - i zašto objavljujemo kad pogriješi

6. travnja 2026.

Kad odvjetnik koristi AI alat za analizu ugovora, mora znati jednu stvar: koliko mu može vjerovati? Ne općenito, ne "AI je budućnost" - konkretno. Za ovaj tip dokumenta, s ovim pitanjem, kolika je šansa da će output biti upotrebljiv?

Većina legal AI kompanija odgovara na to marketingom. Mi smo odlučili odgovoriti brojevima.

Problem s "AI je 95% točan"

Izjava "naš AI je 95% točan" ne znači ništa bez konteksta. Točan u čemu? Na kakvim dokumentima? Po čijem mjerilu?

Stanford HAI istraživanje je pokazalo da legalni AI alati haluciniraju u svakom šestom upitu. Vals AI-jev VLAIR benchmark, koji je testirao Harvey, CoCounsel i druge, otkrio je da su alati odlični u nekim zadacima (pretraga dokumenata, odgovori na pitanja), a loši u drugima (redlining, analiza promjena).

Mi smo htjeli znati isto za LexBox - ali za hrvatski pravni sustav.

Naš pristup testiranju

Dizajnirali smo 8 testova koji pokrivaju različite tipove pravnog posla:

Analiza ugovora

Ugovor o najmu s 6 namjerno problematičnih klauzula (jednostrano povećanje najamnine 20%, odricanje prava na žalbu, asimetrični otkazni rokovi). Pitamo LexBox da ih pronađe i ocijeni rizik.

Generiranje dokumenata

Prigovor na rješenje HANFA-e i odluka nadzornog odbora. Oba zahtijevaju ispravnu strukturu, pravne reference i profesionalan jezik.

Compliance gap analiza

Pravilnik fiktivnog pružatelja usluga kripto-imovine s namjernim nedostacima u odnosu na MiCA Uredbu. LexBox treba identificirati propuste i citirati relevantne članke.

Risk classification

IT outsourcing ugovor s 14 ubačenih rizika, od prebačene GDPR odgovornosti do subjektivne definicije više sile. LexBox treba svaki rizik klasificirati i predložiti rješenje.

Jurisdikcijska analiza

Distribucijski ugovor između hrvatskog i austrijskog subjekta s engleskim pravom kao mjerodavnim. Ključno pitanje: hoće li LexBox detektirati da je izbor prava problematičan?

M&A closing review

Closing lista s 25 stavki za akviziciju. 7 neispunjenih uvjeta. Pitanje: je li closing izvediv na planirani datum?

Kako ocjenjujemo

Svaki test se ocjenjuje po 5 kriterija:

  1. Identifikacija problema (30 bodova) - je li pronašao ono što treba pronaći?
  2. Odsutnost lažnih pozitiva (20 bodova) - je li prijavio nešto što zapravo nije problem?
  3. Pravna točnost (25 bodova) - jesu li citirani zakoni i članci ispravni?
  4. Prioritizacija (15 bodova) - je li pravilno ocijenio što je kritično, a što nije?
  5. Preporuke (10 bodova) - jesu li savjeti konkretni i primjenjivi?

Ukupno 100 bodova. Nema zaokruživanja, nema "bonus bodova za trud".

Scoring rubrika: 100 bodova, 5 kriterija - Identifikacija problema 30, Bez lažnih pozitiva 20, Pravna točnost 25, Prioritizacija 15, Preporuke 10

Što smo otkrili o sebi

Rezultati su otkrili ozbiljan bug u našem sustavu za generiranje dokumenata. LexBox je sve dokumente generirao u formatu "podnesak upravnom tijelu" - čak i odluku nadzornog odbora dioničkog društva. Rezultat: 23/100 na testu korporativnog akta.

Problem je bio hardkodirani prompt koji je tretirao svaki dokument kao adversarial podnesak. Dodali smo klasifikator koji razlikuje adversarial dokumente (prigovor, tužba, žalba) od korporativnih akata (odluka NO, zapisnik, izjava). Nakon popravka, test je skočio s 23 na 85.

Taj bug bismo otkrili tek kad bi ga primijetio korisnik - možda nakon što bi poslao neupotrebljivu odluku nadzornog odbora svom klijentu. Benchmark ga je uhvatio prije toga.

Rezultati - kompletna tablica

TestKategorijaScoreKljučni nalaz
Analiza ugovora (najam)Analiza79/1005/6 rizika, propustio strukturalne popravke
Sudska praksaPretraga67/100Pronalazi relevantno, nedovoljna dubina
Prigovor HANFAGeneriranje83/100Ispravna forma, dobra argumentacija
MiCA gap analizaCompliance83/1008/12 nedostataka, ispravni EU članci
IT ugovor riziciAnaliza87/10012/14 rizika, detektira GDPR čl. 28
Odluka NOGeneriranje85/100Ispravni ZTD članci (259, 260, 263)
Distribucija HR-ATJurisdikcija84/100Detektira Rim I Uredbu, VBER čl. 5(3)
M&A closingReview90/100Svih 7 blockera, ispravan zaključak
Prosjek82/100

8 testova, prosjek 82/100. Najgori: sudska praksa (67). Najbolji: M&A closing (90).

Gdje smo loši

Pretraga sudske prakse (67/100) je ispod prihvatljive razine. Sustav pronalazi relevantne presude, ali analiza je površna. ECLI citati ponekad nisu provjerljivi. Ovo je prioritet broj jedan za poboljšanje.

Također imamo problem s generičkim sudskim referencama. U nekim analizama, LexBox citira istu presudu Trgovačkog suda za potpuno različita pravna pitanja. To je nešto što svaki odvjetnik odmah primijeti i što narušava povjerenje u cijeli output.

I u testu analize ugovora o najmu, propuštena klauzula o strukturalnim popravcima na teret najmoprimca je vrsta pogreške koja ne bi smjela proći. Krov i temelji na teret najmoprimca su crvena zastava koju iskusan odvjetnik nikad ne propušta.

Tehničke napomene

Za one koji žele znati kako radi ispod haube:

  • 226.000+ pravnih dokumenata (zakoni RH, sudska praksa, EU propisi, HUDOC, CURIA, USRH)
  • Voyage-law-2 embeddings specijalizirani za pravne tekstove
  • LLM: Qwen 3.5 397B putem Scaleway (EU) s automatskim failoverom na Mistral Large (EU)
  • Pretraga u stvarnom vremenu - nema predgeneriranih odgovora, svaki upit pretražuje cijelu bazu

Zašto ovo objavljujemo

Odvjetnici su po prirodi skeptični. I trebaju biti. AI alat koji radi s pravnim dokumentima mora zaslužiti povjerenje, a povjerenje se ne gradi marketingom.

Harvey AI, koji koriste najveće američke odvjetničke tvrtke, objavljuje svoje benchmark rezultate. Lexis+ AI je pozvao Stanford da ih nezavisno testira. Vals AI je napravio prvi benchmark koji uspoređuje AI s odvjetnicima na istim zadacima.

Mi smo manji. Ali princip je isti. Ovi rezultati se ponavljaju svakih 2-4 tjedna. Svaka promjena u sustavu se odmah testira. Kad se rezultati poboljšaju - ili pogoršaju - objavit ćemo ih.

Dva testa su još u pripremi: ekstrakcija regulatornih rokova iz EU propisa i test samokorekcije. Rezultate očekujemo u sljedećem ciklusu.

LexBox ne zamjenjuje odvjetnika. Ali može ga učiniti bržim, i uhvatiti stvari koje se lako previde kad imate 50 stranica ugovora i rok do sutra.


Imate pitanja o našoj metodologiji? Pišite nam na info@lexbox.ai. Rado dijelimo detalje.

Zanima vas kako LexBox može pomoći vašem timu?

Isprobajte besplatno

Ostali postovi

Proizvod7 min

Predmeti su stigli. I s njima prvi tablični pregled.

Predmeti drže zajedno dokumente i razgovore za svaki slučaj. Pilot tabličnog pregleda usporeduje više ugovora odjednom s ocjenom pouzdanosti.

12. svibnja 2026.Čitaj
Sigurnost6 min

EU AI Act i pravni uredi - što se mijenja od kolovoza 2026.

Od 2. kolovoza 2026. primjenjuju se pravila EU AI Acta za sustave visokog rizika. Za pravne urede to znači provjeru dobavljača AI alata, razumijevanje koje kategorije vrijede za pravnu profesiju i praktičnu provjeru DPA lanca.

6. svibnja 2026.Čitaj
Proizvod8 min

Kako radi LexBox

Pratimo jedno pravno pitanje od inputa do odgovora s citatima. Konkretan primjer: kad sud može sniziti ugovornu kaznu prema ZOO. Pet koraka, prave presude, otvorivi linkovi.

29. travnja 2026.Čitaj
Benchmark12 min

10 pravnih pitanja, 2 AI sustava - LexBox vs Claude benchmark

Identičnih 10 pitanja iz činjeničnog prava, sudske prakse i praktične primjene. LexBox: 8.3/10. Claude: 6.5/10. Evo detaljne analize svakog odgovora.

11. travnja 2026.Čitaj
Sigurnost8 min

Odvjetnička tajna i AI - kako LexBox čuva povjerljivost vaših podataka

Tri sloja enkripcije, Row Level Security, DPA lanac sa svakim pod-izvršiteljem, EU-only infrastruktura. Tehnički pregled svih mjera koje štite odvjetničku tajnu u LexBoxu.

11. travnja 2026.Čitaj
Benchmark10 min

18 testova, 1.49M vektora, 0% halucinacija - V2 benchmark analiza

Kompletna analiza: 18 testova u 10 kategorija, root cause za svaki neuspjeh, 6 grafova, i konkretan plan poboljšanja. Sve brojke su stvarne.

10. travnja 2026.Čitaj