Handshake + Cleanlab: tiha bitka za podatkovno kakovost v dobi AI megamodelov
Medtem ko razprave o umetni inteligenci obsedeno krožijo okoli GPU‑jev in velikosti modelov, se pravi premiki dogajajo precej nižje v skladu – pri podatkih. Prevzem Cleanlaba s strani Handshaka je odlična ilustracija: ni spektakularen po številkah, ampak po tem, kam Handshake postavlja svojo strateško težo. Ne le v ljudi, ki označujejo podatke, temveč v možgane, ki presojajo, ali tem oznakam sploh lahko zaupamo. V nadaljevanju razčlenjujem, kaj se je zgodilo, zakaj je to pomembno tudi za evropski in slovenski ekosistem ter kje se skrivajo nove priložnosti.
Novica na kratko
Kot poroča TechCrunch, je podjetje Handshake, ki se ukvarja z označevanjem podatkov za modele umetne inteligence, prevzelo Cleanlab – mlado podjetje, specializirano za pregled in izboljševanje kakovosti označenih podatkov. Handshake je bil ustanovljen leta 2013 kot platforma za zaposlovanje študentov in diplomantov, pred približno letom dni pa je lansiral posel človeškega označevanja podatkov za največje AI laboratorije. Podatke je med drugim dobavljal tudi OpenAI.
Cleanlab, ustanovljen leta 2021 s strani treh doktorjev računalništva z MIT‑a, razvija programsko opremo, ki samodejno odkriva verjetno napačne oznake v podatkovnih nizih, ne da bi bil potreben drugi človeški pregledovalec. Prevzem je predvsem tako imenovani »acqui‑hire«: devet ključnih članov ekipe, vključno z ustanovitelji, prehaja v Handshakov raziskovalni oddelek. Finančni pogoji transakcije niso bili razkriti, Cleanlab pa je pred tem zbral okoli 30 milijonov dolarjev tveganega kapitala.
Po navedbah TechCruncha je Cleanlab zanimala več konkurenčnih družb za označevanje podatkov, a se je odločil za Handshake, ki je že zdaj vir strokovnjakov (zdravniki, odvetniki, znanstveniki) za številne njihove projekte označevanja.
Zakaj je to pomembno
Ključ je v tem, da se s tem tihim prevzemom premešča razmerje moči v verigi vrednosti umetne inteligence. Handshake je bil do zdaj predvsem platforma za dostop do človeškega znanja – nekakšen LinkedIn za visokokvalificirane označevalce podatkov. Z ekipo Cleanlab pa ne kupi zgolj dodatnih razvojnikov, temveč algoritme in raziskovalno znanje, ki odločata, katerim oznakam sploh lahko verjamemo.
V kratkem roku so zmagovalci jasni:
- Handshake dobi ugledno raziskovalno ekipo z večletnim delom na algoritmih za odkrivanje napačno označenih primerov. To pomeni potencialno višjo kakovost podatkov in nižje stroške ročne kontrole.
- njihove stranke – AI laboratoriji – dobijo bolj čiste podatke, kar se pogosto neposredno pozna na kakovosti modelov, brez dodatnega treniranja ali dragega eksperimentiranja z arhitekturami.
- ustanovitelji in investitorji Cleanlaba imajo izhod v segmentu, kjer je težko graditi samostojen business – orodja za kakovost podatkov se pogosto zlijejo v večje platforme.
Na drugi strani so poraženci manj očitni. Konkurenti, ki so si prav tako želeli Cleanlab, zdaj gledajo v Handshake, ki postaja hkrati strateški dobavitelj strokovnjakov in tehnološko vse bolj napreden pri zagotavljanju kakovosti. Manjši ponudniki, ki tekmujejo zgolj s ceno označevanja, bodo težko dohajali standard, kjer največji naročniki pričakujejo avtomatiziran nadzor napak in jasna poročila o kakovosti.
Prevzem naslavlja enega glavnih ozkih grl sodobne AI: človeške oznake so hrupne, pristranske in drage za dvojno preverjanje. Ročno dvojno označevanje se pri velikih podatkovnih nizih hitro sesuje pod lastno težo. Cleanlab‑ov pristop del te kontrole avtomatizira in spremeni – kakovost oznak ni več samo organizacijski problem, temveč tehnična lastnost sistema. To je natanko vrsta lastnega »moata«, ki lahko nekoč storitveni posel prelevi v težko zamenljivo infrastrukturo.
Širša slika
Če pogledamo širše, se ta prevzem lepo ujema z večletnim trendom: težišče inovacij se seli iz modelov k podatkovnim cevovodom.
V zadnjih letih smo videli vrsto odmevnih prevzemov specializiranih AI ekip: Databricks je kupil MosaicML, da je okrepil svoj trening‑stack; Snowflake je prevzel ekipo iskalnika Neeva, da je dobil lastno generativno jedro; številni ponudniki oblaka so v tišini pobrali ekipe za RLHF in evalvacijo modelov. Vsa ta gibanja imajo isti cilj – obvladovanje plasti, ki jih ni lahko skopirati samo z dodajanjem še ene gruče GPU‑jev.
Označevanje podatkov je bilo dolgo razumljeno kot cenovno občutljiv outsourcing, pogosto prepuščen velikim delovnim silam v državah z nižjimi stroški dela. A z nastopom temeljnih modelov se je ekonomika spremenila: ko en sam model služi milijonom uporabnikov, lahko majhna izboljšava kakovosti v nekem nišnem podatkovnem sklopu (npr. medicinske slike, sodna praksa) prinese nesorazmerno velike učinke.
Handshake je tu zanimiv iz dveh razlogov. Prvič, že v izhodišču dela predvsem s strokovnjaki – zdravniki, pravniki, inženirji – in ne generičnimi »crowdworkerji«. Drugič, z vgradnjo Cleanlab‑ovih algoritmov lahko združi kdo označuje podatke z vse pametnejšim sistemom, ki odloča katerim oznakam verjeti in katere vreči ven.
To je učbeniški primer t. i. data‑centric AI: osredotočenost na iteriranje podatkov, ne zgolj modelov. Namesto mentalnega modela »zberemo podatke, jih enkrat označimo, nato pa igramo z arhitekturami«, se pojavlja nov pristop: podatki so živa komponenta, ki jo nenehno čistimo, dokumentiramo in izboljšujemo. Handshake + Cleanlab se zelo lepo umeščata v ta okvir.
Signal za preostalo industrijo – tudi slovenske ekipe – je precej neposreden: če na podatke še vedno gledate kot na »gorivo«, ki ga kupite enkrat in nato samo kurite, ste korak za konkurenco.
Evropski in slovenski kot
Za evropska podjetja in javne institucije, ki uvajajo AI, ima ta zgodba zelo konkreten podton: vprašanje podatkovne odvisnosti in regulative.
EU AI Act, skupaj z GDPR in prihajajočimi izvedbenimi akti, od ponudnikov zahteva natančno upravljanje podatkov: sledljivost izvora, opis postopkov označevanja, analizo pristranskosti, človeški nadzor. Za »visoko tvegane« sisteme – od zdravstva do javnega sektorja – bo treba dokazati, da so bili podatki primerni in korektno obdelani.
Algoritmi, kot jih razvija Cleanlab, lahko pri tem močno pomagajo. Težava je, da je Handshake ameriško podjetje, usmerjeno na globalne AI laboratorije. Za evropske bolnišnice, banke ali javne organe ni trivialno pošiljati občutljivih podatkov (zdravstveni zapisi, sodne odločbe, osebni podatki) k ponudniku v ZDA, tudi če so podpisane standardne pogodbene klavzule in so strežniki fizično v EU.
Hkrati pa tukaj nastaja tržna niša, ki je evropski ekosistem še ni resno napadel. Imamo močne podatkovne in ML ekipe v Berlinu, Parizu, Londonu in tudi v naši regiji – od Ljubljane do Zagreba in Budimpešte –, a malo podjetij, ki bi se osredotočala specifično na kakovost označevanja, sledljivost in skladnost z regulativo.
Za slovenska podjetja, ki danes prodajajo storitve označevanja ali podatkovnega inženiringa predvsem v tujino, je to priložnost in opozorilo hkrati. Tekmovanje zgolj s ceno dela bo težko, če bodo ameriški igralci ponujali celoten paket: dostop do globalnih ekspertov, napredne algoritme za kontrolo kakovosti in integrirana poročila za regulatorje. Močna karta Evrope – in Slovenije v njej – so lahko rešitve, ki so privzeto skladne z EU pravili, podatki pa ostanejo v evropski jurisdikciji.
Pogled naprej
V naslednjem letu ali dveh lahko pričakujemo nadaljnjo konsolidacijo plasti »data quality«: orodja za pregled oznak, verzioniranje podatkovnih nizov, stresno testiranje modelov in evalvacijo bodo vse pogosteje združena v večje platforme – bodisi pri oblakih, MLOps ponudnikih ali pri največjih label‑vendorjih.
Za Handshake bo ključno nekaj odprtih vprašanj:
- Nevtralna infrastruktura ali tekmec? Trenutno tudi nekateri konkurenti uporabljajo Handshake kot vir strokovnjakov. Če bo Handshake s Cleanlabom postal očitno tehnološko superioren, bo dolgoročno težko ostati »nevtralen dobavitelj«.
- Kako globoka bo integracija? Acqui‑hire je enostavno podpisati, veliko težje je njihove algoritme vgraditi v vse faze – od onboardinga označevalcev do končnih poročil za stranke in regulatorje.
- Prilagoditev evropski regulativi. Ko se bo AI Act začel zares izvajati, bodo podjetja iskala rešitve »AI‑ready & EU‑ready«. Tisti, ki bodo lahko ponudili avtomatično generirana poročila, sledljivost in dokazila o kakovosti podatkov, bodo imeli veliko prednost pri bankah, zavarovalnicah in javnem sektorju.
Za slovenske in regionalne startupe se tukaj odpirajo zanimive niše: od orodij za generiranje sintetičnih podatkov z vgrajenimi jamstvi kakovosti do vertical‑specifičnih evalvacijskih kompletov (npr. za proizvodnjo, logistiko ali turizem) ter on‑premise rešitev za organizacije, ki podatkov ne smejo ali ne želijo pošiljati v oblak.
Vzporedno bo prišlo tudi do kulturnega premika: od enkratnih projektov »počistimo dataset pred treningom« k stalnemu spremljanju kakovosti podatkov – podobno kot je DevOps spremenil izdajo kode iz dogodka v proces.
Zaključek
Prevzem Cleanlaba ni velik naslov zaradi številk, temveč zaradi signalov: v naslednji fazi AI tekme bo odločala kakovost in sledljivost podatkov, ne samo veličina modela. Handshake jasno stavi na to, da bo nadzor nad oznakami – in nad algoritmi, ki jim merijo pulz – postal strateška infrastruktura. Za evropske in slovenske ekipe je vprašanje preprosto, a neprijetno: bomo ta sloj prepustili ameriškim platformam ali bomo pravočasno zgradili lastno, regulativno in tehnično konkurenčno plast podatkovne kakovosti?



