Programiranje @ Slo-Tech http://slo-tech.com/forum/12/rsssl-si Wed, 20 May 2026 10:59:26 +020015ClicheFactory - Pretvorba dokumentov v validiran JSONhttp://slo-tech.com/forum/t853698#crtaurbsgpwhttp://slo-tech.com/forum/t853698#crtahttp://slo-tech.com/forum/t853698#crtaWed, 20 May 2026 06:50:27 +0200 Rad bi predstavil svoj projekt ClicheFactory (https://clichefactory.com), ki sem ga razvijal z mislijo na developerje. Gre za set orodij namenjenih ekstrakciji podatkov iz nestrukturiranih virov v stroge JSON sheme (Pydantic / JSON Schema).
Namesto zaprtih enterprise platform sem želel narediti nekaj, kar se enostavno integrira v vsakdanji dev-workflow:
Glavne tehnične značilnosti:

1. Različni načini ekstrakcije: na voljo imate Web UI, REST API, Python SDK (pip install clichefactory), CLI in MCP server (pip install clichefactory-mcp). Knjižnice so vse zastonj (omogočajo pa tudi service mode, ki je plačljiva).

2. Treniranje custom pipeline-ov: Če imate na voljo cca 50 dokumentov določenega tipa (čim več tem bolje) vam platforma omogoča treniranje custom rešitve za vaš specifičen problem. Zgenerira se vam artifact_id, ki ga lahko kličete prek SDK-ja ali REST API-ja in integrirate v vaše sisteme. Po izkušnjah: pridobite lahko med 5 in 15 odstotnih točk pri kvaliteti končnega outputa.
3. Konfigurabilnost: povsod je opcija BYOK (za Anthropic, Google in OpenAI trenutno), lahko izbirate različne modele za OCR in za samo ekstrakcijo (optimizacija stroškov), lahko se odločite za SaaS ali pa uporabljate SDK brez interakcije s cloud rešitvijo.

4. 100% Local / Air-gapped delovanje: Zadeva ima pip install clichefactory[local] način, ki se poveže neposredno na lokalno Ollamo. V tem načinu ni nobenega pošiljanja podatkov ven iz vašega omrežja. Tukaj znajo biti sicer ogromne razlike med tem kako se modeli držijo definiranih pydantic shem (ima kdo kakšne dobre izkušnje s specfičnimi modeli?).

5. Pomoč pri anotaciji “golden dataseta”: UI na spletni strani omogoča hitro anotacijo in popravljanje AI predlogov. To lahko poslovnim uporabnikom olajša anotacijo in tudi če kasneje ne uporabite teh anotacij za trening na sami aplikaciji, ker imate npr. že razvito svojo, ste si olajšali ročno delo (in omejili vsaj del napak, ki jih bodo poslovni uporabniki naredili pri anotaciji).

Ime ClicheFactory je interna fora iz mojega neobjavljenega romana Tovarna klišejev, kjer rekombinacija obstoječih klišejev poganja nastanek nečesa novega (kar je v bistvu mehanika delovanja LLM tokenov). Če ima kdo rad ekonomsko teorijo se roman celo najde nekje na strani ;)

Koda za SDK in lokalno delovanje je zunaj, na voljo je tudi free tier (50 strani) za cloud API. Zanimajo me predvsem vaše izkušnje z lokalnimi vision modeli (Ollama) in kako stabilno vam uspeva držati JSON strukturo pri kompleksnejših shemah. Drugače pa kakršenkoli feedback dobrodošel! ]]>