AI modely
Není to tak dávno, kdy se neuronové modely ve většině tuzemských firmách vyvíjely ručně. V dávných dobách roku 2018 jsem to dělal i já. Dnes jsou modely vyvíjeny ve velkých týmech velkých společností, kterým se nelze kvůli vynaloženým zdrojům prakticky rovnat. Jenom natrénování nového ChatGPT stojí miliony dolarů. Situace se změnila. Které ale zvolit?
Jazykové modely
Svět se už nějakou dobu sžívá s modelem GPT z dílen OpenAI. Není však jedinou neurovonou sítí, která se pro práci s jazykem používá. Pro specifičtější úlohy v jazyce, například rozpoznávání jmen nebo detekce nálad, může být vhodnější BERT.
Obrazové modely
Pokud chceme detekovat objekty z obrázků, kterých je plný internet, můžeme použít některý z Google modelů, které se inkrementálně vyvíjejí už od dob poslední Deep learning revoluce. Například EfficientNet, se škálovatelnou přesností a výpočetními nároky.
Pro detekci objektů ve videu poslouží stále dobře třeba projekt YOLO. Před pár lety jsme jím na dev hackathonu vytvořili drona-alkoholika, který létal po místnosti a vyhledával pivní láhve. Zdejšími limity jsou pouze lidská fantazie.
Generativní modely
Nedělají primárně rozpoznávání, ale generují vlastní obsah na základě vstupu. I ChatGPT je generativním modelem, ale LLM jsou pro svoji popularitu ve vlastní kategorii. Proto zde zmíním obraz, zvuk nebo celé video. Na poli toho prvního dnes vedou MidJourney a DALL-E. Pro video je dnes ve fázi beta-testingu Sora.
Řečové modely
OpenAI se neblýskl pouze GPT, ale v IT komunitě je známý i díky Whisperu. Ten s poměrně vysokou přesností převádí řeč na text. Svůj relativní stín si vysloužil jen díky tomu, že pro něj OpenAI neposkytuje API a firmy si tak musejí model nasazovat samy. Přesností svého large modelu však mnohdy překonává i lidské posluchače.
Vydat se opačným směrem, tedy z textu na řeč je poměrně jednodušší. Existuje spousta nástrojů a API, mezi nimi například ElevenLabs. Zajímavě se poslední dobou jeví i klonování hlasu, které je však trochu upozaděno kvůli vyzdvihovaným kontroverzím.
Samotný model není vše
I u odzkoušeného a fungujícího modelu je správnost vstupních dat kritická a dělají se tam často chyby. Kdysi jsem zažil následující situaci. Na dobře fungující model posílal jeden z inženýrů vstupní data transformací logaritmem o dvojkovém základu. Popis vstupu však jasně mluvil o potřebě desítkové báze. Daný inženýr si jej sice přečetl, ale prostě jen nevěděl, jaký je pro něj příkaz, tak zvolil špatný. Služba pak sice nefungovala dobře, ale nějakou dobu se nedařilo přijít na to, čím to je. Byl to tenhle malý, lehce přehlédnutelný jediný řádek kódu.
Závěr
Našli jste nějaký zajímavý use-case pro svou firmu? U i modelů třetích stran je však třeba dodržovat jasně postup, dodávat dokumentaci a nejlépe připravit nějaké příklady použití. Použít model podle dané domény: problém detekce kouře zřejmě nevyřešíme sítí na automatické farmaření. Pokud se domluvíme, dokážu tyto náležitosti zajistit. Organizace se tak vyhne zbytečným trablím spojených se špatným použitím modelů.