Articles

yleiskatsaus koneoppimisen työnkulkuun

silmän kuvake

tässä osiossa annamme korkean tason yleiskuvan koneoppimiseen perustuvan ohjelmistokehityksen tyypillisestä työnkulusta.Yleensä koneoppimisprojektin tavoitteena on rakentaa tilastollinen malli käyttämällä kerättyä dataa ja soveltamalla niihin koneoppimisen algoritmeja.Siksi jokainen ML-pohjainen ohjelmisto sisältää kolme pääesinettä: Data, ML-malli ja koodi. Vastaa näitä esineitä, tyypillinen koneoppimisen työnkulku koostuu kolmesta päävaiheesta:

  • Tietotekniikka: tiedonhankinta & tiedonvalmistus,
  • ML Mallitekniikka :ML mallikoulutus & palveleva, ja
  • Kooditekniikka: ml-mallin integrointi lopputuotteeseen.

alla olevassa kuvassa esitetään tyypilliseen ML: n työnkulkuun liittyvät keskeiset vaiheet.

 Koneoppimistekniikka

Tietotekniikka

datatieteen työnkulun ensimmäinen vaihe on analysoitavan datan hankkiminen ja valmistelu.Tyypillisesti dataa integroidaan eri resursseista ja sillä on eri formaatit.Tietojen valmistelu seuraa tiedonhankinnan vaihetta, joka on Gartnerin mukaan ”iteratiivinen ja ketterä prosessi raakadatan tutkimiseksi, yhdistämiseksi, puhdistamiseksi ja muuntamiseksi kuratoiduiksi tietokokonaisuuksiksi datan integrointia, datatieteitä, tiedon löytämistä ja analytiikkaa/business intelligence (BI) – käyttötapauksia varten”.Vaikka valmisteluvaihe on välivaihe, jonka tarkoituksena on valmistella tietoja analysointia varten, tämän vaiheen kerrotaan olevan resursseihin ja aikaan nähden Kallein.Tiedon valmistelu on kriittinen toiminto datatieteen työnkulussa, koska on tärkeää välttää datavirheiden eteneminen seuraavaan vaiheeseen, data-analyysiin, koska tämä johtaisi väärien oivallusten johtamiseen datasta.

Data Engineering pipeline sisältää käytettävissä olevan datan toimintajakson, joka johtaa koneoppimisen algoritmien koulutus-ja testaustietojen toimittamiseen:

  1. tietojen nieleminen-tietojen kerääminen käyttämällä erilaisia kehyksiä ja formaatteja, kuten Spark, HDFS, CSV, jne. Tähän vaiheeseen voi kuulua myös synteettisen tiedon tuottaminen tai tietojen rikastaminen.
  2. etsintä ja validointi – sisältää tiedon profiloinnin tietojen sisällön ja rakenteen saamiseksi. Tämän vaiheen ulostulo on joukko metatietoja,kuten arvojen max, min, avg. Tietojen validointitoiminnot ovat käyttäjän määrittämiä virheenpaljastustoimintoja, jotka skannaavat aineiston joidenkin virheiden havaitsemiseksi.
  3. Data Wrangling (Cleaning)-prosessi tiettyjen attribuuttien uudelleenmuotoilusta ja tietojen virheiden, kuten puuttuvien arvojen imputoinnin korjaamisesta.
  4. tietojen merkitseminen-Tietotekniikkaputken toiminta, jossa jokainen datapiste on osoitettu tiettyyn luokkaan.
  5. tietojen jakaminen-tietojen jakaminen koulutus -, validointi-ja testiaineistoihin, joita käytetään koneoppimisen ydinvaiheissa ML-mallin tuottamiseksi.

Mallitekniikka

ML-työnkulun ydin on koneoppimisen algoritmien kirjoittamisen ja toteuttamisen vaihe ML-mallin saamiseksi. Malli Engineering putki sisältää useita toimia, jotka johtavat lopulliseen malliin:

  1. Mallikoulutus-koneoppimisen algoritmin soveltaminen HARJOITUSTIETOIHIN ML-mallin kouluttamiseksi. Se sisältää myös ominaisuus engineering ja hyperparametri viritys malli koulutus toimintaa.
  2. mallin arviointi-koulutetun mallin validointi sen varmistamiseksi, että se täyttää alkuperäiset kodifioidut tavoitteet ennen kuin ML-malli toimitetaan tuotannossa loppukäyttäjälle.
  3. Model Testing-lopullisen ”Model Acceptance Test” – testin suorittaminen hold backtest-tietokokonaisuuden avulla.
  4. Mallipakkaus – prosessi, jossa lopullinen ML-malli viedään tiettyyn malliin (esim.pmml, PFA tai ONNX), jossa kuvataan mallia, jotta yrityshakemus kuluttaisi sen.

Model Deployment

kun olemme kouluttaneet koneoppimisen mallin, meidän on otettava se käyttöön osana liiketoimintasovellusta, kuten mobiili-tai työpöytäsovellusta.ML-mallit vaativat erilaisia datapisteitä (ominaisuusvektori) ennusteiden tuottamiseen.ML-työnkulun viimeinen vaihe on aiemmin suunnitellun ML-mallin integrointi olemassa oleviin ohjelmistoihin.Tähän vaiheeseen kuuluvat seuraavat toimet:

  1. malli palvelee-prosessi käsitellä ML malli artefakti tuotantoympäristössä.
  2. Model Performance Monitoring – prosessi, jossa ML-mallin suorituskykyä tarkkaillaan elävien ja aiemmin näkemättömien tietojen, kuten ennusteen tai suosituksen perusteella. Erityisesti olemme kiinnostuneita ML-spesifisistä signaaleista, kuten ennustepoikkeamasta aiemmasta mallin suorituskyvystä. Näitä signaaleja voidaan käyttää laukaisijoina mallin uudelleenkoulutuksessa.
  3. mallin suorituskyvyn kirjaaminen-jokainen päättelypyyntö johtaa lokitietueeseen.