Articles

a végpontok közötti gépi tanulási munkafolyamat áttekintése

egy szem ikonja

ebben a részben magas szintű áttekintést nyújtunk a gépi tanuláson alapuló szoftverfejlesztés tipikus munkafolyamatáról.Általában a gépi tanulási projekt célja egy statisztikai modell felépítése az összegyűjtött adatok felhasználásával és gépi tanulási algoritmusok alkalmazásával.Ezért minden ML-alapú szoftver három fő mellékterméket tartalmaz: adatok, ML modell és kód. Ezeknek a tárgyaknak megfelelően a tipikus gépi tanulási munkafolyamat három fő szakaszból áll:

  • Data Engineering: adatgyűjtés & adatok előkészítése,
  • ML Model Engineering: ML modell képzés & szolgáló, és
  • Code Engineering :integrálása ML modell a végtermék.

az alábbi ábra egy tipikus ML-munkafolyamat alapvető lépéseit mutatja.

Machine Learning Engineering

Data Engineering

minden adattudományi munkafolyamat kezdeti lépése az elemzendő adatok megszerzése és előkészítése.Az adatokat általában különböző erőforrásokból integrálják, és különböző formátumúak.Az adatok előkészítése az adatgyűjtési lépést követi, amely a Gartner szerint “iteratív és agilis folyamat a nyers adatok feltárására, kombinálására, tisztítására és átalakítására kurált adatkészletekké az adatintegráció, az Adattudomány, az adatfelderítés és az analitika/üzleti intelligencia (BI) felhasználási esetek számára”.Annak ellenére, hogy az előkészítési szakasz egy közbenső szakasz, amelynek célja az adatok elemzése, a jelentések szerint ez a szakasz a legdrágább az erőforrások és az idő tekintetében.Az adatok előkészítése kritikus tevékenység az adattudományi munkafolyamatban, mert fontos elkerülni az adathibák terjedését a következő szakaszba, az adatelemzésbe, mivel ez az adatokból téves felismerések levezetését eredményezné.

az Adatmérnöki folyamat a rendelkezésre álló adatokon végzett műveletek sorozatát tartalmazza, amely a gépi tanulási algoritmusok képzési és tesztelési adatkészleteinek ellátásához vezet:

  1. adatgyűjtés – adatgyűjtés különböző keretrendszerek és formátumok, például Spark, HDFS, CSV stb. Ez a lépés magában foglalhatja a szintetikus adatgenerálást vagy az adatok gazdagítását is.
  2. feltárás és érvényesítés – magában foglalja az adatok profilozását az adatok tartalmára és szerkezetére vonatkozó információk megszerzése érdekében. Ennek a lépésnek a kimenete metaadatok halmaza, például max, min, avg értékek. Az adatellenőrzési műveletek felhasználó által definiált hibakeresési funkciók, amelyek átvizsgálják az adatkészletet néhány hiba észlelése érdekében.
  3. Data Wrangling (Tisztítás) – az egyes attribútumok újraformázásának folyamata és az adatok hibáinak kijavítása, például a hiányzó értékek imputálása.
  4. Adatcímkézés – az Adattechnikai csővezeték működése, ahol minden adatpont egy adott kategóriához van rendelve.
  5. Adathasítás – az adatok felosztása képzési, érvényesítési és tesztadatkészletekre, amelyeket az ML modell előállításához a gépi tanulás alapvető szakaszaiban kell használni.

Model Engineering

az ML munkafolyamat lényege az ML modell megszerzéséhez szükséges gépi tanulási algoritmusok írásának és végrehajtásának fázisa. A model Engineering csővezeték számos olyan műveletet tartalmaz, amelyek végső modellhez vezetnek:

  1. Modellképzés – a gépi tanulási algoritmus alkalmazásának folyamata a képzési adatokon egy ML modell kiképzésére. Ez magában foglalja a funkció mérnöki és a hiperparaméter tuning a modell képzési tevékenység.
  2. Modellértékelés – a betanított modell érvényesítése annak biztosítása érdekében, hogy az megfeleljen az eredeti kodifikált céloknak, mielőtt az ML modellt a gyártásban a végfelhasználónak kiszolgálja.
  3. modell tesztelés – a végső “modell elfogadási teszt” végrehajtása a hold backtest adatkészlet használatával.
  4. Modellcsomagolás – a végső ML-modell exportálásának folyamata egy meghatározott formátumba (pl. PMML, PFA vagy ONNX), amely leírja a modellt annak érdekében, hogy az üzleti alkalmazás felhasználja.

Modelltelepítés

miután betanítottunk egy gépi tanulási modellt, azt egy üzleti alkalmazás, például mobil vagy asztali alkalmazás részeként kell telepítenünk.Az ML modellek különféle adatpontokat igényelnek (jellemző vektor) az előrejelzések előállításához.Az ML munkafolyamat utolsó szakasza a korábban megtervezett ML modell integrálása a meglévő szoftverbe.Ez a szakasz a következő műveleteket tartalmazza:

  1. modell kiszolgálás – az ML modell tárgyának kezelése termelési környezetben.
  2. Model Performance Monitoring – az ML modell teljesítményének megfigyelése élő és korábban nem látott adatok, például előrejelzés vagy ajánlás alapján. Különösen az ML-specifikus jelek érdekelnek, mint például a korábbi modell teljesítményétől való előrejelzési eltérés. Ezeket a jeleket fel lehet használni a modell átképzésének kiváltóiként.
  3. modell teljesítmény naplózása – minden következtetési kérelem eredménye a log-rekord.