- Sprendimų medžiai modeliuoja prognozes rekursiniais skaidymais, parinktais siekiant sumažinti priemaišas, naudojant tokius matavimus kaip Gini, entropija arba dispersija.
- Informacijos prieaugis padeda kiekviename mazge pasirinkti funkciją ir slenkstį, leisdamas medžiams apdoroti ir regresiją, ir klasifikavimą.
- Hiperparametrai, tokie kaip „max_depth“, „min_samples_split“ ir „min_information_gain“, kontroliuoja perteklinį pritaikymą ir medžio sudėtingumą.
- Prieš pereinant prie ansamblių, tokių kaip atsitiktiniai miškai, kurie stabilizuoja ir pagerina našumą, būtina suprasti vieno medžio mechaniką.
Sprendimų medžio regresija nuo nulio yra vienas iš labiausiai akis atveriančių pratimų, kuriuos galite atlikti, jei norite iš tikrųjų suprasti, kaip mąsto medžiais pagrįsti modeliai ir kodėl jie tokie populiarūs mašininio mokymosi srityje. Užuot laikę medį paslaptinga juoda dėže, pamatysite, kaip pasirenkamas kiekvienas plyšys, kaip matuojamos priemaišos ir kaip lapuose sukuriamos skaitinės prognozės, tiek regresinėms, tiek klasifikavimo problemoms spręsti.
Šiame vadove apžvelgsime pagrindines sprendimų medžių idėjas, jų naudojamas sąnaudų funkcijas, kaip jie ieško geriausių skaidymų ir kaip užkoduoti pagrindinį medį, kuris palaiko ir regresiją, ir klasifikavimą, naudojant tik pagrindines sąvokas, tokias kaip ciklai, sąlygos ir paprasta statistika. Pakeliui palyginsime regresinius ir klasifikacinius medžius, susiesime teoriją su praktiniu įgyvendinimu tokiose priemonėse kaip Python ir R (pavyzdžiui, su rpart ir tree) ir trumpai išdėstysime sprendimų medžius didesniuose ansambliuose, tokiuose kaip atsitiktiniai miškai.
Kas yra sprendimų medis ir kodėl jis toks intuityvus?
Sprendimų medis iš esmės yra „taip“/„ne“ klausimų (arba paprastų taisyklių) srautas, kuris veda jus nuo pagrindinio sprendimo iki galutinės prognozės lapo mazge. Įprastoje prižiūrimo mokymosi aplinkoje tikslas yra numatyti tikslinį kintamąjį Y naudojant kelis prognozuojančius veiksnius (požymius, kovariatus), medis išmoksta klausimų seką, pvz., „ar svoris ≤ 103?“ arba „ar šalis yra {JAV, JK, Kalifornijoje}?“, kuri palaipsniui suskirsto duomenis į homogeniškesnes grupes.
Kad būtų aiškiau, įsivaizduokite, kad norite nuspėti, ar kas nors yra nutukęs, naudodami tik ūgį ir svorį, ir turite paženklintą duomenų rinkinį, kuriame nurodoma, kas yra nutukęs, o kas ne. Medis gali atrasti taisyklę, pavyzdžiui, „jei svoris > 100 kg, prognozuoti nutukimą“, tačiau ši taisyklė nebus tobula: kai kurie žmonės, sveriantys daugiau nei 100 kg, nebus nutukę, o kai kurie, sveriantys žemiau šios ribos, bus. Tada medis nuolat prideda daugiau klausimų (suskirstomų klausimų), pavyzdžiui, apie ūgį ar patikslintą svorio ribą, kad „tikslintų“ tas pradines apytiksles prognozes.
Kiekvienas vidinis medžio mazgas atitinka sprendimo taisyklę, kiekviena šaka atitinka vieną tos taisyklės rezultatą, o kiekvienas lapo mazgas atitinka požymių erdvės regioną, kuriame prognozės yra pastovios. Klasifikuojant lapas grąžina klasės žymę (arba tikimybių pasiskirstymą pagal žymes); regresijoje lapas paprastai grąžina į tą regioną patenkančių tikslinių reikšmių vidurkį.
Vienas pagrindinių sprendimų medžių privalumų yra tas, kad jie natūraliai tvarko ir regresiją, ir klasifikavimą, juos lengva interpretuoti ir jie veikia tiek su kiekybiniais, tiek su kokybiniais (kategoriniais) prognozavimo veiksniais, nereikalaujant sunkaus išankstinio apdorojimo. Jums nereikia daryti prielaidos apie kokį nors konkretų savo objektų ar tikslo pasiskirstymą, todėl medžiai yra labai patrauklūs realiose situacijose, kai dažnai pažeidžiamos klasikinės tiesinės prielaidos.
Klasifikavimas ir regresiniai medžiai
Nors klasifikavimo ir regresijos medžių struktūra yra ta pati, atsako kintamojo Y pobūdis ir skaidymui naudojama sąnaudų funkcija šiuose dviejuose tipuose skiriasi. Kai Y yra kiekybinis (pavyzdžiui, pardavimai, gyvenimo trukmė, degalų sąnaudos), kalbame apie regresinį medį; kai Y yra kokybinis arba kategorinis (pavyzdžiui, išgyveno vs. neišgyveno, nutukęs vs. nenutukęs), kalbame apie klasifikavimo medį.
Regresiniame medyje įprastas tikslas yra padalinti požymių erdvę į regionus, kuriuose atsaką galima apytiksliai įvertinti konstanta, dažnai to regiono stebėjimų vidurkiu. Tipinės sprendimų taisyklės yra tokios: „yra xk ≤ c?”, kur xk yra vienas iš kovariantų, o c yra riba; šios taisyklės pakartotinai padalija erdvę į hiperstačiakampius, ir visi taškai tame pačiame hiperstačiakampyje turi tą pačią numatomą reikšmę ŷ.
Klasifikacijos medyje skaidymai vis dar yra „požymis ≤ slenkstis?“ arba „kategorija rinkinyje S?“, tačiau skaidymo kokybė matuojama pagal tai, kiek gryni gauti antriniai mazgai yra klasių žymų atžvilgiu. Lapo prognozė paprastai yra daugumos klasė tame mazge, o modelis stengiasi sukurti lapus, kurie kuo arčiau sudarytų tik iš vienos klasės.
Nepaisant šių tikslinio tipo skirtumų, kodavimo požiūriu galite įdiegti vieną bendrą medžio struktūrą ir tiesiog pridėti skirtingus priemaišų ar nuostolių matus, priklausomai nuo to, ar atliekate regresiją, ar klasifikavimą. Vėliau, kai skaičiuosime informacijos prieaugį, pamatysite, kad klasifikavimo (remiantis entropija) ir regresijos (remiantis dispersija) formulės yra lygiagrečios.
Priemaišų ir sąnaudų funkcijos sprendimų medžiuose
Bet kurio sprendimų medžio algoritmo centre yra sąnaudų funkcija, kuri įvertina, kaip gerai konkretus suskirstymas atskiria duomenis į prasmingas grupes. Ši sąnaudų funkcija išreiškiama priemaišų kiekiu: mazgas laikomas grynu, jei visi jo pavyzdžiai priklauso tai pačiai klasei (klasifikavimui) arba turi beveik tą pačią skaitinę vertę (regresijai).
Kai pasirenkate potencialų padalinį pagal funkciją, algoritmas peržiūri savo sukurtus antrinius mazgus ir klausia: „kiek sumaišytos yra kiekvieno antrinio mazgo etiketės (arba reikšmės)?“ Geras padalijimas yra toks, kuris sukuria daug mažiau užterštus antrinius mazgus nei tėvinis mazgas, o tai reiškia, kad kiekvieno antrinio mazgo duomenys yra homogeniškesni tikslo atžvilgiu.
Klasifikavimo medžiuose priemaišos paprastai matuojamos tokiais kriterijais kaip Gini indeksas arba entropija, kurie abu parodo, kokia tikimybė, kad atsitiktinai pasirinktas stebėjimas tame mazge būtų neteisingai klasifikuotas, jei tiesiog numatytume daugumos klasę. Regresiniuose medžiuose priemaišos dažniausiai matuojamos kvadratine paklaida arba dispersija, atspindinčia, kaip tikslinės vertės yra paskirstytos mazge.
Gini indeksas: priemaišų matavimas klasifikavimo medžiuose
Gini indeksas yra vienas iš dažniausiai naudojamų priemaišų matų klasifikavimo medžiuose, nes jį paprasta apskaičiuoti ir jis gerai veikia praktikoje. Konceptualiai tai matuoja tikimybę, kad atsitiktinai pasirinktas mazgo stebėjimas būtų neteisingai klasifikuojamas, jei jo etiketė būtų prognozuojama pagal etiketės pasiskirstymą tame mazge.
Jei mazge yra klasės su tikimybėmis P1P2, …, Pn, Gini indeksas apskaičiuojamas taip: Gini = 1 − Σ (Pi)². Kai mazgas yra visiškai grynas (visi stebėjimai priklauso tai pačiai klasei), viena iš tikimybių yra lygi 1, o likusios – 0, taigi kvadratų suma yra 1, o Gini indeksas yra 0, o tai rodo visišką grynumą.
Kita vertus, Gini indeksas pasiekia maksimumą, kai klasės mazgo viduje yra tolygiai sumaišytos, pavyzdžiui, dvejetainiame uždavinyje su P1 = P2 = 0.5, o tai reiškia, kad Gini = 1 − (0.5² + 0.5²) = 0.5. Tokioje situacijoje daugumos klasės numatymas yra pats blogiausias, kokį tik galima gauti tokiam skirstiniui, nes mazge yra pusė kiekvienos klasės.
Įdiegiant Gini funkciją kode, paprastai imamas mazgo žymėjimo vektorius, apskaičiuojamas kiekvienos klasės dažnis, dažniai konvertuojami į tikimybes ir tada taikoma formulė 1 − Σ p². Jei tai atliksite su keliais potencialiais skaidymais, galėsite palyginti, kuris skaidymas sukuria vaikus su mažesniu svertiniu Gini priemaišos vidurkiu, o to medžiui reikia, kad jis galėtų pasirinkti geriausią skaidinį.
Entropija: kitas klasifikavimo priemaišų požiūris
Entropija yra alternatyvus priemaišų matas, plačiai naudojamas informacijos teorijoje ir ankstyvuosiuose medžių algoritmuose, tokiuose kaip ID3 ir C4.5, ir jis fiksuoja atsitiktinumo arba neapibrėžtumo kiekį mazgo klasių pasiskirstyme. Nors Gini daugiausia dėmesio skiria klaidingo klasifikavimo tikimybei, entropija kiekybiškai įvertina „staigmeną“, susijusią su konkrečios klasės stebėjimu, kai pasiskirstymas yra mišrus.
Duotos klasės tikimybės p1, …, p.c Mazgo S entropija apibrėžiama kaip E(S) = − Σ pi log₂(pi). Jei mazgas yra grynas, viena iš tikimybių yra lygi 1, o visos kitos yra 0, todėl suma lygi nuliui (nes log₂(1) = 0), taigi entropija lygi 0, o tai rodo, kad nėra neapibrėžtumo.
Kai mazge yra tolygus klasių pasiskirstymas, entropija yra maksimali; dvejetainio uždavinio su p atveju1 =p2 = 0.5, entropija yra 1 bitas, o tai yra didžiausia galima dviejų klasių vertė. Ši vertė atitinka didžiausią neapibrėžtumą, o tai reiškia, kad mazgas yra toks užterštas, koks tik gali būti esant tokiam pasiskirstymui.
Nors Gini ir entropija naudoja skirtingas formules ir turi skirtingus skaitinius diapazonus (Gini yra nuo 0 iki 0.5 dviem klasėms, entropija – nuo 0 iki 1), abi iš esmės matuoja tą pačią sąvoką, todėl praktikoje jos paprastai veda prie labai panašių medžių. Kai skaičiuosite abu tame pačiame mazge, pamatysite, kad didelis Gini atitinka didelę entropiją ir atvirkščiai, todėl daugelis bibliotekų leidžia pasirinkti bet kurį iš jų drastiškai nepakeičiant našumo.
Informacijos gavimas ir geriausių padalijimų pasirinkimas
Norėdamas pasirinkti geriausią padalijimą iš daugelio kandidatų, medžio algoritmas naudoja metriką, vadinamą informacijos prieaugiu, kuri matuoja, kiek sumažėja priemaišų, kai mazgą padalijame į jo vaikus. Intuityviai vertinant, padalijimas turi didelį informacijos prieaugį, jei vaikai yra daug grynesni nei tėvas, o tai reiškia, kad taisyklė sėkmingai atskyrė duomenis į prasmingesnes grupes.
Klasifikavimo medžiams, naudojantiems entropiją, skaidymo informacijos prieaugis apibrėžiamas kaip IGklasifikacija = E(tėvinis) − Σ (|Svaikas| / |Stėvas|) · E(Svaikas). Pirmiausia apskaičiuojate pirminio mazgo entropiją, tada atimate antrinių mazgų svertinį vidutinį entropiją, kur svoriai yra jų santykiniai dydžiai.
Regresijos medžių atveju analogiška koncepcija naudoja dispersiją arba vidutinę kvadratinę paklaidą kaip priemaišų matą, gaudama IGregresija = Var(tėvinis) − Σ (|Svaikas| / |Stėvas|) · Var(Svaikas). Šioje aplinkoje geras padalijimas yra toks, kuris gerokai sumažina tikslinių verčių kintamumą kiekvieno vaiko viduje.
Medžio mokymo algoritmas įvertina šį informacijos prieaugį kiekvienam galimam kiekvienos funkcijos skirstymui, tada pasirenka skirstymą su didžiausiu prieaugiu, jei jis viršija tam tikrą minimalią ribą, kad būtų išvengta nenaudingų, mažų patobulinimų. Šis procesas rekursyviai kartojamas kiekviename antriniame mazge, kol pasiekiami tam tikri stabdymo kriterijai.
Kaip rasti geriausią kiekvienos funkcijos padalijimą
Geriausio vieno požymio padalijimo radimas priklauso nuo to, ar požymis yra skaitinis, ar kategorinis, tačiau pagrindinė idėja visada ta pati: išvardyti kandidatų skaidinius ir apskaičiuoti jų informacijos prieaugį. Skaitmeninių požymių atveju skaidinys apibrėžiamas slenksčiu; kategorinių požymių atveju jis apibrėžiamas grupuojant lygius į pogrupius.
Skaitmeniniam prognozuotojui įprasta strategija yra peržiūrėti visas unikalias reikšmes, kurias funkcija gauna dabartiniame mazge, jas surūšiuoti ir tada apsvarstyti galimas ribas tarp iš eilės einančių reikšmių. Kiekvienam potencialiam slenksčiui c sukuriate dvi grupes (x ≤ c ir x > c), apskaičiuojate kiekvienos grupės priemaišas ir tada apskaičiuojate informacijos prieaugį; slenkstis, kuris duoda didžiausią prieaugį, yra geriausias jūsų skaitinis tos funkcijos padalijimas.
Dirbant su kategoriniais nuspėjamaisiais veiksniais, paieškos erdvė yra sudėtingesnė, nes iš principo bet kuris kategorijų poaibis gali sudaryti vieną padalijimo pusę, o papildinys – kitą pusę. Funkcijoje su K kategorijomis yra daug galimų pogrupių (2K−1 − 1 ne trivialus skaidinys), todėl praktikoje ši paieška dažnai apribojama arba naudojama euristika, ypač kai K yra didelis.
Apskaičiavus geriausią kiekvienos savybės padalijimą, palyginkite jų informacijos padidėjimą ir pasirinkite funkciją bei slenkstį (arba kategorijos pogrupį), atitinkančius maksimalų padidėjimą. Šis pasirinktas padalijimas tampa sprendimu dabartiniame mazge, o mokymo procesas kartojasi su kiekvienu vaiku su atitinkamu stebėjimų pogrupiu.
Medžių augimo valdymas naudojant hiperparametrus
Jei leisite sprendimų medžiui augti be jokių apribojimų, jis toliau skyls, kol kiekvienas lapas taps visiškai grynas arba jame bus labai mažai stebėjimų, o tai beveik visada lemia didelį perteklinį pritaikymą (per didelis pritaikymas ir nepakankamas pritaikymas). Norėdami to išvengti, nustatote hiperparametrų rinkinį, kuris kontroliuoja medžio gylį ir sudėtingumą.
Įprastas hiperparametras yra „max_depth“, kuris riboja maksimalų lygių skaičių, kurį medis gali užauginti nuo šaknies iki bet kurio lapo. Jei „max_depth“ nustatytas į „None“ (arba labai didelis skaičius), medis gali augti tol, kol tenkinami kiti apribojimai; jei jis mažas, medis išlieka seklus ir lengviau interpretuojamas, bet gali būti nepakankamai tinkamas.
Kitas svarbus hiperparametras yra min_samples_split, kuris nurodo minimalų stebėjimų skaičių, kurį turi turėti mazgas, kad jį būtų leidžiama padalinti. Jei mazgas turi mažiau pavyzdžių nei ši riba, jis paverčiamas lapu, todėl modelis negali persekioti triukšmo labai mažuose duomenų pogrupiuose.
Taip pat galite nustatyti minimalų informacijos stiprinimą (min_information_gain), kad algoritmas atliktų padalijimą tik tuo atveju, jei jis reikšmingai pagerina priemaišų kiekio sumažėjimą. Taip išvengiama nereikalingų šakų, kurios beveik nekeičia prognozių ir tik apsunkina medžio struktūrą.
Sprendimų medžio kūrimas nuo nulio kode
Sprendimų medžio įgyvendinimas nuo nulio paprastai sukasi apie nedidelį pagrindinių funkcijų rinkinį, kuris iškviečiamas rekursyviai. Nors tokios bibliotekos kaip „scikit-learn“ ar „rpart“ visa tai atlieka savarankiškai, šių veiksmų kodavimas pačiam padaro logiką daug aiškesnę (programavimo logika) ir suteikia jums visišką elgesio kontrolę.
Pirma, jums reikia rutinos, kuri, atsižvelgiant į dabartinius mazgo duomenis, įvertintų kiekvieną funkciją ir kiekvieną potencialų padalijimą, kad rastų tą, kuri turi didžiausią informacijos prieaugį. Ši funkcija grąžina pasirinktą funkciją, padalijimo taisyklę (slenkstį arba kategorijų pogrupį), stiprinimo reikšmę ir loginę kaukę arba indeksų rinkinius, kurie identifikuoja, kurie pavyzdžiai eina į kairę, o kurie – į dešinę.
Antra, jums reikia lapų mazgų prognozavimo funkcijos, kuri konvertuotų tikslinių reikšmių rinkinį tame mazge į vieną prognozę. Regresijai tai paprastai yra y vidurkis tame mazge; klasifikavimui paprastai imamas modas (dažniausia klasė), galbūt taip pat išsaugodami klasės tikimybes, jei norite tikimybinių išvesčių.
Trečia, sukuriate rekursinę mokymo funkciją, kuri tikrina stabdymo kriterijus, ieško geriausio padalijimo, jei leidžiama, ir tada sukuria antrinius mazgus, iškviesdama save kairiajame ir dešiniajame poaibiuose. Jei netenkinamos minimalaus imties dydžio, maksimalaus gylio arba minimalaus stiprinimo sąlygos, funkcija nustoja skaidyti ir vietoj tolesnių šakų išsaugo lapo prognozę.
Kaip prognozavimas veikia apmokytame sprendimų medyje
Kai jūsų medis bus apmokytas ir išsaugosite visas skaidymo taisykles bei lapų prognozes, norint suformuluoti naują stebėjimą, tereikia pereiti medį nuo šaknies iki lapo. Kiekviename vidiniame mazge apžiūrite reikiamą funkciją ir patikrinate, ar stebėjimas atitinka mazgo sąlygą.
Jei padalijimo taisyklė yra skaitinė, tikrinate, ar ypatybės reikšmė yra mažesnė arba lygi slenkstinei vertei; jei padalijimo taisyklė yra kategorinė, tikrinate, ar kategorija yra konkrečiame poaibyje. Priklausomai nuo rezultato, sekate atitinkamą šaką (pavyzdžiui, „taip“ kairėje, „ne“ dešinėje) ir kartojate šį procesą kitame mazge.
Toliau leidžiatės medžiu žemyn, kol pasiekiate mazgą be vaikų, kuris yra lapas, kuriame saugoma pastovi išvesties reikšmė arba klasės žymė. Regresinio medžio atveju prognozė bus skaičius, pvz., numatoma gyvenimo trukmė arba degalų naudojimo efektyvumas; klasifikavimo medžio atveju rezultatas bus numatoma kategorija, pvz., „išliko“ arba „neišliko“.
Jei išbandysite šį metodą su tais pačiais duomenimis, kuriuos naudojote mokymui, dažnai pamatysite gana didelį klasifikavimo tikslumą (pavyzdžiui, apie 85 % kai kuriuose paprastuose nutukimo ar „Titaniko“ stiliaus pavyzdžiuose), tačiau šis našumas gali sumažėti su nematomais duomenimis, jei jūsų medis yra per gilus. Būtent todėl taip svarbu kontroliuoti medžių gylį ir dydį, ir kodėl tokie ansambliai kaip atsitiktiniai miškai buvo išrasti medžių prognozėms stabilizuoti.
Darbas su regresiniais medžiais praktikoje
Regresiniai medžiai yra ypač patogūs, kai prognozuojamųjų veiksnių ir atsako ryšys yra stipriai netiesinis ir apima sąveikas, kurias sunku modeliuoti klasikine tiesine regresija. Užuot bandęs pritaikyti vieną globalią lygtį, medis padalija požymių erdvę į regionus ir kiekviename regione pritaiko paprastą konstantų modelį.
R kalboje populiarūs paketai, tokie kaip „rpart“ ir „tree“, leidžia lengvai kurti regresinius medžius vienu funkcijos iškvietimu, nurodant tokią formulę kaip y ~ x1 + x2 + … + x11. Šiems paketams įtakos turėjo originali CART metodologija, kurią aprašė Breiman ir kolegos, ir jie įgyvendina daugelį šiuolaikinio medžiais pagrįsto modeliavimo standartų, susijusių su skaidymu ir genėjimu.
Pavyzdžiui, galite naudoti „rpart“ paketą, norėdami sumodeliuoti atsaką y, pagrįstą vienuolika kovariantų nuo x1 iki x11, išvalyti duomenis nuo trūkstamų reikšmių ir vizualizuoti gautą medį naudodami pagalbines funkcijas, tokias kaip „prp“ iš „rpart.plot“ paketo. Galiniuose mazguose rodomas kiekvieno regiono numatomas y, kurį galite tiesiogiai naudoti naujiems stebėjimams.
Turint apmokytą regresinį medį, į prognozavimo funkciją galite įvesti naujas kovariantų reikšmes, tokias kaip x9 = 70, x2 = 100 arba x9 = 60, x2 = 150, kad gautumėte numatomas reikšmes ŷ (pavyzdžiui, apie 20 arba 28 degalų sąnaudų pavyzdyje). Lyginant šias prognozes su stebimomis vertėmis, pavyzdžiui, per koreliaciją tarp y ir ŷ, galima greitai suprasti, kaip gerai medis fiksuoja pagrindinį modelį, net kai duomenų rinkinys yra gana mažas.
Nuo pavienių medžių iki atsitiktinių miškų
Vienas sprendimų medis yra galingas, bet taip pat labai jautrus mokymo duomenų ypatumams, o tai gali lemti didelę dispersiją (šališkumas ir dispersija) ir perteklinis pritaikymas. Siekiant tai sušvelninti, atsitiktiniai miškai, remdamiesi duomenų pavyzdžiais, sukuria daug medžių ir apibendrina jų prognozes, taip sukurdami stabilesnį ir dažniausiai tikslesnį modelį.
Atsitiktiniame miške kiekvienas medis yra apmokytas naudojant „bootstrap“ pavyzdį, o tai reiškia, kad iš pradinio mokymo rinkinio su pakeitimu sudaromas naujas tokio paties dydžio duomenų rinkinys. Dėl šio atrankos proceso kiekvienas medis mato šiek tiek skirtingą duomenų rinkinį, todėl jų klaidos yra mažiau koreliuojamos ir gali išsilyginti agreguojant.
Be to, atsitiktiniai miškai į požymių atrankos procesą įveda atsitiktinumą, nes kiekviename padalijime atsižvelgiama tik į atsitiktinį prognozuojamųjų veiksnių pogrupį, o ne į visus prognozuojamuosius veiksnius. Tai dar labiau sumažina medžių koreliaciją, padidina miško įvairovę ir linkę sumažinti dispersiją per daug nepadidinant šališkumo.
Prognozių „bootstrap“ ir agregavimo derinys vadinamas „bagging“, o atsitiktiniuose miškuose taip pat gaunamas vidinis modelio paklaidos įvertis, įvertinant kiekvieną medį duomenų taškuose, kurie nebuvo įtraukti į jo „bootstrap“ imtį (vadinamieji „out-of-bag“ stebėjimai). Ši „iš maišelio iškritimo“ klaida suteikia patogų būdą įvertinti našumą nereikalaujant atskiro patvirtinimo rinkinio.
Nors šiame straipsnyje daugiausia dėmesio skiriama vieno medžio kūrimui nuo nulio, supratus, kaip veikia šis pagrindinis komponentas, daug lengviau suprasti, kaip tokie ansambliai kaip atsitiktiniai miškai, gradiento stiprinimas ir kiti medžiais pagrįsti metodai remiasi tais pačiais principais, kad būtų pasiekti moderniausi rezultatai daugelyje taikomųjų problemų.
Viską sudėjus, sprendimų medžio regresija nuo nulio parodo, kaip paprastas taisyklių, sąnaudų funkcijų ir rekursinių skaidymų rinkinys gali modeliuoti sudėtingus ryšius, nesvarbu, ar prognozuojate dvejetainį rezultatą, pvz., išgyvenamumą, kategorinę žymę, pvz., nutukimo būseną, ar skaitinį tikslą, pvz., gyvenimo trukmę ar degalų sąnaudas, ir šis gilus supratimas tampa tvirtu pagrindu taikyti pažangesnius medžiais pagrįstus metodus praktikoje.