Mjere dobrote modela
Za selekciju modela mogu se koristiti različite mjere dobrote [3]. Tipično, GMDH selektira model s najboljom predikcijom u smislu najmanje sume kvadratnih pogrešaka
gdje označavai-ti uzorak ciljne funkcije iz validacijskog skupa podataka, a njenu aproksimaciju izračunatu s odgovarajućim polinomskim modelom koristeći validacijski skup uzoraka. Mogući su i ostali kriteriji dobrote modela: srednja kvadratna pogreška, relativana apsolutna pogreška, drugi korijen iz relativne kvadratne pogreške i dr.
Minimalna duljina opisa (engl. Minimum Description Length) [4] je poznati princip koji se može koristiti pri regularizaciji modela. Prema [5], MDL za linearnu polinomsku regresiju sastoji se od
dva dijela:
gdje N označava broj primjera, a k broj parametara modela. Prvi sumand izraza interpretira se kao broj bitova potrebnih za kodiranje uzoraka, a drugi broj bitova potrebnih za kodiranje parametara modela. Optimizacija s obzirom na MDL u principu štiti model od pretreniranosti. Zbog toga se potencijalno može koristiti sa GMDH, koristeći samo jedan set podataka, umjesto odvojenih setova za treniranje i validaciju
Mjere dobrote modela zasnovane isključivao na mjerenju pogrešaka aproksimacije optimiraju modele ne vode računa o složenosti modela. Takav pristup može dovesti do modela visoke točnosti aproksimacije ali i visoke kompleksnosti, što povlačiti duže vrijeme izvršavanja, često i neprihvatljivo dugo za određene primjene, koje zahtijevaju modele ograničene kompleksnosti s maksimalno mogućom točnošću aproksimacije. Za generiranje takvih modela u [6] je predložena jednostavna heuristična dvoparametarska mjera a relativnom kvadratnom pogreškom (engl. Compound squared relative Error - CE)
pri čemu označava vrijeme izvođenja (kompleksnost) modela, i predstavljaju odgovarajuće pragove za relativnu kvadratnu pogrešku i za vrijeme izvođenja, dok označava težinski koeficijent. CE mjera sastoji se od dva člana koji predstavljaju normaliziranu pogrešku i normalizirano vrijeme izvođenja (kompleksnost) modela. Težinskim koeficijentom određuje se doprinos svakog člana. Za CE mjera se reducira samo na član za pogrešku. Za mjera se reducira na član za kompleksnost. Za razliku od MDL i jednoparametarskih mjera, predložena CE mjera kontrolira način na koji se karakteristike modela približavaju zadanim pragovima, što povećava vjerojatnost pronalaženjamodela koji zadovoljava oba ograničenja.
Traženi model mora zadovoljavati zahtjeve u pogledu točnosti i kompleksnosti, tj. vremena izvođenja:
Vrijeme izvođenja GMDH modela može se procijeniti sljedećim izrazom:
gdje označava sveukupan broj dvodimenzionalnih polinoma drugog stupnja u modelu, i odgovarajući broj operacija zbrajanja i množenja u aritmetici pomičnog zareza (engl. Floating Point Arithmetics) potrebnih za izračunavanje bazičnog polinoma, dok , i
označavaju odgovarajuće prosječno vrijeme izvođenja programskih rutina koje implementiraju FP zbrajanje i FP množenje. Zapišemo li bazični polinom:
kao
, vidimo da je za njegov izračun potrebno svega FP zbrajanja i FP množenja.