Statisztikai teszt azon idősorokra, ahol eredmény alakul - python

szavazat
15

Kérdezem a regressziós teszteléssel kapcsolatos segítséget. Folyamatos idősorom van, amely ingadozik a pozitív és a negatív egész számok között. Esetleg vannak olyan események is, amelyek ezen idősorok egész területén, látszólag véletlenszerű időpontokban fordulnak elő. Lényegében, amikor egy esemény bekövetkezik, megragadom a megfelelő egész számot. Ezután meg akarom tesztelni, hogy ez az egész egyáltalán befolyásolja-e az eseményt. Mint itt, vannak-e több pozitív / negatív egész szám.

Eredetileg a logisztikus regressziót gondoltam pozitív / negatív számmal, de ehhez legalább két különálló csoportra lenne szükség. Míg csak a bekövetkezett eseményekről van információm. Nem igazán tudom beleszámolni az olyan események mennyiségét, amelyek nem fordulnak elő, mivel kissé folyamatos és véletlenszerű. Lehetetlen mérni, hogy hányszor történik egy esemény.

Tehát a különálló csoportom bizonyos értelemben igaz, mivel nincs eredményem valamiről, ami nem történt meg. Amit próbálom besorolni:

Amikor egy eredmény bekövetkezik, a pozitív vagy negatív egész befolyásolja-e ezt az eredményt .

A kérdést 11/05/2020 04:28
a forrás felhasználó
Más nyelveken...                            


3 válasz

szavazat
0

Ennek ellenére a kérdést az első bekezdés után meglehetősen nehéz megérteni. Hadd segítsek abban, amit megértettem ebből a kérdésből.

Feltételezve, hogy meg akarjuk érteni, van-e kapcsolat az események és az adatok egész számai között.

1. megközelítés: Ábrázolja az adatokat 2d-es skálán, és ellenőrizze vizuálisan, hogy van-e összefüggés az adatok között. 2. megközelítés: az események adatainak folyamatossá tétele, az események más adatokból való eltávolítása, a gördülő ablak segítségével simítsa ki az adatokat, majd hasonlítsa össze mindkét tendenciát.

A fenti megközelítés csak akkor működik jól, ha helyesen értem a problémádat. Van még egy dolog, amelyet Survivorship elfogultságnak hívnak. Lehet, hogy hiányzik az adat, kérjük, ellenőrizze azt is.

Válaszolt 18/05/2020 13:52
a forrás felhasználó

szavazat
0

Úgy tűnik, hogy érdekli meghatározni azokat a mögöttes erőket, amelyek egy adott adatfolyamot előállítanak. Az ilyen matematikai modelleket Markov-modelleknek hívják. Klasszikus példa a szöveg tanulmányozása.

Például, ha egy rejtett Markov-modell algoritmust futtatom egy angol szöveg egy bekezdésén, akkor kiderül, hogy két vezetési kategória határozza meg annak a valószínűségét, hogy milyen betűk jelennek meg a bekezdésben. Ezeket a kategóriákat nagyjából két csoportra lehet osztani: "aeiouy" és "bcdfghjklmnpqrstvwxz". Sem a matematika, sem a HMM nem tudta, hogy mit kell nevezni ezeknek a kategóriáknak, ám ezek statisztikailag konvergáltak a szöveg egy bekezdésének elemzésekor. Ezeket a kategóriákat „magánhangzóknak” és „mássalhangzóknak” nevezhetjük. Tehát igen, a magánhangzók és mássalhangzók nem csupán első osztályú kategóriák, amelyeket meg kell tanulni, hanem a szöveg statisztikai megírásának módjából következik. Érdekes, hogy a "szóköz" inkább magánhangzóként viselkedik, mint mássalhangzóként. Nem adtam meg a fenti példa valószínűségeit, de érdekes megjegyezni, hogy az "y" nagyjából 0,6 magánhangzó és 0,4 mássalhangzó valószínűségével végződik; ami azt jelenti, hogy az "y" statisztikailag a leghangzóbban viselkedő magánhangzó.

A nagyszerű cikk a https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf, amely átmegy az ilyen idősorok elemzésének alapvetõ ötletein, és néhány sudo kódot is tartalmaz referenciaként.

Nem sokat tudok az Ön által kezelt adatokról, és azt sem tudom, hogy a „pozitív” és a „negatív” fogalma meghatározó-ea tényezőknek a látott adatokban, de ha HMM-et futtatott az adatait, és úgy találta, hogy a két csoport a pozitív számok és a negatív számok gyűjtése, akkor a válasz megerősítést nyer, igen, a legbefolyásosabb két kategória, amely az Ön adatait vezérli, a pozitív és a negatív fogalom. Ha nem oszlanak el egyenletesen, akkor az a válasz, hogy ezek a fogalmak nem befolyásoló tényező az adatok megszerzésében. Még ennél is több, az algoritmus több valószínűségi mátrixszal ér véget, amelyek megmutatnák, hogy az egyes adatainak egész számát az egyes kategóriák milyen mértékben befolyásolják, így sokkal nagyobb betekintést kapna az idősor adatai viselkedésében.

Válaszolt 19/05/2020 07:59
a forrás felhasználó

szavazat
0

Lehet, hogy félreértem a problémádat, de nem hiszem, hogy bármiféle értelmes regressziót előkészíthetsz további információ nélkül.

A regressziót általában két vagy több változó közötti kapcsolat megállapítására használják, azonban úgy tűnik, hogy csak egy változó van (ha pozitív vagy negatív) és egy állandó (az eredmény mindig igaz az adatokban). Lehet, hogy készítesz valamilyen statisztikát a számok eloszlásáról (átlag, medián, szórás), de nem vagyok biztos benne, hogyan végezhet regressziót. https://en.wikipedia.org/wiki/Regression_analysis

Érdemes megfontolni, hogy van-e súlyos túlélési elfogultság, ha hiányzik egy nagy darab adata. https://en.wikipedia.org/wiki/Survivorship_bias

Remélem, hogy ez legalább egy kicsit hasznos ahhoz, hogy a megfelelő irányba vezessen

Válaszolt 11/05/2020 04:53
a forrás felhasználó

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more