Friday 27 October 2017

Eksempler På Begge Lineær Regresjon Og Den Bevegelige Gjennomsnitt Og Glatting Teknikker


Prognose ved utjevningsteknikker. Dette nettstedet er en del av JavaScript E-labs læringsobjekter for beslutningstaking. Andre JavaScript i denne serien er kategorisert under forskjellige anvendelsesområder i MENU-delen på denne siden. En tidsrekkefølge er en sekvens av observasjoner som bestilles i tide Uheldig i samlingen av data tatt over tid er noen form for tilfeldig variasjon. Det eksisterer metoder for å redusere avbryte effekten på grunn av tilfeldig variasjon. Bredt brukte teknikker er utjevning. Disse teknikkene, når de anvendes riktig, tydeliggjør de underliggende trenderne tydeligere..Trykk tidsserien Row-wise i rekkefølge, starter fra venstre øverste hjørne, og parameteren s, og klikk deretter på Calculate-knappen for å skaffe framtidig prognose. Lankbokser er ikke inkludert i beregningene, men nuller er. Ved å skrive inn dataene dine for å flytte fra celle til celle i datamatrixen, bruk Tab-tasten ikke pil eller skriv inn taster. Funksjoner av tidsserier, som kan avsløres av undersøkelsen ng sin graf med de prognostiserte verdiene, og residualens oppførsel, betinget prognostiseringsmodellering. Gjennomsnittlig gjennomsnitt Gjennomsnittlig rangering blant de mest populære teknikkene for forbehandling av tidsserier. De brukes til å filtrere tilfeldig hvit støy fra dataene, for å lage tidsserier jevnere eller til og med å understreke visse informasjonskomponenter som finnes i tidsseriene. Eksponensiell utjevning Dette er et veldig populært system for å produsere en glatt tidsserie. I Moving Averages blir de tidligere observasjonene vektet likt, Eksponensiell utjevning tilordner eksponentielt avtagende vekter som observasjonen blir eldre Med andre ord blir de siste observasjonene gitt relativt mer vekt i prognoser enn de eldre observasjonene. Dobbel eksponensiell utjevning er bedre å håndtere trender. Tre eksponensiell utjevning er bedre for å håndtere paraboltendenser. Et eksponentielt vektet glidende gjennomsnitt med en utjevningskonstant a tilsvarer omtrent en enkel glidende gjennomsnitt av lengde dvs. periode n, hvor a og n er relatert av. a 2 n 1 OR n 2 - a a. For eksempel vil et eksponentielt vektet glidende gjennomsnitt med en utjevningskonstant som er 0 l tilsvare omtrent et 19 dagers glidende gjennomsnitt Og et 40-dagers enkelt glidende gjennomsnitt ville korrespondere omtrent til et eksponentielt vektet glidende gjennomsnitt med en utjevningskonstant som er 0 04878.Holt s Lineær eksponensiell utjevning Anta at tidsseriene ikke er sesongmessige, men viser trend trend Holt s-metoden estimerer både strømmen nivå og den nåværende trenden. Merk at det enkle glidende gjennomsnittet er et spesielt tilfelle av eksponensiell utjevning ved å sette perioden for glidende gjennomsnitt til heltalldelen av 2-Alpha Alpha. For de fleste forretningsdata er en Alpha-parameter mindre enn 0 40 ofte effektive Det kan imidlertid utføres et rutenett for parameterrommet, med 0 1 til 0 9, med trinn på 0 1 Så har den beste alfa den minste Mean Absolute Error MA Error. How å sammenligne flere utjevningsmetoder Selv om det er numeriske indikatorer for å vurdere nøyaktigheten av prognoseteknikken, er det mest benyttede å bruke visuell sammenligning av flere prognoser for å vurdere nøyaktigheten og velge blant de ulike prognosemetoder. I denne tilnærmingen må man plotte ved hjelp av f. eks. Excel på samme graf de opprinnelige verdiene til en tidsserievariabel og de forutsagte verdiene fra flere forskjellige prognosemetoder, og dermed lette en visuell sammenligning. Du kan gjerne bruke Past Forecasts ved utjevningsteknikker JavaScript for å oppnå tidligere prognosverdier basert på utjevningsteknikker som bare bruker en enkelt parameter Holt og Winters metoder bruker henholdsvis to og tre parametere. Det er derfor ikke en lett oppgave å velge den optimale, eller til og med nær optimale verdier ved prøving og feil for parametrene. Enkelt eksponensiell utjevning legger vekt på det kortsiktige perspektivet det setter nivået til siste observasjon og er basert på tilstanden at det ikke er noen trend. Den lineære regressen ion, som passer til en minste firkantlinje til de historiske dataene eller transformerte historiske data, representerer lang rekkevidde som er betinget av den grunnleggende trenden Holt s lineære eksponensielle utjevning fanger opp informasjon om nyere trend Parametrene i Holt s-modellen er nivåparameter som bør reduseres når mengden datavariasjon er stor, og trenderparameteren skal økes dersom den siste trendretningen støttes av årsakssammenhengende faktorer. Korttidsoversikt Merk at alle JavaScript på denne siden gir en engangsforløp prognose For å oppnå en to-trinns prognose bare legg til den prognostiserte verdien til slutten av dine tidsseriedata og klikk deretter på den samme Beregn-knappen. Du kan gjenta denne prosessen for noen få ganger for å oppnå de nødvendige kortsiktige prognosene. . Tidsserie Metoder. Tidsseriemetoder er statistiske teknikker som benytter historiske data akkumulert over en tidsperiode. Tidsserie-metoder antar at det som har skjedd i fortiden vil fortsette å skje i fremtiden Som navnet på tidsserien antyder, relaterer disse metodene prognosen til bare én faktor - tid. De inkluderer glidende gjennomsnitt, eksponensiell utjevning og lineær trendlinje, og de er blant de mest populære metodene for kort - range prognose blant service - og produksjonsbedrifter Disse metodene forutsetter at identifiserbare historiske mønstre eller trender for etterspørsel over tid vil gjenta seg selv. Gjennomsnittlig gjennomsnitt. En prognoser for tidsserier kan være så enkel som å bruke etterspørsel i den nåværende perioden for å forutsi etterspørsel i neste periode Dette kalles noen ganger en naiv eller intuitiv prognose. 4 For eksempel, hvis etterspørselen er 100 enheter i uken, er prognosen for neste ukes etterspørsel 100 enheter dersom etterspørselen viser seg å være 90 enheter i stedet, så er etterspørselen etterfølgende uke 90 enheter , og så videre. Denne type prognosemetode tar ikke hensyn til historisk etterspørselsadferd det baserer seg bare på etterspørsel i den nåværende perioden. Det reagerer direkte på det normale, tilfeldige m ovner i etterspørsel. Den enkle glidende gjennomsnittsmetoden bruker flere etterspørselsverdier i løpet av de siste tider for å utvikle en prognose. Dette har en tendens til å dempe eller utjevne de tilfeldige økninger og reduksjoner av en prognose som kun bruker en periode. Det enkle glidende gjennomsnittet er nyttig for prognoser etterspørselen som er stabil og viser ikke noen uttalt etterspørselsadferd, for eksempel en trend eller sesongmessig mønster. Gjennomsnittet beregnes for bestemte perioder, for eksempel tre måneder eller fem måneder, avhengig av hvor mye forecasteren ønsker å glatte etterspørseldataene Jo lengre glidende gjennomsnittsperiode, jo glattere blir det. Formelen for beregning av det enkle glidende gjennomsnittet gir et enkelt, flytende gjennomsnitt. Instant Paper Clip Office Supply Company selger og leverer kontorrekvisita til bedrifter, skoler og byråer innen 50 kilometer Radius av lageret Kontorforsyningsvirksomheten er konkurransedyktig, og evnen til å levere bestillinger raskt er en faktor for å skaffe nye kunder og holde gamle De kontorene ordner seg vanligvis ikke når de går lite på forsyninger, men når de går helt tom. Som et resultat trenger de umiddelbart sine bestillinger. Sjefen for selskapet ønsker å være sikre nok kjører og kjøretøyer er tilgjengelige for å levere bestillinger omgående og de har tilstrekkelig beholdning på lager Derfor ønsker lederen å kunne regne ut antall ordrer som vil skje i løpet av neste måned, dvs. for å prognose etterspørselen etter leveranser. Fra poster over leveringsordrer har ledelsen akkumulert følgende data de siste 10 månedene, hvorfra det vil beregne 3- og 5-måneders glidende gjennomsnitt. La oss anta at det er slutten av oktober. Prognosen som kommer fra enten 3- eller 5-måneders glidende gjennomsnitt er typisk for neste måned i sekvensen, som i dette tilfellet er november Det bevegelige gjennomsnittet beregnes fra etterspørselen etter bestillinger for de foregående 3 månedene i sekvensen i henhold til følgende formel. 5-måneders glidende gjennomsnitt beregnes fra pr ior 5 måneders etterspørseldata som følger. De 3- og 5-måneders glidende gjennomsnittlige prognosene for alle månedene av etterspørseldata er vist i følgende tabell Faktisk vil bare prognosen for november basert på den siste månedlige etterspørselen bli brukt av lederen Men de tidligere prognosene for tidligere måneder tillater oss å sammenligne prognosen med den faktiske etterspørselen for å se hvor nøyaktig prognosemetoden er - det vil si hvor godt det gjør. Tre og fem måneders gjennomsnitt. Ved å bevege gjennomsnittlige prognoser i Tabellen over har en tendens til å utjevne variabiliteten som forekommer i de faktiske dataene. Denne utjevningseffekten kan observeres i den følgende figur hvor de 3-måneders og 5-måneders gjennomsnittene er lagt på en graf av de opprinnelige data. Den 5-måneders Flytende gjennomsnitt i forrige figur utjevner svingninger i større grad enn 3 måneders glidende gjennomsnitt. Det 3-måneders gjennomsnittet reflekterer nærmere de nyeste dataene som er tilgjengelige for kontorforsyningsansvarlig. Generelt er prognoser usin g lengre perioder med glidende gjennomsnitt er langsommere å reagere på de siste endringene i etterspørselen enn de som ble gjort ved bruk av kortere periode-glidende gjennomsnitt. De ekstra dataperiodene demper hastigheten som prognosen responderer. Etablering av passende antall perioder som skal brukes i bevegelse gjennomsnittlig prognose krever ofte litt prøve-og-feil-eksperimentering. Ulempen ved den bevegelige gjennomsnittlige metoden er at den ikke reagerer på variasjoner som oppstår for en grunn, for eksempel sykluser og sesongmessige effekter. Faktorer som forårsaker endringer, blir generelt ignorert. Det er I utgangspunktet er en mekanisk metode som gjenspeiler historiske data på en konsistent måte. Den glidende gjennomsnittlige metoden har imidlertid fordelen av å være enkel å bruke, rask og relativt billig. Generelt kan denne metoden gi en god prognose for kortsiktig, men det bør ikke skyves for langt inn i fremtiden. Veidende flytende gjennomsnitt. Den bevegelige gjennomsnittlige metoden kan justeres for å bedre reflektere svingninger i dataene I den vektede glidende gjennomsnittlige metoden blir vektene tilordnet de nyeste dataene i henhold til følgende formel. Etterspørseldataene for PM Computer Services vist i tabellen for eksempel 10 3 ser ut til å følge en økende lineær trend. Selskapet vil beregne en lineær trend trendlinje for å se om den er mer nøyaktig enn de eksponensielle utjevning og justerte eksponensielle utjevningsprognosene som er utviklet i eksempler 10 3 og 10 4. De verdier som kreves for minste kvadratberegningene, er som følger. Ved å bruke disse verdiene blir parametrene for den lineære trendlinjen beregnes som følger. Derfor er den lineære trendlinjens ligning. For å beregne en prognose for periode 13, la x 13 i den lineære trendlinjen. Følgende diagram viser den lineære trendlinjen sammenlignet med de aktuelle data. Treningslinjen ser ut til å reflektere tett de faktiske dataene - det vil si å være en god form - og ville dermed være en god prognosemodell for dette problemet. En ulempe med den lineære trendlinjen er at den ikke vil adju St for en endring i trenden, som eksponentielle utjevningsprognoser vil det vil si, at alle fremtidige prognoser vil følge en rett linje. Dette begrenser bruken av denne metoden til en kortere tidsramme hvor du kan være relativt sikker på at Trenden vil ikke forandre. Årslige justeringer. Et sesongmønster er en repetitiv økning og nedgang i etterspørselen. Mange etterspørselsprodukter viser sesongmessig oppførsel. Klærsalg følger årlige sesongmønstre, med etterspørselen etter varme klær øker om høsten og vinteren og faller om våren og sommer etterspørselen etter kjøligere klær øker Etterspørselen etter mange detaljhandler, inkludert leker, sportsutstyr, klær, elektroniske apparater, skinke, kalkuner, vin og frukt, øker i løpet av høytiden. Etterspørselsforespørsler øker i forbindelse med spesielle dager som f. eks. Valentinsdag og morsdag Sesongmønstre kan også forekomme hver måned, ukentlig eller til og med daglig. Noen restauranter har høyere etterspørsel i e vening enn på lunsj eller i helgene i motsetning til hverdager Trafikk - derav salg - i kjøpesentre plukker opp fredag ​​og lørdag. Det finnes flere metoder for å reflektere sesongmessige mønstre i en tidsserierprognose. Vi vil beskrive en av de enklere metodene ved å bruke en sesongfaktor En sesongfaktor er en tallverdi som multipliseres med den normale prognosen for å få en sesongjustert prognose. En metode for å utvikle en etterspørsel etter sesongmessige faktorer er å dele etterspørselen etter hver sesongperiode med total årlig etterspørsel, ifølge følgende formel. De resulterende sesongfaktorene mellom 0 og 1 0 er i virkeligheten den delen av den totale årlige etterspørselen som er tildelt hver sesong. Disse sesongfaktorene multipliseres med den årlige prognosen etterspørsel for å gi justerte prognoser for hver sesongprosess en prognose med sesongjusteringer. Wishbone Farms vokser kalkuner til å selge til et kjøttproduserende selskap gjennom hele året. Men høysesongen er åpenbart i fjerde kvartal Året fra oktober til desember Wishbone Farms har opplevd etterspørselen etter kalkuner de siste tre årene vist i følgende tabell. Fordi vi har tre års etterspørseldata, kan vi beregne sesongfaktorene ved å dele totalt kvartalsbehov for de tre årene etter total etterspørsel gjennom alle tre årene. Næst vil vi multiplisere den forventede etterspørselen etter neste år 2000 ved hver sesongfaktor for å få forventet etterspørsel etter hvert kvartal. For å oppnå dette, trenger vi en etterspørselsprognose for 2000 I I dette tilfellet, siden etterspørseldataene i tabellen ser ut til å vise en generelt økende trend, beregner vi en lineær trendlinje for de tre årene med data i tabellen for å få et grovt prognostisert estimat. Derfor er prognosen for 2000 58 17, eller 58.170 kalkuner. Ved å bruke denne årlige prognosen for etterspørsel, ser de sesongjusterte prognosene, SF i, for 2000 ut i disse kvartalsprognosene med de faktiske etterspørselsverdiene i tabellen, synes de å være relativt gode prognoser esti mates, som reflekterer både sesongvariasjoner i dataene og den generelle oppadgående trenden.10-12 Hvordan er den bevegelige gjennomsnittlige metoden lik eksponensiell utjevning.10-13 Hvilken effekt på eksponensiell utjevningsmodell vil øke utjevningskonstanten har.10-14 Hvordan avviker justert eksponensiell utjevning fra eksponensiell utjevning.10-15 Hva bestemmer valget av utjevningskonstanten for trend i en justert eksponensiell utjevningsmodell.10-16 I kapitteleksemplene for tidsseriemetoder ble startprognosen alltid antatt å være det samme som den faktiske etterspørselen i den første perioden. Foreslå andre måter at startprognosen kan bli avledet i faktisk bruk.10-17 Hvordan er lineær trendlinjeprognosemodell forskjellig fra en lineær regresjonsmodell for prognoser.10-18 Av tidsseriene modeller presentert i dette kapittelet, inkludert glidende gjennomsnitt og vektet glidende gjennomsnitt, eksponensiell utjevning og justert eksponensiell utjevning, og lineær trendlinje, hvilken en gjør du med nsider den beste Why.10-19 Hvilke fordeler har justert eksponensiell utjevning over en lineær trendlinje for forventet etterspørsel som viser en trend. 4 KB Kahn og JT Mentzer, prognose i forbruker - og industrimarkeder, Journal of Business Forecasting 14, nei 2 Sommer 1995 21-28.Linær regresjonsanalyse er den mest brukte for alle statistiske teknikker. Det er studien av lineære additivforhold mellom variabler. La Y angi den avhengige variabelen hvis verdier du ønsker å forutsi, og la X 1, X k betegne De uavhengige variablene som du ønsker å forutsi, med verdien av variabel X i i periode t eller i rad t av datasettet betegnet av X det er ligningen for beregning av den forutsagte verdien av Y t. Denne formelen har egenskap at prediksjonen for Y er en lineær funksjon av hver av X-variablene, holder de andre faste, og bidragene fra forskjellige X-variabler til spådommene er additiv. Skråningen av deres individuelle straight - line relasjoner med Y er konstantene b 1 b 2, bk de såkalte koeffisientene til variablene Det vil si, bi er forandringen i den anslåtte verdien av Y per forandringsenhet i X i andre ting som er like. Den ekstra konstante b 0 den såkalte avskjæringen er prediksjonen som modellen ville gjøre hvis alle X s var null hvis det var mulig. Koeffisientene og avskjæringen er estimert med minste kvadrater, dvs. å sette dem lik de unike verdiene som minimerer summen av kvadratfeilene innenfor prøven av data som modellen er utstyrt med og modellens prediksjonsfeil antas vanligvis å være uavhengig og identisk normalt fordelt. Det første du burde vite om lineær regresjon er hvordan den merkelige termen regresjonen kom til å brukes på modeller som dette De ble først studert i dybden av en 19 århundre forsker, Sir Francis Galton Galton var en selvlært naturforsker, antropolog, astronom og statistiker - og en virkelig Indiana Jones karakter Han var kjent for sine utforskninger, og han skrev en bestselgende bok om hvordan man skal overleve i villmarken "The Art of Travel Shifts og Contrivances Available in Wild Places, og dens oppfølger, The Art of Rough Reise fra det praktiske til det spesielle De er fortsatt på trykk og fortsatt betraktet som nyttige ressurser. De gir mange nyttige tips for å holde seg i live - for eksempel hvordan man behandler spydsår eller trekker hesten fra kvicksand - og introduserte begrepet sovepose til vestlige verden. Klikk på Disse bildene for mer detaljer. Galton var en pioner i anvendelsen av statistiske metoder til målinger i mange grener av vitenskap og i studiet av data om relative størrelser av foreldre og deres avkom i ulike arter av planter og dyr, observerte han følgende fenomen a større enn gjennomsnittlig foreldre har en tendens til å produsere et større enn gjennomsnittlig barn, men barnet er sannsynligvis mindre enn foreldrene i forhold til sin relative stilling i sin egen generasjon n For eksempel, hvis forelderens størrelse er x standardavvik fra gjennomsnittet i sin egen generasjon, bør du forutsi at barnets størrelse vil være rx r ganger x standardavvik fra gjennomsnittet i settet av barn til de foreldre hvor r er et tall mindre enn 1 i størrelse r er det som skal defineres nedenfor som sammenhengen mellom foreldres størrelse og barnets størrelse Det samme gjelder for praktisk talt fysisk måling og i tilfelle mennesker, mest målinger av kognitiv og fysisk evne som kan utføres på foreldre og deres avkom Her er det første publiserte bildet av en regresjonslinje som illustrerer denne effekten, fra et foredrag presentert av Galton i 1877. R-symbolet på dette diagrammet, hvis verdi er 0 33 Betegner hellingskoeffisienten, ikke korrelasjonen, selv om de to er de samme hvis begge populasjonene har samme standardavvik, som det vil bli vist nedenfor. Galton kalte dette fenomenet en regresjon mot middelmådighet som i mod ern termene er en regresjon til den gjennomsnittlige For en na ve observatør dette kan tyde på at senere generasjoner skal vise mindre variabilitet - bokstavelig talt mer middelmådighet - enn tidligere, men det er ikke tilfelle Det er et rent statistisk fenomen Med mindre ethvert barn er akkurat som samme størrelse som foreldrene i relative termer, dvs. med mindre korrelasjonen er nøyaktig lik 1, må prognosene gå tilbake til gjennomsnittet uavhengig av biologi hvis gjennomsnittlig kvadratfeil skal minimeres. Tilbake til toppen av siden. er et uunngåelig faktum av livet Dine barn kan forventes å være mindre eksepsjonelle for bedre eller verre enn du er Din poengsum på en avsluttende eksamen i et kurs kan forventes å være mindre bra eller dårlig enn poengsummen din på midtveiseksamen i forhold til resten av klassen A baseballspiller s batting gjennomsnitt i andre halvdel av sesongen kan forventes å være nærmere gjennomsnittet for alle spillere enn hans batting gjennomsnitt i første halvdel av sesongen og så videre nøkkelord her er forventet Dette betyr ikke at det er sikkert at regresjon til den gjennomsnittlige vil oppstå, men det er veien å satse på. Vi har allerede sett et forslag om regresjon-til-middel i noen av tidsseriene som prognoser modeller vi har studert plott av prognoser pleier å være jevnere - de viser mindre variabilitet - enn diagrammene til de opprinnelige dataene. Dette gjelder ikke for tilfeldige gangmodeller, men det er generelt sant å flytte gjennomsnittlige modeller og andre modeller som baserer sine prognoser på mer enn en tidligere observasjon. Den intuitive forklaringen til regresjonseffekten er enkel, den tingen vi prøver å forutsi, består vanligvis av et forutsigbart komponentsignal og en statistisk uavhengig uforutsigbar komponentstøy. Det beste vi kan håpe å gjøre, er å forutsi bare den delen av variabiliteten som skyldes signalet Derfor vil prognosene våre ha en tendens til å vise mindre variabilitet enn de faktiske verdiene, noe som innebærer en regresjon til gjennomsnittet. En annen måte å tenke på regresjonseffekten er i termen s av utvalgsperspektiv Generelt kan en spillers ytelse over en gitt tidsperiode tilskrives en kombinasjon av ferdighet og flaks. Anta at vi velger et utvalg profesjonelle idrettsutøvere hvis ytelse var mye bedre enn gjennomsnittet eller elevene hvis karakterer var mye bedre enn gjennomsnitt i første halvår av det faktum at de gjorde det bra i første halvår, gjør det sannsynlig at både deres ferdigheter og lykke var bedre enn gjennomsnittet i den perioden. I andre halvdel av året kan vi forvente at de å være like dyktige, men vi bør ikke forvente at de er like heldige. Så vi bør forutse at i andre omgang vil deres ytelse bli nærmere den gjennomsnittlige. I mellomtiden hadde spillere som bare hadde en gjennomsnittlig gjennomsnittsnivå i første halvdel, sannsynligvis ferdigheter og flaks i motsatt retning for dem. Vi burde derfor forvente at deres prestasjoner i andre halvår skal bevege seg bort fra gjennomsnittet i en eller annen retning, da vi får en annen uavhengig test av deres ferdigheter Vi vet ikke hvilken retning de vil bevege seg, men selv for dem bør vi forutse at deres andre halvdel ytelse vil være nærmere gjennomsnittet enn deres første halvdel prestasjon. Det bør imidlertid forventes at de faktiske ytelsene til spillerne har en like stor variasjon i andre halvdel av året som i første omgang, fordi den bare skyldes en omfordeling av uavhengig tilfeldig flaks blant spillere med samme kompetanse som før. En fin diskusjon om regresjon til gjennomsnittet i det bredere Sammenheng med samfunnsvitenskapelig forskning finner du her. Gå tilbake til toppen av siden. Justering av regresjonsforutsetninger. Hvorfor skal vi anta at forhold mellom variabler er lineære. Fordi lineære forhold er de enkleste, ikke-trivielle forholdene som kan forestilles, er det lettest å jobbe med, og fordi de sanne relasjonene mellom våre variabler er ofte i det minste omtrent lineære over rekkevidden av verdier som er av interesse til oss, og selv om de ikke gjør det, kan vi ofte omdanne variablene på en slik måte at de lineariserer forholdene. Dette er en sterk antagelse, og det første trinnet i regresjonsmodellering bør være å se på spredningsdiagrammer av variablene og i tilfelle tidsseriedata, plott av variablene i forhold til tid, for å sikre at det er rimelig a priori og etter å ha montert en modell, bør plottene av feilene studeres for å se om det er uforklarlige ikke-lineære mønstre. Dette er spesielt viktig når Målet er å gjøre forutsigelser for scenarier utenfor rekkevidden av de historiske dataene, hvor avvik fra perfekt linearitet sannsynligvis vil ha størst effekt. Hvis du ser tegn på ikke-lineære forhold, er det mulig, men ikke garantert at transformasjoner av variabler vil rette dem ut i en måte som vil gi nyttige inferenser og spådommer via lineær regresjon. Tilbake til toppen av siden. Og hvorfor skal vi anta at effekten av forskjellige uavhengige variabler på expec Ted verdi av den avhengige variabelen er additiv Dette er en veldig sterk antagelse, sterkere enn de fleste innser. Det innebærer at den marginale effekten av en uavhengig variabel, dvs. dens hellingskoeffisient, ikke er avhengig av nåværende verdier av andre uavhengige variabler. Men hvorfor bør det ikke Det er tenkelig at en uavhengig variabel kan forsterke effekten av en annen, eller at dens effekt kan variere systematisk over tid. I en multiple regresjonsmodell måler den estimerte koeffisienten til en gitt uavhengig variabel antagelig effekt samtidig som den styrer for de andre. , måten kontrollen utføres på, er ekstremt forenklet. Multiplikasjoner av andre variabler blir bare lagt til eller trukket fra. Mange brukere kaste mange uavhengige variabler inn i modellen uten å tenke nøye på dette problemet, som om deres programvare automatisk vil finne ut hvordan de er relaterte Det vant t Selv automatiske modellvalg metoder, for eksempel trinnvis regre ssion krever at du har en god forståelse av dine egne data og å bruke en veiledende hånd i analysen. De arbeider kun med variablene de er gitt i form som de er gitt, og så ser de bare ut for lineære, additivmønstre blant dem i sammenheng med hverandre En regresjonsmodell tar ikke bare på seg at Y er noen funksjon av X s. Det antas at det er en veldig spesiell form for funksjonen til X s. En vanlig praksis er å inkludere uavhengige variabler hvis logiske forutsetninger logisk er kan ikke være additiv, si noen som er totals og andre som er priser eller prosenter Noen ganger kan dette rationaliseres ved lokale førstordens-tilnærming argumenter, og noen ganger kan det t. You trenger å samle relevante data, forstå hva det måler, rengjør det om nødvendig, utfør beskrivende analyse for å lete etter mønstre før du monterer noen modeller, og undersøk de diagnostiske tester av modellantakelser etterpå, spesielt statistikk og plott av feilene. Du bør også forsøk å bruke den aktuelle økonomiske eller fysiske begrunnelsen for å avgjøre om en tilsetningsforutsigelsesligning er fornuftig Også her er det mulig, men ikke garantert at transformasjoner av variabler eller inkludering av interaksjonsbetingelser kan skille deres effekter inn i en additiv form, hvis de ikke gjør det har et slikt skjema til å begynne med, men dette krever litt tanke og innsats fra deg. Tilbake til toppen av siden. Og hvorfor skal vi anta at feilene i lineære modeller er uavhengig og identisk distribuert.1 Denne antakelsen er ofte begrunnet ved å appellere til Den sentrale grenseetningen for statistikk, som sier at summen eller gjennomsnittet av et tilstrekkelig stort antall uavhengige tilfeldige variabler - uansett deres individuelle fordelinger - nærmer seg en normal fordeling. Mange data i næringsliv og økonomi og ingeniørfag og naturvitenskap er oppnådd av legge til eller gjennomsnittlig numerisk måling utført på mange forskjellige personer eller produkter eller steder eller tid ikke rvals Forutsatt at aktivitetene som genererer målingene kan forekomme noe tilfeldig og noe uavhengig, kan vi forvente at variasjonene i totalene eller gjennomsnittene blir noe normalt fordelt.2 Det er igjen matematisk praktisk det innebærer at den optimale koeffisienten estimerer for en lineær modell er de som minimerer den gjennomsnittlige kvadratfeil som enkelt beregnes, og det rettferdiger bruken av en rekke statistiske tester basert på den normale distribusjonsfamilien. Denne familien inkluderer t-fordeling, F-fordeling og Chi-kvadratfordeling.3 Selv om den virkelige feilprosessen ikke er normal i forhold til de opprinnelige enhetene i dataene, kan det være mulig å transformere dataene slik at modellens prediksjonsfeil er omtrent normalt. Men her må man også være forsiktig. Selv om de uforklarlige variasjonene i den avhengige variabelen er omtrent normalt fordelt, er det ikke garantert at de også vil være identisk normalt distribuert ted for alle verdier av de uavhengige variablene. Kanskje er de uforklarlige variasjonene større under noen forhold enn andre, en tilstand som kalles heteroscedasticitet. For eksempel, hvis den avhengige variabelen består av daglig eller månedlig total salg, er det sannsynligvis signifikante ukentlige mønstre eller sesongmessige mønstre I slike tilfeller vil variansen av summen være større på dager eller i sesonger med større forretningsaktivitet - en annen konsekvens av sentralgrenseetningen. Variable transformasjoner som logging og sesongjustering brukes ofte til å håndtere dette problemet. Det er heller ikke garantert at tilfeldige variasjoner vil være statistisk uavhengige. Dette er et spesielt viktig spørsmål når dataene består av tidsserier hvis modellen ikke er riktig angitt, er det mulig at sammenhengende feil eller feil som er adskilt av et annet antall perioder, vil ha en systematisk tendens til å ha samme tegn eller en systematisk tendens til å ha motsatte tegn, et fenomen ikke kjent som autokorrelasjon eller seriell korrelasjon. En svært viktig spesiell sak er at aksjekursdata hvor prosentvise endringer i stedet for absolutte endringer har en tendens til å være normalt fordelt. Dette innebærer at over moderate til store tidsskalaer er bevegelser i aksjekursene lognormalt fordelt heller enn normalt distribuert En loggtransformasjon brukes vanligvis på historiske aksjekursdata når man studerer vekst og volatilitet Forsiktig Selv om enkle regresjonsmodeller ofte er montert på historisk aksjeavkastning for å estimere betas, som er indikatorer for relativ risiko i sammenheng med en diversifisert portefølje, er jeg anbefaler ikke at du bruker regresjon for å forsøke å forutsi fremtidige verdipapirer. Se den geometriske tilfeldige gå-siden i stedet. Du kan fortsatt tro at variasjoner i verdiene av porteføljer av aksjer vil pleie å bli distribuert normalt på grunn av den sentrale grense setningen, men den sentrale grense setningen er faktisk ganske sakte å bite på lognormal distr ibution fordi den er så asymmetrisk langstått En sum på 10 eller 20 uavhengig og identisk lognormalt fordelte variabler har en fordeling som fortsatt er ganske nær lognormal Hvis du ikke tror dette, prøv å teste det med Monte Carlo simulering du vil bli overrasket over jeg var. Fordi forutsetningene for lineær regresjonslinje er additiv relasjoner med normalt distribuerte feil er så sterke, er det svært viktig å teste deres gyldighet ved montering av modeller, et emne som er nærmere omtalt på testmodell-antagelsessiden og være oppmerksom til muligheten for at du kan trenge flere eller bedre data for å oppnå målene dine Du kan ikke få noe fra ingenting Altfor ofte ser brukere av regresjonsanalyse det som en svart boks som automatisk kan forutsi en gitt variabel fra andre variabler som blir matet inn i det, når en regresjonsmodell faktisk er en veldig spesiell og meget gjennomsiktig form for prediksjonskasse. Dess utgang inneholder ikke mer informasjon enn gitt av dens innganger, og dens indre mekanisme må sammenlignes med virkeligheten i hver situasjon der den er brukt. Tilbake til toppen av siden. Korrelasjon og enkle regresjonsformler. En variabel er per definisjon en mengde som kan variere fra en måling til En annen i situasjoner hvor forskjellige prøver tas fra en befolkning eller observasjoner gjøres på forskjellige tidspunkter. Ved å tilpasse statistiske modeller der enkelte variabler brukes til å forutsi andre, er det vi håper å finne, at de forskjellige variablene ikke varierer uavhengig i en statistisk forstand, men at de har en tendens til å variere sammen. Spesielt når vi passer på lineære modeller, håper vi å finne at en variabel sier, Y er varierende som en lineær funksjon av en annen variabel, si X Med andre ord, hvis alle andre Eventuelt relevante variabler kan holdes faste, vi håper å finne grafen for Y mot X for å være en rett linje bortsett fra de uunngåelige tilfeldige feilene eller støyen. En måling av absolutt antall variasjoner evnen i en variabel er naturligvis dens varians som er definert som sin gjennomsnittlige kvadrert avvik fra sitt eget gjennomsnitt. Tilsvarende kan vi måle variabiliteten i forhold til standardavviket som defineres som kvadratroten av variansen. Standardavviket har den fordelen at den måles i de samme enhetene som den opprinnelige variabelen, i stedet for kvadratiske enheter. Vår oppgave ved å forutse Y kan beskrives som forklaringen av noe eller hele dens varians - det vil si hvorfor eller under hvilke forhold avviker det fra det grunnleggende hvorfor er det ikke konstant Det vil vi være i stand til å forbedre på den naive prediktive modellen t CONSTANT, hvor den beste verdien for konstanten er antagelig det historiske middelet av Y Mer presist, håper vi å finne en modell hvis forutsigelsesfeil er mindre, i en gjennomsnittlig kvadratisk forstand enn avvikene fra den opprinnelige variabelen fra dens mean. In bruk av lineære modeller for prediksjon, viser det seg veldig beleilig at den eneste statistikken som interesserer minst f eller formål å estimere koeffisienter for å minimere kvadratfeil er middelverdien og variansen til hver variabel og korrelasjonskoeffisienten mellom hvert par variabler Korrelasjonsfaktoren mellom X og Y betegnes vanligvis ved r XY og det måler styrken til det lineære forholdet mellom dem på en relativ, dvs. enhetsløs skala fra -1 til 1 Dvs det måler det i hvilken grad en lineær modell kan brukes til å forutsi avviket av en variabel fra sin gjennomsnittlige gitt kunnskap om den annen s avvik fra dens gjennomsnitt på samme måte punkt. Korrelasjonskoeffisienten er lettest beregnet hvis vi først standardiserer variablene, som betyr å konvertere dem til enheter av standardavvik-fra-den-menyen, ved å bruke populasjonsstandardavviket i stedet for prøvestandardavviket, dvs. ved å bruke statistikken hvis formel har n i stedet for n-1 i nevnen, hvor n er prøvestørrelsen Den standardiserte versjonen av X vil bli omtalt her med X og dens verdi i periode t er definert i Excel-notat as. where STDEV P er Excel-funksjonen for populasjonsstandardavviket Her og andre steder skal jeg bruke Excel-funksjoner i stedet for konvensjonelle matte-symboler i noen av formlene for å illustrere hvordan beregningene skulle gjøres på et regneark For eksempel, anta at AVERAGE X 20 og STDEV PX 5 Hvis X t 25, deretter X t 1, hvis X t 10 deretter X t -2 og så videre Y vil betegne den like standardiserte verdien av Y. Nå er korrelasjonskoeffisienten er lik gjennomsnittet av de standardiserte verdiene for de to variablene innenfor den gitte prøven av n observasjoner. For eksempel hvis X og Y er lagret i kolonner på et regneark, kan du bruke AVERAGE og STDEV P-funksjonene til å beregne their averages and population standard deviations, then you can create two new columns in which the values of X and Y in each row are computed according to the formula above Then create a third new column in which X is multiplied by Y in every row The average of the values in the last column is the correlation between X and Y Of course, in Excel, you can just use the formula CORREL X, Y to calculate a correlation coefficient, where X and Y denote the cell ranges of the data for the variables Note in some situations it might be of interest to standardize the data relative to the sample standard deviation, which is STDEV S in Excel, but the population statistic is the correct one to use in the formula above Return to top of page. If the two variables tend to vary on the same sides of their respective means at the same time, then the average product of their deviations and hence the correlation between them will be positive since the product of two numbers with the same sign is positive Conversely, if they tend to vary on opposite sides of their respective means at the same time, their correlation will be negative If they vary independently with respect to their means--that is, if one is equally likely to be above or below its mean regardless of what t he other is doing--then the correlation will be zero And if Y is an exact linear function of X, then either Y t X t for all t or else Y t - X t for all t in which case the formula for the correlation reduces to 1 or -1.The correlation coefficient can be said to measure the strength of the linear relationship between Y and X for the following reason The linear equation for predicting Y from X that minimizes mean squared error is simply. Thus, if X is observed to be 1 standard deviation above its own mean, then we should predict that Y will be r XY standard deviations above its own mean if X is 2 standard deviations below its own mean, then we should be predict that Y will be 2 r XY standard deviations below its own mean, and so on. In graphical terms, this means that, on a scatterplot of Y versus X the line for predicting Y from X so as to minimize mean squared error is the line that passes through the origin and has slope r XY This fact is not supposed to be obvious, but it is easily prov ed by elementary differential calculus. Here is an example on a scatterplot of Y versus X the visual axis of symmetry is a line that passes through the origin and whose slope is equal to 1 i e a 45-degree line , which is the gray dashed line on the plot below It passes through the origin because the means of both standardized variables are zero, and its slope is equal to 1 because their standard deviations are both equal to 1 The latter fact means that the points are equally spread out horizontally and vertically in terms of mean squared deviations from zero, which forces their pattern to appear roughly symmetric around the 45-degree line if the relationship between the variables really is linear However, the gray dashed line is the not the best line to use for predicting the value of Y for a given value of X The best line for predicting Y from X has a slope of less than 1 it regresses toward the X axis The regression line is shown in red, and its slope is the correlation between X and Y which is 0 46 in this case Why is this true Because, that s the way to bet if you want to minimize the mean squared error measured in the Y direction If instead you wanted to predict X from Y so as to minimize mean squared error measured in the X direction, the line would regress in the other direction relative to the 45-degree line, and by exactly the same amount. If we want to obtain the linear regression equation for predicting Y from X in unstandardized terms we just need to substitute the formulas for the standardized values in the preceding equation, which then becomes. By rearranging this equation and collecting constant terms, we obtain. is the estimated slope of the regression line, and. is the estimated Y - intercept of the line. Notice that, as we claimed earlier, the coefficients in the linear equation for predicting Y from X depend only on the means and standard deviations of X and Y and on their coefficient of correlation. The additional formulas that are needed to compute sta ndard errors t-statistics and P-values statistics that measure the precision and significance of the estimated coefficients are given in the notes on mathematics of simple regression and also illustrated in this spreadsheet file. Perfect positive correlation r XY 1 or perfect negative correlation r XY -1 is only obtained if one variable is an exact linear function of the other, without error, in which case they aren t really different variables at all. In general we find less-than-perfect correlation, which is to say, we find that r XY is less than 1 in absolute value Therefore our prediction for Y is typically smaller in absolute value than our observed value for X That is, the prediction for Y is always closer to its own mean, in units of its own standard deviation, than X was observed to be, which is Galton s phenomenon of regression to the mean. So, the technical explanation of the regression-to-the-mean effect hinges on two mathematical facts i the correlation coefficient, calculated in the manner described above, happens to be the coefficient that minimizes the squared error in predicting Y from X and ii the correlation coefficient is never larger than 1 in absolute value, and it is only equal to 1 when Y is an exact noiseless linear function of X. The term regression has stuck and has even mutated from an intransitive verb into a transitive one since Galton s time We don t merely say that the predictions for Y regress to the mean --we now say that we are regressing Y on X when we estimate a linear equation for predicting Y from X and we refer to X as a regressor in this case. When we have fitted a linear regression model, we can compute the variance of its errors and compare this to the variance of the dependent variable the latter being the error variance of an intercept-only model The relative amount by which the regression model s error variance is less than the variance of the dependent variable is referred to as the fraction of the variance that was explained by the independent variable s For example, if the error variance is 20 less than the original variance, we say we have explained 20 of the variance. It turns out that in a simple regression model, the fraction of variance explained is precisely the square of the correlation coefficient --i e the square of r Hence, the fraction-of-variance-explained has come to be known as R-squared The interpretation and use of R-squared are discussed in more detail here. In a multiple regression model one with two or more X variables , there are many correlation coefficients that must be computed, in addition to all the means and variances For example, we must consider the correlation between each X variable and the Y variable, and also the correlation between each pair of X variables In this case, it still turns out that the model coefficients and the fraction-of-variance-explained statistic can be computed entirely from knowledge of the means, standard deviations, and correlation coefficients among t he variables--but the computations are no longer easy We will leave those details to the computer Return to top of page. Go on to a nearby topic.

No comments:

Post a Comment