Stata 11 Glidande Medelvärde
Stata Data Analysis och Statistical Software. Nicholas J Cox, Durham University, Storbritannien Christopher Baum, Boston College. egen, ma och dess begränsningar. Stata s mest uppenbara kommando för att beräkna glidande medelvärden är ma funktion egen. Med ett uttryck skapar det en - period glidande medelvärdet av det här uttrycket Som standard tas det som 3 måste vara udda. Men som den manuella inmatningen indikerar kan egen ma inte kombineras med varlist och av den anledningen är den inte tillämplig på paneldata I vilket fall som helst står den utanför uppsättningen kommandon som är specifikt skrivna för tidsserier, se tidsserier för detaljer. Alternativa tillvägagångssätt. För att beräkna glidmedel för paneldata finns det minst två val. Båda beror på att datasetet tidigare har ställts in. Detta är mycket värt att göra inte bara kan du spara dig själv upprepade gånger med att ange panelvariabel och tidsvariabel, men Stata beter sig smart med några luckor i data.1 Skriv din egen definition genom att generera. Använda tidsserier o peratorer som L och F ger definitionen på det rörliga genomsnittsvärdet som argumentet för ett genererat uttalande. Om du gör det här är du naturligtvis inte begränsad till lika viktiga, obetalda centrerade glidmedel, beräknade av egen, ma. Exempelvis lika viktiga tre-års glidande medelvärden skulle ges av. och vissa vikter kan enkelt specificeras. Du kan givetvis ange ett uttryck som logg myvar istället för ett variabelt namn som myvar. En stor fördel med detta tillvägagångssätt är att Stata automatiseras automatiskt den rätta saken för paneldataledande och fördröjande värden i paneler, precis som logiken dikterar att de borde vara. Den mest anmärkningsvärda nackdelen är att kommandoraden kan bli ganska lång om det rörliga genomsnittet innefattar flera termer. Ett annat exempel är Ett ensidigt rörligt medelvärde baserat endast på tidigare värden Detta kan vara användbart för att generera en adaptiv förväntning av vilken variabel som kommer att baseras uteslutande på information hittills vad kan någon förutse för r den aktuella perioden baserat på de fyra senaste värdena, med hjälp av ett fast viktningsschema. En 4-periodslagsperiod kan användas speciellt vanligen med kvartalsvisa tider. Använd egna, filter från SSC. Använd det användarskrivna egenfunktionsfiltret från egenmore-paketet På SSC I Stata 7 uppdaterad efter 14 november 2001 kan du installera detta paket by. after vilken hjälp egenmore pekar på detaljer om filter De två exemplen ovan skulle göras. I denna jämförelse är genereringsmetoden kanske mer genomskinlig, men vi kommer att se ett exempel på motsatsen i ett ögonblick. Lagsna är en numlist leder är negativa lags i detta fall -1 1 expanderar till -1 0 1 eller led 1, lag 0 , lag 1 Samma ficienter, en annan numlist, multiplicera motsvarande släp eller ledande objekt i det här fallet är dessa poster myvar och Effekten av normaliseringsalternativet är att skala varje koefficient med summan av koefficienterna så att coef 1 1 1 normaliserar är ekvivalent med koefficienterna 1 3 1 3 1 3 och coef 1 2 1 normalisera motsvarar koefficienterna 1 4 1 2 1 4.Du måste ange inte bara lags men även koefficienterna Eftersom egen ma ger lika viktat fall, huvudargument för egen, filter är att stödja det ojämnt viktiga fallet, för vilket du måste ange koefficienter Det kan också sägas att förplikta användarna att specificera koefficienter är ett litet extra tryck på dem för att tänka på vilka koefficienter de vill ha. för lika vikter är vi gissning, enkelhet, men lika vikter har äckliga frekvensdomänegenskaper, för att bara nämna ett övervägande. Det tredje exemplet ovan kan vara vilket som helst är så komplicerat som genereringsmetoden. Det finns fall där egen , filtrerar ger en enklare formulering än att generera Om du vill ha ett nio-termins binomialfilter, vilka klimatologer tycker är användbara, så är det kanske mindre hemskt än, och lättare att få rätt än. Bara som med genereringsmetoden fungerar egen filter korrekt med paneldata Faktum är att det som sagt ovan beror på datasetet som har ställts in tidigare. En grafisk spets. Efter att ha beräknat dina glidande medelvärden kommer du förmodligen att vilja se på ett diagram. Det användarskrivna kommandot tsgraph är smart om dataset för dataset Installera det i en aktuell Stata 7 av ssc inst tsgraph. Vad sägs om att subsätta med if. None av ovanstående exempel använder sig av om begränsningar. Egentligen, ma tillåter inte att anges. Ibland kan människor wa nt att använda om vid beräkning av glidande medelvärden men användningen är lite mer komplicerad än vad som vanligtvis är. Vad skulle du förvänta dig av ett glidande medelvärde beräknat med om Låt oss identifiera två möjligheter. Vilken tolkning jag vill inte se några resultat för de uteslutna observationerna. Stort tolkning Jag vill inte ens att du ska använda värdena för de uteslutna observationerna. Här är ett konkret exempel Antag till följd av vissa om villkoret är observationer 1-42 men inte observationer 43 på Men det glidande genomsnittet för 42 beror bland annat på värdet för observation 43 om medelvärdet sträcker sig bakåt och framåt och är av längd åtminstone 3 och det kommer också att bero på några av observationerna 44 och vidare under vissa omständigheter. Vi antar att de flesta skulle gå för den svaga tolkningen, men om det är korrekt, själv, stödjer inte filtret om du antingen alltid kan ignorera vad du inte vill eller ens ställa in oönskade värden att sakna efteråt b y använder ersättning. Anmärkning om saknade resultat i seriens ändar. Eftersom rörliga medelvärden är funktioner av lags och leads, producerar ma saknas där lags och leads inte existerar, i början och slutet av serien. Ett alternativ nomiss tvingar beräkningen av kortare, ocenterade glidmedel för svansarna. Däremot genererar eller skapar inte heller filter, eller tillåter, något speciellt för att undvika att missa resultat. Om något av de värden som behövs för beräkning saknas, saknar det resultatet är upp till användarna att bestämma om och vilken korrigering som krävs för sådana observationer, förmodligen efter att ha tittat på datasetet och med tanke på vilken underliggande vetenskap som kan bäras. Möjliggör Lowess. We kommer att arbeta med data från Colombia WFS Household Survey, utförd 1975-1976 tabulerade jag åldersfördelningen av alla hushållsmedlemmar och räddade den i en ascci-fil, som vi nu läser och plottar. Som du kan se är utdelningen något mindre slät än den data från Filippinerna som vi studerade tidigare Kan du beräkna Myers-indexet för denna distribution. Running Means and Lines. Det enklaste sättet att släta en scatterplot är att använda ett glidande medelvärde, även känt som ett löpande medelvärde. Den vanligaste metoden är att använda en fönstret 2k 1 observationer, k till vänster och k till höger om varje observation Värdet av k är en avvägning mellan jämnhetens godhet. Särskild vård måste vidtas vid ytan av området. Stata kan beräkna körmedel via lowess med alternativen betyder och nueight. Ett vanligt problem med löpande medel är bias En lösning är att använda vikter som ger större betydelse för närmaste grannar och mindre för dem längre bort En populär viktfunktion är Tukey s tri-cube, definierad som wd 1 - d 3 3 för d 1 och 0 annars, där d är avståndet till målpunkten uttryckt som en bråkdel av bandbredden Stata kan göra denna beräkning via lowess med alternativet, om du släpper bort noweight. En ännu bättre lösning är att använda r unning linjer Vi definierar återigen ett grannskap för varje punkt, vanligtvis de närmaste grannarna på varje sida, passar en regressionslinje till punkterna i grannskapet och använder sedan den för att förutsäga ett jämnare värde för indexobservationen. Detta låter som en hel del Arbete men beräkningarna kan göras effektivt med hjälp av regressionsuppdateringsformler. Stata kan beräkna en löpelinje via lowess om du slipper mena men med nueight Bättre är det att använda viktiga löpelinjer som ger större vikt till närmaste observationer, vilket är det lägsta läget jämnare Följer en variant denna uppskattning med några iterationer för att få en mer robust linje Detta är tydligen den bästa tekniken i familjen Stata s lowess använder en vägd löpelinje om du släpper ut medelvärdet och nuet. R implementerar lowess mjukare genom funktionerna lowess och Den nyare loessen, som använder ett formelgränssnitt med en eller flera prediktorer och något olika standardvärden Parametervärdet styr graden av den lokala p Olynomial standard är 2 för kvadratisk, alternativ är 1 för linjär och 0 för löpande medel Båda implementationer kan använda en robust estimator, med antalet iterationer kontrollerade av en parameter iter eller iterationer Skriv loess och lowess i R konsolen för mer information I Ggplot du kan överlappa en lowess mjukare genom att ringa geomsmooth. The figure nedan visar de colombianska data och en lowess jämnare med en spänning eller bandbredd som är lika med 25 av data. You kanske vill prova olika badbredd för att se hur resultaten varierar. Digit Preference Revisited. Smoothing åldersfördelningen ger ett bättre sätt att bedöma cifrepreferensen än Myers-blandning Låt oss beräkna den sista åldersaldeln och tabulera den över hela spektrumet av data med hjälp av observerade frekvenser och en lågare jämnare. Råfrekvenserna visar på preferens för åldrar som slutar i 0 och 5, vilket är mycket vanligt, och förmodligen 2 också. Vi använder nu glatt som vikt. De jämnfrekventa frekvenserna visar att vi förväntar oss färre pe ople vid högre siffror, även i en jämn fördelning med mer slut på 0 än 9 Vi är nu redo att beräkna ett index för cifrepreferensen, definierad som halva summan av absoluta skillnader mellan observerade och släta frekvenser. Vi ser att vi skulle behöva För att omforma 5 5 av observationerna för att eliminera cifrepreferensen Du kanske vill jämföra detta resultat med Myers index.2017 Germ n Rodr guez, Princeton University. Tänk dig att du har uppgifter om priser för många produkter. För var och en av produkterna spelar du in veckoprisinformation. förstått obs 200.gen prodid n. Varje produkt har ett unikt genomsnittspris för produktpriset. 7. Du har uppgifter om veckopriserna i 200 veckor, expandera 200 bysort prodid gen t n label var t Week. Det finns också vissa säsongsvariationer säsongsbetonade 2 sin pi t 50. Förutom en generell tidstrendsgen trend t 005. Den första observationen är inte korrelerad med något genpris prodprice 2 5 trend rpoisson 10 10 om t 1 ersätta prisprodukt 2 Trend säsong 7 pris n-1 3 rpoisson 10 10 om t 2 ersätt pris prissättning trend säsongsbetonad 5 pris n-1 2 pris n-2 3 rpoisson 10 10 om t 3 ersätt pris prissättning trend säsong 3 pris n-1 2 pris n - 2 2 pris n-3 3 rpoisson 10 10 om t 4 ersätt prissättning trend säsong 3 pris n-1 175 pris n-2 125 pris n-3 1 pris n-4 3 rpoisson 10 10 om t 4. Skapa en globabl till Butik globala twograph. forv i 1 6 globala twograph line pris t om prodid i. twoway twograph, legend off title Sann prisutveckling för första sex produkter. Låt oss nu föreställa oss att ovanstående genererade data är den sanna prisinformationen som är fundamentalt observerbar. Istället har du flera samlingar av data per vecka på priser som variera beroende på några slumpmässiga tillsatsfel expandera 3.bysort prodid t gen prodobs n. gen pricecollect price normal 25. Men den prisinformation som du har har några poster som 10 har misstag Inmatad fel. gen entryerror rbinomial 1, 1 gen scalarror rormal 1.gen priceobs pricecollect 1 entryerror scalarerror label var priceobs Registrerat pris. Dessutom samlades 35 av dina prisuppgifter aldrig i gen saknade rbinomial 1, 35.drop om du saknar 1. Skapa en globabl för att lagra global twograph. forv i 1 6 globala twograph line priceobs t om du vill prodobs 1.twoway twograph, legend Off title Observerade prisutvecklingar för de första sex produkterna. Det finns inga priser för prodid entryerror Jag håller inmatningsfelet i datamängden som ett medel för jämförelse men det skulle inte observeras direkt. Frågan är. Kan du nu med denna röriga data återställa prisdata som liknar originalet. Det första som vi ska utnyttja är duplikatet inspelat data. scatter priceobs t om prodid 1, title Det är lätt att se enskilda avvikelser. Det är lätt att se enskilda avvikelser men vi vill inte gå igenom alla 200 produkter för att identifiera enskilda prisutjämnare. Vi vill komma fram till ett system för att identifiera avvikare. Låt s generera en genomsnittlig produkt och tid förkortad med egna prissatta medelvärden. Låt s flagga någon observation som är 120 större än medelvärdet eller 80 mindre än den genomsnittliga genflaggan Prisvärda prisobs 1 2 prisvärda prisobs 8. Låt oss se hur det fungerar två scatter priceobs t om prodid 1 scatter priceobs t om prodid 1 flagga 1 Msymbol lgx title Några av outliers kan identifieras bara titta på den genomsnittliga legenden off. corr flag entryerror Vår flagga är korrelerad ca 45 med postfel Det är bra men vi kan göra det bättre. Jag föreslår det istället för att använda bara medelvärdet att vi konstruerar ett glidande medelvärde av priser och se hur varje inmatning avviker från medelvärdet. Det enda problemet är att det rörliga genomsnittliga kommandot kräver xtset och det kräver bara en post per tidsperiod. Så säger jag Vi omkalkar tidsvariabeln och lägger till som om den spelades in vid en annan tidpunkt i veckan observationsnumret. Vi behöver nyligen generera prodob eftersom vi inte vet vilken observation som saknas från varje produkt genom att producera produktionen av prodobs n. gen t2 t 4 prodobs. Xtset anger panelens datapanel ID och tidsserie nivå xtset prodid t2. Kommandot vi ska använda är tssmooth. Det är kodat så att genom att ange ma betyder det att flytta genomsnittet och fönstret berättar för Stata hur många tidsperioder som ska räknas framåt och hur många bakom i den rörliga luftningen. Detta kommando kan ta en stund medan mamma ma kartriceobs priceobs är fönster 23 0 23 23 i Effekt 5 veckor framåt och 5 veckor bakom 0 berättar stata att inte inkludera sig själv i det genomsnittet. Det rörliga genomsnittet två scatter priceobs t om prodid 1 line mapriceobs t om prodid 1 line pricemean t om prodid 1 titel Moving Average är mindre acceptabelt för outliers. Det rörliga genomsnittet är stabilare än bara tidsgenomsnittet. Låt oss försöka flagga med hjälp av det glidande medelhöljet släpp flagg 2 gen flag2 mapriceobs priceobs 1 2 mapriceobs priceobs 8.two scatter priceobs t om prodid 1 scatter priceobs t om prodid 1 flag2 1 msymbol lgx titel Moving Average kan också vara användbar legend off. corr Flag2 entryerror. Släpp vår flaggade dataförlust om flag2 1. Kollapsa till den veckovisa nivån, kollapsa prisobs, med hjälp av etiketten var priceobs Medelpris observerat. forv i 1 6 globalt twograph scatter priceobs t om prodid i. twoway twograph, legend off title Observerade prisutvecklingar för Första sex produkterna Data ser mycket bättre ut, men vi har fortfarande tydligt några oönskade outliers. Vi skulle kunna dra nytta av produktutvecklingarna för att hjälpa till att identifiera avvikelser inom produktpriserna med hjälp av en egenprisvärde. Prisvärda prisobs. Om prodid 1 förutsäger resid1, restual. reg priceobs aveprice om prodid 2 förutsäger resid2, restual. reg priceobs aveprice om prodid 3 förutsäga resid3, residual. twoway line resid1 t om prodid 1 line priceobs t om prodid 1 line resid2 t om prodid 2 line priceobs t om prodid 2 line resid3 t om prodid 3 line priceobs t om prodid 3 title Resterna är tydliga indikatorer på Outliers legenden utanför. Slutligen låt oss släppa observationer med rester som är större än 1 5 standardavvikelser från medelvärdet. qui forv 1 200 reg priceobs aveprice om prodid jag förutspår residtemp, rest summa resttemp ersätt flagga residtemp-r medelvärde r sd 1 5 residtemp-r Genomsnittlig droppe residtemp. Låt oss se hur det fungerar två scatter priceobs t om prodid 2 scatter priceobs t om prodid 2 flagga 1 msymbol lgx title Nu försöker du bara ta bort några slutliga avvikande legenden av. Plotting produkt 1 prissättning i förhållande till utestängare globala twograph. forv i 1 6 globala twograph line priceobs t om prodid i. Slutligen släppa outliers fallet om flagga. En sista graf global twograph. forv i 1 6 global twograph scatter priceobs t om prodid i. twoway twograph, legend off title Observerade prisutvecklingar för första sex produkter. Inte så rent som vår första graf men definitivt mycket bättre.
Comments
Post a Comment