HINWEIS: Die IDRE Statistical Consulting Group wird die Migration der Website auf das WordPress CMS im Februar, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata FAQ Wie kann ich - estout - verwenden, um Regressionstabellen zu erstellen, die wie in Journalartikeln aussehen Diese FAQ veranschaulicht den estout Befehl, der Regressionstabellen in einem macht Format, das häufig in Zeitschriftenartikeln verwendet wird. Der estout-Befehl wurde von Ben Jann von der ETH Zürich verfasst. Sie können herunterladen estout aus innerhalb von Stata, indem Sie findit estout (siehe Wie kann ich den Befehl findit verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit erhalten). Lets illustrieren die Verwendung der estout Befehl mit der High School und jenseits der Datendatei. Wir werden drei Regressionsmodelle ausführen, die die Variable read vorhersagen. Das erste Modell wird von den Variablen weiblich vorhersagen und schreiben das zweite Modell wird von Frauen vorherzusagen. Schreiben und Mathematik und das dritte Modell wird von Frauen vorherzusagen. Schreiben. Math Wissenschaft und Gesellschaft. Nach jedem Regress werden wir einen Schätzungsbefehl ausführen. Wir verwenden dann estout, um eine einzelne Tabelle zu erstellen, die diese Modelle nebeneinander zusammenfasst. Jetzt haben wir einen perfekten Tisch, der nur die Regressionskoeffizienten enthält. Wir werden den estout-Befehl ändern, um Standardfehler und Sterne für statistische Signifikanz hinzuzufügen. Wir werden die Ausgabe auch so formatieren, dass die Koeffizienten drei Dezimalstellen und die Standardfehler zwei Dezimalstellen haben. Beachten Sie, dass die Par-Option für se platziert Klammern um den Standardfehler. Die Tabelle ist jetzt besser, kann aber noch verbessert werden, indem man die Modellnamen über den Spalten mit der Label-Option anfügt, eine Legende hinzufügt und das Label für cons auf constant setzt. Als nächstes wollen wir einige Dinge hinzufügen, um die Tabelle, wie R-Quadrat, restlichen Freiheitsgraden und BIC. Stata hat spezielle Namen für jede dieser Zusatzstatistiken, r2 ist der Name für R-quadriert, df für restliche Freiheitsgrade und bic für den BIC. Sie können die Namen dieser Elemente aus der ereturn-Liste und aus dem Okay, waren fast fertig. Wir müssen nur den unteren Teil des Tisches säubern, wobei jeder der Items ein besseres Label und die Anzahl der Dezimalstellen für jedes der Items anpasst. Wir haben jetzt eine Tabelle, die für die Veröffentlichung in vielen Zeitschriften akzeptabel ist. Natürlich definiert jede Zeitschrift ihre eigenen Formate. Glücklicherweise ist estout sehr flexibel und hat viele Optionen, die sich an fast alle periodischen Anforderungen anpassen. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der University of California. For schnelle Fragen e-Mail dataprinceton. edu ausgelegt werden. Keine appts. Notwendig während der begehbaren Stunden. Hinweis: Das DSS-Labor ist geöffnet, solange Firestone geöffnet ist, keine Termine erforderlich, um die Labor-Computer für Ihre eigene Analyse zu verwenden. Interpretation der Regressionsausgabe Einleitung Diese Anleitung setzt voraus, dass Sie mindestens ein wenig vertraut mit den Konzepten der linearen multiplen Regression sind und in der Lage sind, eine Regression in einigen Softwarepaketen wie Stata, SPSS oder Excel durchzuführen. Vielleicht möchten Sie unsere Begleitseite Einführung in die Regression lesen. Für Unterstützung bei der Durchführung von Regression in bestimmten Softwarepaketen gibt es einige Ressourcen im UCLA Statistical Computing Portal. Kurze Überprüfung der Regression Denken Sie daran, dass die Regressionsanalyse verwendet wird, um eine Gleichung herzustellen, die eine abhängige Variable mit einer oder mehreren unabhängigen Variablen voraussagt. Diese Gleichung hat die Form, wobei Y die abhängige Variable ist, die Sie vorhersagen wollen, X1. X2 und so weiter sind die unabhängigen Variablen, die Sie verwenden, um es vorherzusagen, b1. B2 und so weiter sind die Koeffizienten oder Multiplikatoren, die die Größe des Effekts beschreiben, den die unabhängigen Variablen auf der abhängigen Variablen Y haben. Und A der Wert Y ist, der vorhergesagt wird, wenn alle unabhängigen Variablen gleich Null sind. In der nachstehend gezeigten Stata-Regression beträgt die Vorhersagegleichung den Preis -294.1955 (mpg) 1767.292 (ausländisch) 11905.42 - Ihnen wird mitgeteilt, dass der Preis um 1767.292 erhöht wird, wenn die Fremdvariable um eins ansteigt, um 294.1955, wenn mpg um eins ansteigt Und wird vorausgesagt, um 11905.42 zu sein, wenn sowohl mpg als auch fremd Null sind. Eine solche Vorhersagegleichung zu finden, ist nur eine nützliche Übung, wenn die unabhängigen Variablen in Ihrem Dataset eine Korrelation mit Ihrer abhängigen Variablen haben. Neben den Vorhersagekomponenten Ihrer Gleichung - den Koeffizienten auf Ihren unabhängigen Variablen (Betas) und der Konstanten (alpha) - benötigen Sie ein Maß, um festzustellen, wie stark jede unabhängige Variable mit Ihrer abhängigen Variablen verknüpft ist. Wenn Sie Ihre Regression ausführen, werden Sie herausfinden, ob die Koeffizienten auf Ihren unabhängigen Variablen wirklich von 0 verschieden sind (so dass die unabhängigen Variablen eine echte Wirkung auf Ihre abhängige Variable haben) oder wenn alternativ alle scheinbaren Unterschiede von 0 nur zufällig sind Chance. Die Null-Hypothese ist immer, dass jede unabhängige Variable absolut keine Wirkung hat (einen Koeffizienten von 0 hat) und Sie suchen nach einem Grund, diese Theorie zurückzuweisen. P, t und Standardfehler Die t-Statistik ist der Koeffizient dividiert durch den Standardfehler. Der Standardfehler ist eine Schätzung der Standardabweichung des Koeffizienten, die Menge, die er in den Fällen variiert. Es kann als ein Maß für die Genauigkeit, mit der der Regressionskoeffizient gemessen wird, gedacht werden. Wenn ein Koeffizient im Vergleich zu seinem Standardfehler groß ist, dann ist er wahrscheinlich von 0 verschieden. Wie groß ist Ihre Regressionssoftware vergleicht die t-Statistik auf Ihrer Variablen mit Werten in der Schüler-t-Verteilung, um den P-Wert zu bestimmen, der die Zahl ist Dass Sie wirklich betrachten müssen. Die Student-t-Verteilung beschreibt, wie der Mittelwert einer Probe mit einer bestimmten Anzahl von Beobachtungen (Ihre n) erwartet wird, sich zu verhalten. Wenn 95 der t-Verteilung näher am Mittel liegt als der t-Wert auf dem Koeffizienten, den Sie betrachten, dann haben Sie einen P-Wert von 5. Dies wird auch auf ein Signifikanzniveau von 5 übertragen. Der P-Wert ist die Wahrscheinlichkeit Ein Ergebnis zu sehen, das so extrem ist wie dasjenige, das Sie erhalten (in dem Wert, der so groß ist wie Ihre) in einer Sammlung von Zufallsdaten, in denen die Variable keine Wirkung hatte. Ein P von 5 oder weniger ist der allgemein akzeptierte Punkt, an dem die Nullhypothese zurückgewiesen werden kann. Mit einem P-Wert von 5 (oder .05) gibt es nur eine 5 Chance, dass die Ergebnisse, die Sie sehen würden, in einer zufälligen Verteilung gekommen sein würden, so dass Sie mit einer Wahrscheinlichkeit von 95 sagen können, dass die Variable eine gewisse Wirkung hat, Dass Ihr Modell korrekt angegeben ist. Das 95 Konfidenzintervall für Ihre Koeffizienten, die von vielen Regressionspaketen angezeigt wird, gibt Ihnen die gleichen Informationen. Sie können zuversichtlich sein, dass der tatsächliche, zugrunde liegende Wert des Koeffizienten, den Sie schätzen, irgendwo in dem 95 Konfidenzintervall fällt, so dass, wenn das Intervall nicht 0 enthält, Ihr P-Wert 0,10 oder weniger beträgt. Beachten Sie, dass die Größe des P-Werts für einen Koeffizienten nichts über die Größe des Effekts, den die Variable auf Ihre abhängige Variable hat, sagt - es ist möglich, ein sehr signifikantes Ergebnis (sehr kleiner P-Wert) für einen winzigen Effekt zu haben. Koeffizienten Bei der einfachen oder mehrfachen linearen Regression gibt die Größe des Koeffizienten für jede unabhängige Variable die Größe des Effekts an, den die Variable auf der abhängigen Variable hat, und das Vorzeichen auf dem Koeffizienten (positiv oder negativ) gibt die Richtung der bewirken. In der Regression mit einer einzigen unabhängigen Variablen gibt der Koeffizient an, wieviel die abhängige Variable (wenn der Koeffizient positiv ist) zu erwarten ist (oder wenn der Koeffizient negativ ist), wenn diese unabhängige Variable um eins zunimmt. Bei der Regression mit mehreren unabhängigen Variablen gibt der Koeffizient an, wie stark die abhängige Variable zunehmen soll, wenn diese unabhängige Variable um eins ansteigt und alle anderen unabhängigen Variablen konstant hält. Denken Sie daran, die Einheiten, die Ihre Variablen gemessen werden, zu berücksichtigen. Hinweis: In Form von Regression anders als lineare Regression, wie Logistik oder probit, haben die Koeffizienten nicht diese einfache Interpretation. Die Erläuterung, wie man damit umgeht, geht über den Rahmen eines einführenden Leitfadens hinaus. R-Squared und Gesamtsumme der Regression Das R-Quadrat der Regression ist der Bruchteil der Variation in Ihrer abhängigen Variablen, die durch Ihre unabhängigen Variablen berechnet (oder vorhergesagt) wird. (In der Regression mit einer einzigen unabhängigen Variablen ist sie die gleiche wie das Quadrat der Korrelation zwischen der abhängigen und der unabhängigen Variablen.) Das R-Quadrat ist im Allgemeinen von untergeordneter Bedeutung, es sei denn, Ihr Hauptanliegen besteht darin, die Regressionsgleichung zur genauen Vorhersage zu verwenden . Der P-Wert gibt an, wie sicher man sein kann, dass jede einzelne Variable eine gewisse Korrelation mit der abhängigen Variablen hat, was wichtig ist. Eine andere zu beachtende Zahl ist der P-Wert für die Regression als Ganzes. Weil Ihre unabhängigen Variablen korreliert werden können, eine Bedingung, die als Multikollinearität bekannt ist, können die Koeffizienten auf einzelnen Variablen unbedeutend sein, wenn die Regression als Ganzes signifikant ist. Intuitiv liegt dies daran, dass hochkorrelierte unabhängige Variablen den gleichen Teil der Variation in der abhängigen Variablen erklären, so dass ihre Erklärungskraft und die Bedeutung ihrer Koeffizienten zwischen ihnen aufgeteilt werden. Weiterführende Literatur 2007 Die Treuhänder der Princeton University. Alle Rechte vorbehalten. Dataprinceton. edu ANMERKUNG: Informationen sind für Princeton University. Sie können die Dokumentation auch außerhalb von Princeton beantworten Diese Seite wurde zuletzt aktualisiert am:
No comments:
Post a Comment