Montag, 12. März 2018

Sonne am Sonntag

Zuhause kam die Frage auf, ob am Sonntag die Sonne vielleicht öfter scheint als an anderen Tagen. Super, dachte ich, das kann man rausfinden!

Der Deutsche Wetterdienst hat so ein Portal in dem man verschiedene historische Wetterdaten pro Stunde herunterladen kann. z.T. sogar seit dem 19. Jhr. Leider klickt man ein paar Stunden bis man alle Daten hat. Ein Programmierer fackelt da nicht lang und baut sich ein Skript.

Es gibt dort 77 Stationen, die die Sonnenminuten pro Stunde messen. 45 davon haben Daten seit mindestens 1951. Die älteste Station ist Potsdam mit Daten seit 1893. Im Folgenden habe ich nur diese Stationen betrachtet, d.h. mindestens 65 Jahre Sonneneinstrahlung an 45 Standorten in Deutschland.

Wie lang scheint denn im Durchschnitt so die Sonne am Tag in Deutschland? Im Jahresmittel etwa 4.5 Stunden oder 271.77 Minuten. Und wie sieht die Verteilung pro Wochentag im Durchschnitt über alle 45 Wetterstationen aus?

Mo  273.6m (4.6h)
Di  272.92m (4.5h)
Mi  272.18m (4.5h)
Do  271.28m (4.5h)
Fr  269.19m (4.5h)
Sa  268.84m (4.5h)
So  274.38m (4.6h) 2.6m über Durchschnitt

Kaum zu glauben.. Die Sonne scheint Sonntag am längsten, und zwar 2.6 Minuten länger als im Durchschnitt. Zugegeben, der Unterschied ist minimal und wahrscheinlich eher Zufall - aber ein sehr seltsamer Zufall.. Hier die Gewinner pro Wochentag:

Mo   8   Arkona, Greifswald, Hof, Regensburg, Rostock-Warnemünde, Schwerin, Stötten, Wendelstein (Wendelsteinhaus)
Di   9   Aachen, Brocken, Erfurt-Bindersleben, Fichtelberg, Hannover, Kassel (West), Lippspringe, Bad, Potsdam, Wasserkuppe
Mi   6   Augsburg-Kriegshaber, Feldberg/Schwarzwald, Hohenpeißenberg, Oberstdorf, Rheinstetten-Forchheim, Zugspitze
Do   2   Freudenstadt, Görlitz
Fr   1   Berlin-Dahlem (LFAG)
Sa   4   Bremen, Cuxhaven, Hamburg-Fuhlsbüttel, Schleswig
So   15   Angermünde, Berlin-Dahlem (FU), Frankfurt/Main, Gießen, Karlsruhe, Lindenberg, List auf Sylt, Magdeburg, Mannhein, Norderney, Straubing, Trier-Petrisberg, Weiden, Würzburg, Öhringen

Und zur Referenz alle Stationen im Überblick:

Aachen

Mo  263.32m (4.4h)
Di  266.78m (4.4h) 5.8m über Durchschnitt
Mi  260.44m (4.3h)
Do  258.94m (4.3h)
Fr  255.05m (4.3h)
Sa  256.5m (4.3h)
So  265.51m (4.4h)

Angermünde

Mo  277.92m (4.6h)
Di  277.21m (4.6h)
Mi  280.05m (4.7h)
Do  276.89m (4.6h)
Fr  272.46m (4.5h)
Sa  279.53m (4.7h)
So  282.85m (4.7h) 4.7m über Durchschnitt

Arkona

Mo  307.68m (5.1h) 4.2m über Durchschnitt
Di  301.53m (5.0h)
Mi  304.59m (5.1h)
Do  302.47m (5.0h)
Fr  299.81m (5.0h)
Sa  303.4m (5.1h)
So  304.83m (5.1h)

Augsburg-Kriegshaber

Mo  285.7m (4.8h)
Di  282.17m (4.7h)
Mi  286.14m (4.8h) 3.5m über Durchschnitt
Do  281.51m (4.7h)
Fr  280.03m (4.7h)
Sa  279.27m (4.7h)
So  283.31m (4.7h)

Lippspringe, Bad

Mo  243.52m (4.1h)
Di  246.23m (4.1h) 5.0m über Durchschnitt
Mi  239.01m (4.0h)
Do  240.43m (4.0h)
Fr  239.61m (4.0h)
Sa  236.82m (3.9h)
So  243.13m (4.1h)

Berlin-Dahlem (FU)

Mo  285.68m (4.8h)
Di  282.68m (4.7h)
Mi  282.61m (4.7h)
Do  275.86m (4.6h)
Fr  277.26m (4.6h)
Sa  277.74m (4.6h)
So  286.94m (4.8h) 5.7m über Durchschnitt

Berlin-Dahlem (LFAG)

Mo  285.01m (4.8h)
Di  283.92m (4.7h)
Mi  282.07m (4.7h)
Do  277.47m (4.6h)
Fr  296.53m (4.9h) 11.1m über Durchschnitt
Sa  281.2m (4.7h)
So  291.57m (4.9h)

Bremen

Mo  250.27m (4.2h)
Di  252.19m (4.2h)
Mi  250.3m (4.2h)
Do  255.54m (4.3h)
Fr  247.27m (4.1h)
Sa  256.03m (4.3h) 3.7m über Durchschnitt
So  254.58m (4.2h)

Brocken

Mo  228.98m (3.8h)
Di  234.08m (3.9h) 5.2m über Durchschnitt
Mi  228.33m (3.8h)
Do  231.36m (3.9h)
Fr  227.21m (3.8h)
Sa  222.33m (3.7h)
So  230.16m (3.8h)

Cuxhaven

Mo  271.8m (4.5h)
Di  269.46m (4.5h)
Mi  270.43m (4.5h)
Do  273.21m (4.6h)
Fr  270.28m (4.5h)
Sa  277.81m (4.6h) 4.9m über Durchschnitt
So  277.43m (4.6h)

Erfurt-Bindersleben

Mo  268.41m (4.5h)
Di  271.68m (4.5h) 4.4m über Durchschnitt
Mi  269.88m (4.5h)
Do  266.2m (4.4h)
Fr  262.19m (4.4h)
Sa  262.2m (4.4h)
So  270.25m (4.5h)

Feldberg/Schwarzwald

Mo  270.52m (4.5h)
Di  271.01m (4.5h)
Mi  275.76m (4.6h) 5.6m über Durchschnitt
Do  271.52m (4.5h)
Fr  270.7m (4.5h)
Sa  262.34m (4.4h)
So  269.34m (4.5h)

Fichtelberg

Mo  249.98m (4.2h)
Di  252.06m (4.2h) 2.3m über Durchschnitt
Mi  251.44m (4.2h)
Do  251.21m (4.2h)
Fr  247.32m (4.1h)
Sa  244.8m (4.1h)
So  251.83m (4.2h)

Frankfurt/Main

Mo  271.3m (4.5h)
Di  274.07m (4.6h)
Mi  265.27m (4.4h)
Do  266.74m (4.4h)
Fr  266.67m (4.4h)
Sa  260.54m (4.3h)
So  274.33m (4.6h) 5.9m über Durchschnitt

Freudenstadt

Mo  279.03m (4.7h)
Di  280.58m (4.7h)
Mi  280.95m (4.7h)
Do  282.47m (4.7h) 4.0m über Durchschnitt
Fr  278.51m (4.6h)
Sa  269.96m (4.5h)
So  277.52m (4.6h)

Gießen

Mo  261.43m (4.4h)
Di  262.74m (4.4h)
Mi  255.48m (4.3h)
Do  255.16m (4.3h)
Fr  254.14m (4.2h)
Sa  251.5m (4.2h)
So  263.81m (4.4h) 6.1m über Durchschnitt

Görlitz

Mo  286.05m (4.8h)
Di  283.31m (4.7h)
Mi  287.12m (4.8h)
Do  291.13m (4.9h) 5.2m über Durchschnitt
Fr  284.18m (4.7h)
Sa  280.6m (4.7h)
So  289.19m (4.8h)

Greifswald

Mo  285.35m (4.8h) 3.7m über Durchschnitt
Di  279.01m (4.7h)
Mi  284.35m (4.7h)
Do  276.66m (4.6h)
Fr  277.9m (4.6h)
Sa  284.73m (4.7h)
So  283.62m (4.7h)

Hamburg-Fuhlsbüttel

Mo  262.33m (4.4h)
Di  259.47m (4.3h)
Mi  259.61m (4.3h)
Do  260.7m (4.3h)
Fr  257.3m (4.3h)
Sa  265.14m (4.4h) 3.9m über Durchschnitt
So  264.27m (4.4h)

Hannover

Mo  254.8m (4.2h)
Di  258.29m (4.3h) 4.2m über Durchschnitt
Mi  252.52m (4.2h)
Do  254.23m (4.2h)
Fr  248.9m (4.1h)
Sa  253.09m (4.2h)
So  256.53m (4.3h)

Hof

Mo  261.93m (4.4h) 3.2m über Durchschnitt
Di  260.31m (4.3h)
Mi  259.32m (4.3h)
Do  260.22m (4.3h)
Fr  254.6m (4.2h)
Sa  254.36m (4.2h)
So  260.39m (4.3h)

Hohenpeißenberg

Mo  300.68m (5.0h)
Di  297.68m (5.0h)
Mi  303.37m (5.1h) 4.5m über Durchschnitt
Do  298.46m (5.0h)
Fr  298.39m (5.0h)
Sa  295.21m (4.9h)
So  298.09m (5.0h)

Karlsruhe

Mo  289.45m (4.8h)
Di  291.92m (4.9h)
Mi  287.12m (4.8h)
Do  287.42m (4.8h)
Fr  284.09m (4.7h)
Sa  279.97m (4.7h)
So  291.92m (4.9h) 4.5m über Durchschnitt

Kassel (West)

Mo  246.83m (4.1h)
Di  249.64m (4.2h) 4.9m über Durchschnitt
Mi  243.1m (4.1h)
Do  242.91m (4.0h)
Fr  241.44m (4.0h)
Sa  241.5m (4.0h)
So  247.73m (4.1h)

Lindenberg

Mo  283.94m (4.7h)
Di  283.39m (4.7h)
Mi  284.78m (4.7h)
Do  279.95m (4.7h)
Fr  277.04m (4.6h)
Sa  278.94m (4.6h)
So  288.09m (4.8h) 5.8m über Durchschnitt

List auf Sylt

Mo  284.77m (4.7h)
Di  281.97m (4.7h)
Mi  278.56m (4.6h)
Do  286.65m (4.8h)
Fr  282.18m (4.7h)
Sa  284.91m (4.7h)
So  288.06m (4.8h) 4.2m über Durchschnitt

Magdeburg

Mo  271.17m (4.5h)
Di  274.91m (4.6h)
Mi  272.87m (4.5h)
Do  269.82m (4.5h)
Fr  267.81m (4.5h)
Sa  268.59m (4.5h)
So  275.06m (4.6h) 3.6m über Durchschnitt

Mannhein

Mo  283.53m (4.7h)
Di  283.8m (4.7h)
Mi  278.16m (4.6h)
Do  279.19m (4.7h)
Fr  277.66m (4.6h)
Sa  274.84m (4.6h)
So  285.63m (4.8h) 5.2m über Durchschnitt

Norderney

Mo  273.84m (4.6h)
Di  272.46m (4.5h)
Mi  270.42m (4.5h)
Do  275.44m (4.6h)
Fr  272.22m (4.5h)
Sa  275.78m (4.6h)
So  276.51m (4.6h) 2.7m über Durchschnitt

Oberstdorf

Mo  265.91m (4.4h)
Di  261.69m (4.4h)
Mi  267.41m (4.5h) 4.6m über Durchschnitt
Do  259.23m (4.3h)
Fr  262.7m (4.4h)
Sa  260.09m (4.3h)
So  262.82m (4.4h)

Öhringen

Mo  285.16m (4.8h)
Di  288.35m (4.8h)
Mi  287.34m (4.8h)
Do  285.93m (4.8h)
Fr  285.66m (4.8h)
Sa  278.06m (4.6h)
So  288.41m (4.8h) 2.9m über Durchschnitt

Potsdam

Mo  285.31m (4.8h)
Di  287.09m (4.8h) 4.6m über Durchschnitt
Mi  285.97m (4.8h)
Do  279.88m (4.7h)
Fr  277.92m (4.6h)
Sa  278.0m (4.6h)
So  283.14m (4.7h)

Regensburg

Mo  276.28m (4.6h) 4.3m über Durchschnitt
Di  271.26m (4.5h)
Mi  273.48m (4.6h)
Do  272.47m (4.5h)
Fr  269.53m (4.5h)
Sa  269.85m (4.5h)
So  271.32m (4.5h)

Rheinstetten-Forchheim

Mo  270.68m (4.5h)
Di  273.76m (4.6h)
Mi  273.81m (4.6h) 5.4m über Durchschnitt
Do  265.53m (4.4h)
Fr  269.06m (4.5h)
Sa  260.2m (4.3h)
So  266.15m (4.4h)

Rostock-Warnemünde

Mo  290.08m (4.8h) 4.4m über Durchschnitt
Di  281.55m (4.7h)
Mi  285.58m (4.8h)
Do  283.44m (4.7h)
Fr  284.6m (4.7h)
Sa  287.4m (4.8h)
So  287.11m (4.8h)

Schleswig

Mo  265.26m (4.4h)
Di  265.52m (4.4h)
Mi  260.58m (4.3h)
Do  268.0m (4.5h)
Fr  264.57m (4.4h)
Sa  272.46m (4.5h) 6.0m über Durchschnitt
So  269.09m (4.5h)

Schwerin

Mo  272.5m (4.5h) 2.6m über Durchschnitt
Di  267.81m (4.5h)
Mi  271.14m (4.5h)
Do  270.6m (4.5h)
Fr  266.63m (4.4h)
Sa  270.4m (4.5h)
So  270.25m (4.5h)

Stötten

Mo  278.85m (4.6h) 2.6m über Durchschnitt
Di  275.94m (4.6h)
Mi  278.33m (4.6h)
Do  277.07m (4.6h)
Fr  274.52m (4.6h)
Sa  270.46m (4.5h)
So  278.35m (4.6h)

Straubing

Mo  287.32m (4.8h)
Di  280.01m (4.7h)
Mi  286.27m (4.8h)
Do  283.22m (4.7h)
Fr  279.48m (4.7h)
Sa  283.28m (4.7h)
So  288.66m (4.8h) 4.6m über Durchschnitt

Trier-Petrisberg

Mo  259.95m (4.3h)
Di  261.22m (4.4h)
Mi  258.13m (4.3h)
Do  255.22m (4.3h)
Fr  250.67m (4.2h)
Sa  250.85m (4.2h)
So  262.19m (4.4h) 5.3m über Durchschnitt

Wasserkuppe

Mo  260.22m (4.3h)
Di  261.06m (4.4h) 4.0m über Durchschnitt
Mi  254.42m (4.2h)
Do  259.68m (4.3h)
Fr  253.44m (4.2h)
Sa  251.75m (4.2h)
So  258.95m (4.3h)

Weiden

Mo  266.76m (4.4h)
Di  264.91m (4.4h)
Mi  264.09m (4.4h)
Do  264.69m (4.4h)
Fr  260.23m (4.3h)
Sa  259.77m (4.3h)
So  267.65m (4.5h) 3.6m über Durchschnitt

Wendelstein (Wendelsteinhaus)

Mo  282.83m (4.7h) 2.3m über Durchschnitt
Di  280.32m (4.7h)
Mi  281.94m (4.7h)
Do  279.73m (4.7h)
Fr  276.48m (4.6h)
Sa  280.73m (4.7h)
So  281.53m (4.7h)

Würzburg

Mo  273.5m (4.6h)
Di  274.24m (4.6h)
Mi  267.37m (4.5h)
Do  266.14m (4.4h)
Fr  266.69m (4.4h)
Sa  263.74m (4.4h)
So  274.5m (4.6h) 5.0m über Durchschnitt

Zugspitze

Mo  306.38m (5.1h)
Di  302.3m (5.0h)
Mi  308.26m (5.1h) 3.6m über Durchschnitt
Do  306.89m (5.1h)
Fr  302.78m (5.0h)
Sa  301.31m (5.0h)
So  304.47m (5.1h)

Sonntag, 4. März 2018

Gute Alte Zeit

Die Zeitung "Die Zeit" hat ein gar lustiges Webinterface: xml.zeit.de. Dort bekommt man auch das gesamte Archiv, also alle Ausgaben seit 1946, schön Maschinenlesbar verpackt. (Python-Skript)

Hier eine Übersicht über die Anzahl der Artikel pro Jahr:

Im Jahr 2007 gibts irgendwie technische oder rechtliche Probleme - es werden kaum Artikel im Archiv angezeigt..

Im Folgenden werden wieder einmal die signifikanten Worte pro Jahr betrachtet. Diesmal ist das ganze etwas interaktiver, und ihr könnt den Wort-Typ und den Signifikanz-Faktor wählen.

Substantive, Adjektive und Verben sind die von Wiktionary identifizierten Worte. Der Worttyp Alle bedeutet: alle Buchstabenzusammensetzungen mit mind, 2 Buchstaben, ohne Ziffern, und, wenn bekannt, auf die ungebeugte Grundform zurückgeführt.

Der Faktor ist, wie in anderen Artikeln bereits beschrieben der Faktor in der Formel:

    year_word_freq - Faktor * basis_word_freq

Also, für jedes Jahr wird eine Hitliste erstellt, nach dem Ergebnis dieser Formel sortiert und nur die ersten 30 Einträge behalten, und nur die, die mehr als zwei mal häufiger als in der Gesammtheit vorkommen. Die Worthäufigkeit (word_freq) ist die Anzahl des Wortes pro Artikel.

Die resultierende Hitliste seht ihr unten für jedes Jahr, sortiert danach, wie viel mal häufiger das Wort gegenüber der Gesammtheit vorkommt. Der Farbbalken zeigt jeweils die Frequenz des Wortes in dem Jahr. Ein voller Balken bedeutet, dass es sich um das häufigste Wort handelt - in der Menge aller signifikanter Worte. Mit der Maus über ein Wort hovern zeigt die genaue Wort-Frequenz in dem Jahr im Vergleich mit der Basis-Frequenz. z.B. das Adjektiv sittlich im Jahre 1946 hat den Tooltip 6.82x häufiger (1 in 26) als (1 in 180). Das bedeutet, dass das Worte in dem Jahr durschnittlich in jedem 22. Artikel vorkommt und in der Gesammtheit nur in jedem 283. Artikel.

Der Link an dem Pfeil (↗) führt zur Suche auf zeit.de. Leider lässt sich die Suche nicht zeitlich einschränken und ist auch ziemlich fuzzy. Die geben euch praktisch immer irgendwelche aktuellen Artikel zu lesen, auch wenn der Suchbegriff nicht wirklich drin vorkommt. Ihr könnt hier klicken, um einen etwa 10Mb großen Index nachzuladen, dann sind die Top-5 Worte klickbar und eine Liste der Artikel mit Verlinkung erscheint. Wenn ihr einen "melden Sie sich kostenfrei an"-Banner bekommt, und der Aufforderung nicht nachgehen wollt, ersetzt einfach das www in www.zeit.de durch xml - ist nicht hübsch aber funktioniert.

Ein größerer Faktor hebt eher seltene Worte hervor. Faktor 2 bietet eigentlich immer eine ganz Gute Übersicht. Faktor 16 zeigt, wie ihr sehen könnt, Worte die in einem bestimmten Jahr viel häufiger als durchschnittlich Verwendung finden, allerdings insgesammt auch in dem Jahr eher selten auftreten.


Artikel-index laden

1946

1268 Artikel

1947

1635 Artikel

1948

1783 Artikel

1949

2358 Artikel

1950

2527 Artikel

1951

2552 Artikel

1952

2546 Artikel

1953

2572 Artikel

1954

2567 Artikel

1955

2597 Artikel

1956

2600 Artikel

1957

2600 Artikel

1958

2557 Artikel

1959

2601 Artikel

1960

2614 Artikel

1961

2582 Artikel

1962

2619 Artikel

1963

2616 Artikel

1964

2633 Artikel

1965

2632 Artikel

1966

2588 Artikel

1967

2635 Artikel

1968

2637 Artikel

1969

2627 Artikel

1970

2565 Artikel

1971

2243 Artikel

1972

2626 Artikel

1973

2566 Artikel

1974

2562 Artikel

1975

2566 Artikel

1976

2562 Artikel

1977

2512 Artikel

1978

2519 Artikel

1979

2567 Artikel

1980

2565 Artikel

1981

2569 Artikel

1982

2604 Artikel

1983

2609 Artikel

1984

2600 Artikel

1985

2649 Artikel

1986

2607 Artikel

1987

2560 Artikel

1988

2612 Artikel

1989

2637 Artikel

1990

2639 Artikel

1991

2648 Artikel

1992

2559 Artikel

1993

2619 Artikel

1994

2835 Artikel

1995

3879 Artikel

1996

3465 Artikel

1997

3398 Artikel

1998

2643 Artikel

1999

3581 Artikel

2000

4529 Artikel

2001

4086 Artikel

2002

1761 Artikel

2003

4052 Artikel

2004

4948 Artikel

2005

4965 Artikel

2006

1735 Artikel

2007

230 Artikel

2008

2781 Artikel

2009

3672 Artikel

2010

3122 Artikel

2011

3317 Artikel

2012

3702 Artikel

2013

3988 Artikel

2014

4588 Artikel

2015

4254 Artikel

2016

4275 Artikel

2017

4178 Artikel

2018

1063 Artikel



Freitag, 23. Februar 2018

Die Groko-Tweet-Verteilung

Überblick über den twitter-live-stream mit dem query:

CDU,CSU,SPD,AfD,#FDP,NPD,#Linke,#Rechte,Merkel,Schulz,#Gabriel,#GroKo,
#NoGroKo,Asyl,Meinungsfreiheit,Deutschland,Angst,Liebe,subgenius

Hier sind mehr Infos über diesen Datensatz. Der stream läuft nun schon ne Weile länger und es lohnt sich ein erster Blick auf die Zahlen.

Nachfolgend seht ihr für verschiedene "Kategorien" die Anzahl der tweets pro Tag und die Anzahl der User. Die erste Kategorie "all" zeigt alle tweets die über den oben genannten query reinkommen (lang:de, truncated:false). Die anderen Graphen zeigen die Teilmengen an tweets die jeweils "groko", "nogroko" usw. enthalten. Man beachte: ein tweet mit "nogroko" enthält natürlich auch "groko".

Mit der Maus über die Balken hovern zeigt das Datum und die genauen Zahlen. Mit Klicken seht ihr dann die TOP-tweeter zu dem Thema pro Tag. Die Balken selbst sind ein bisschen logarithmisch getuned, da sie jeweils den Anteil an der Gesammtmenge widerspiegeln.

Die Beule um den 4. Februar führe ich mal auf schlechtes Internet zurück. Der twitter scraper lief ne Weile unbeobachtet. Irgendwann war er ganz aus und ich hab den Router neu gestartet. Am 7. Februar gibts einen peak. Da kam z.b. ein Artikel in der Zeit über die feststehende Postenverteilung als Resultat der Koalitionsverhandlungen ;).

all


afd


angst


cdu


fdp


groko


liebe


linke


merkel


nogroko


schulz


spd