Die Zeitung "Die Zeit" hat ein gar lustiges Webinterface: xml.zeit.de. Dort bekommt man auch das gesamte Archiv, also alle Ausgaben seit 1946, schön Maschinenlesbar verpackt. (Python-Skript)
Hier eine Übersicht über die Anzahl der Artikel pro Jahr:
Im Jahr 2007 gibts irgendwie technische oder rechtliche Probleme - es werden kaum Artikel im Archiv angezeigt..
Im Folgenden werden wieder einmal die signifikanten Worte pro Jahr betrachtet. Diesmal ist das ganze etwas interaktiver, und ihr könnt den Wort-Typ und den Signifikanz-Faktor wählen.
Substantive, Adjektive und Verben sind die von Wiktionary identifizierten Worte. Der Worttyp Alle bedeutet: alle Buchstabenzusammensetzungen mit mind, 2 Buchstaben, ohne Ziffern, und, wenn bekannt, auf die ungebeugte Grundform zurückgeführt.
Der Faktor ist, wie in anderen Artikeln bereits beschrieben der Faktor in der Formel:
year_word_freq - Faktor * basis_word_freq
Also, für jedes Jahr wird eine Hitliste erstellt, nach dem Ergebnis dieser Formel sortiert und nur die ersten 30 Einträge behalten, und nur die, die mehr als zwei mal häufiger als in der Gesammtheit vorkommen. Die Worthäufigkeit (word_freq) ist die Anzahl des Wortes pro Artikel.
Die resultierende Hitliste seht ihr unten für jedes Jahr, sortiert danach, wie viel mal häufiger das Wort gegenüber der Gesammtheit vorkommt. Der Farbbalken zeigt jeweils die Frequenz des Wortes in dem Jahr. Ein voller Balken bedeutet, dass es sich um das häufigste Wort handelt - in der Menge aller signifikanter Worte. Mit der Maus über ein Wort hovern zeigt die genaue Wort-Frequenz in dem Jahr im Vergleich mit der Basis-Frequenz. z.B. das Adjektiv sittlich im Jahre 1946 hat den Tooltip 6.82x häufiger (1 in 26) als (1 in 180). Das bedeutet, dass das Worte in dem Jahr durschnittlich in jedem 22. Artikel vorkommt und in der Gesammtheit nur in jedem 283. Artikel.
Der Link an dem Pfeil (↗) führt zur Suche auf zeit.de. Leider lässt sich die Suche nicht zeitlich einschränken und ist auch ziemlich fuzzy. Die geben euch praktisch immer irgendwelche aktuellen Artikel zu lesen, auch wenn der Suchbegriff nicht wirklich drin vorkommt. Ihr könnt hier klicken, um einen etwa 10Mb großen Index nachzuladen, dann sind die Top-5 Worte klickbar und eine Liste der Artikel mit Verlinkung erscheint. Wenn ihr einen "melden Sie sich kostenfrei an"-Banner bekommt, und der Aufforderung nicht nachgehen wollt, ersetzt einfach das www in www.zeit.de durch xml - ist nicht hübsch aber funktioniert.
Ein größerer Faktor hebt eher seltene Worte hervor. Faktor 2 bietet eigentlich immer eine ganz Gute Übersicht. Faktor 16 zeigt, wie ihr sehen könnt, Worte die in einem bestimmten Jahr viel häufiger als durchschnittlich Verwendung finden, allerdings insgesammt auch in dem Jahr eher selten auftreten.
Artikel-index laden
1946
1268 Artikel
1947
1635 Artikel
1948
1783 Artikel
1949
2358 Artikel
1950
2527 Artikel
1951
2552 Artikel
1952
2546 Artikel
1953
2572 Artikel
1954
2567 Artikel
1955
2597 Artikel
1956
2600 Artikel
1957
2600 Artikel
1958
2557 Artikel
1959
2601 Artikel
1960
2614 Artikel
1961
2582 Artikel
1962
2619 Artikel
1963
2616 Artikel
1964
2633 Artikel
1965
2632 Artikel
1966
2588 Artikel
1967
2635 Artikel
1968
2637 Artikel
1969
2627 Artikel
1970
2565 Artikel
1971
2243 Artikel
1972
2626 Artikel
1973
2566 Artikel
1974
2562 Artikel
1975
2566 Artikel
1976
2562 Artikel
1977
2512 Artikel
1978
2519 Artikel
1979
2567 Artikel
1980
2565 Artikel
1981
2569 Artikel
1982
2604 Artikel
1983
2609 Artikel
1984
2600 Artikel
1985
2649 Artikel
1986
2607 Artikel
1987
2560 Artikel
1988
2612 Artikel
1989
2637 Artikel
1990
2639 Artikel
1991
2648 Artikel
1992
2559 Artikel
1993
2619 Artikel
1994
2835 Artikel
1995
3879 Artikel
1996
3465 Artikel
1997
3398 Artikel
1998
2643 Artikel
1999
3581 Artikel
2000
4529 Artikel
2001
4086 Artikel
2002
1761 Artikel
2003
4052 Artikel
2004
4948 Artikel
2005
4965 Artikel
2006
1735 Artikel
2007
230 Artikel
2008
2781 Artikel
2009
3672 Artikel
2010
3122 Artikel
2011
3317 Artikel
2012
3702 Artikel
2013
3988 Artikel
2014
4588 Artikel
2015
4254 Artikel
2016
4275 Artikel
2017
4178 Artikel
2018
1063 Artikel
Keine Kommentare:
Kommentar veröffentlichen