Sonntag, 4. März 2018

Gute Alte Zeit

Die Zeitung "Die Zeit" hat ein gar lustiges Webinterface: xml.zeit.de. Dort bekommt man auch das gesamte Archiv, also alle Ausgaben seit 1946, schön Maschinenlesbar verpackt. (Python-Skript)

Hier eine Übersicht über die Anzahl der Artikel pro Jahr:

Im Jahr 2007 gibts irgendwie technische oder rechtliche Probleme - es werden kaum Artikel im Archiv angezeigt..

Im Folgenden werden wieder einmal die signifikanten Worte pro Jahr betrachtet. Diesmal ist das ganze etwas interaktiver, und ihr könnt den Wort-Typ und den Signifikanz-Faktor wählen.

Substantive, Adjektive und Verben sind die von Wiktionary identifizierten Worte. Der Worttyp Alle bedeutet: alle Buchstabenzusammensetzungen mit mind, 2 Buchstaben, ohne Ziffern, und, wenn bekannt, auf die ungebeugte Grundform zurückgeführt.

Der Faktor ist, wie in anderen Artikeln bereits beschrieben der Faktor in der Formel:

    year_word_freq - Faktor * basis_word_freq

Also, für jedes Jahr wird eine Hitliste erstellt, nach dem Ergebnis dieser Formel sortiert und nur die ersten 30 Einträge behalten, und nur die, die mehr als zwei mal häufiger als in der Gesammtheit vorkommen. Die Worthäufigkeit (word_freq) ist die Anzahl des Wortes pro Artikel.

Die resultierende Hitliste seht ihr unten für jedes Jahr, sortiert danach, wie viel mal häufiger das Wort gegenüber der Gesammtheit vorkommt. Der Farbbalken zeigt jeweils die Frequenz des Wortes in dem Jahr. Ein voller Balken bedeutet, dass es sich um das häufigste Wort handelt - in der Menge aller signifikanter Worte. Mit der Maus über ein Wort hovern zeigt die genaue Wort-Frequenz in dem Jahr im Vergleich mit der Basis-Frequenz. z.B. das Adjektiv sittlich im Jahre 1946 hat den Tooltip 6.82x häufiger (1 in 26) als (1 in 180). Das bedeutet, dass das Worte in dem Jahr durschnittlich in jedem 22. Artikel vorkommt und in der Gesammtheit nur in jedem 283. Artikel.

Der Link an dem Pfeil (↗) führt zur Suche auf zeit.de. Leider lässt sich die Suche nicht zeitlich einschränken und ist auch ziemlich fuzzy. Die geben euch praktisch immer irgendwelche aktuellen Artikel zu lesen, auch wenn der Suchbegriff nicht wirklich drin vorkommt. Ihr könnt hier klicken, um einen etwa 10Mb großen Index nachzuladen, dann sind die Top-5 Worte klickbar und eine Liste der Artikel mit Verlinkung erscheint. Wenn ihr einen "melden Sie sich kostenfrei an"-Banner bekommt, und der Aufforderung nicht nachgehen wollt, ersetzt einfach das www in www.zeit.de durch xml - ist nicht hübsch aber funktioniert.

Ein größerer Faktor hebt eher seltene Worte hervor. Faktor 2 bietet eigentlich immer eine ganz Gute Übersicht. Faktor 16 zeigt, wie ihr sehen könnt, Worte die in einem bestimmten Jahr viel häufiger als durchschnittlich Verwendung finden, allerdings insgesammt auch in dem Jahr eher selten auftreten.


Artikel-index laden

1946

1268 Artikel

1947

1635 Artikel

1948

1783 Artikel

1949

2358 Artikel

1950

2527 Artikel

1951

2552 Artikel

1952

2546 Artikel

1953

2572 Artikel

1954

2567 Artikel

1955

2597 Artikel

1956

2600 Artikel

1957

2600 Artikel

1958

2557 Artikel

1959

2601 Artikel

1960

2614 Artikel

1961

2582 Artikel

1962

2619 Artikel

1963

2616 Artikel

1964

2633 Artikel

1965

2632 Artikel

1966

2588 Artikel

1967

2635 Artikel

1968

2637 Artikel

1969

2627 Artikel

1970

2565 Artikel

1971

2243 Artikel

1972

2626 Artikel

1973

2566 Artikel

1974

2562 Artikel

1975

2566 Artikel

1976

2562 Artikel

1977

2512 Artikel

1978

2519 Artikel

1979

2567 Artikel

1980

2565 Artikel

1981

2569 Artikel

1982

2604 Artikel

1983

2609 Artikel

1984

2600 Artikel

1985

2649 Artikel

1986

2607 Artikel

1987

2560 Artikel

1988

2612 Artikel

1989

2637 Artikel

1990

2639 Artikel

1991

2648 Artikel

1992

2559 Artikel

1993

2619 Artikel

1994

2835 Artikel

1995

3879 Artikel

1996

3465 Artikel

1997

3398 Artikel

1998

2643 Artikel

1999

3581 Artikel

2000

4529 Artikel

2001

4086 Artikel

2002

1761 Artikel

2003

4052 Artikel

2004

4948 Artikel

2005

4965 Artikel

2006

1735 Artikel

2007

230 Artikel

2008

2781 Artikel

2009

3672 Artikel

2010

3122 Artikel

2011

3317 Artikel

2012

3702 Artikel

2013

3988 Artikel

2014

4588 Artikel

2015

4254 Artikel

2016

4275 Artikel

2017

4178 Artikel

2018

1063 Artikel



Keine Kommentare:

Kommentar veröffentlichen