Freitag, 2. Februar 2018

Quantitative Twitter Analyse

Einfach mal irgendwas mit Twitter machen, dacht ich so. Also mal irgendwie erstmal was runterladen.

Verwendete Tools: twitter-API, python, twython und pymongo

Seit dem 12.01.2018 lauscht das Skript im live-stream nach folgendem, wahnsinnig kreativen Suchquery

CDU,CSU,SPD,AfD,#FDP,NPD,#Linke,#Rechte,Merkel,Schulz,#Gabriel,#GroKo,
#NoGroKo,Asyl,Meinungsfreiheit,Deutschland,Angst,Liebe,subgenius

und alles in die MongoDB rein. Da kommen im Moment so gefühlt 1 bis 5 tweets pro Sekunde.

Während der livestream reinkam, begann ich die timelines der jeweiligen User runterzuladen, welche in dem live-stream auftauchen. Mit einem API-Zugang kann man etwa 200 Tweets pro Sekunde runterladen und von jedem Twitteruser bekommt man maximal die letzten 3200 Tweets. (rate limits)

Das Speichern läuft so: Alles was twitter ausliefert, kommt fast unverändert in die Datenbank. Die Felder user und retweeted_status und quoted_status schickt twitter immer als vollwertige entities. Der user wird in eine eigene Tabelle geschrieben und das user-feld in dem tweet mit der user-id ersetzt. Genauso bei retweeted- und quoted-status. Sie werden separat gespeichert und die Felder auch jeweils mit der ID ersetzt. Da retweets keine Änderung am original-Text vornehmen, werden alle infos ausser dem user, der tweet-Zeit und der Referenz zum original-tweet verworfen. Um Platz zu sparen könnte man generell auch die anderen entities wie z.b. place in separaten Tabellen ablegen.

Bei 80Gb in der Datenbank hab ich den download erstmal gestoppt. Dabei sind die timelines von nicht mal 10% der User aus dem livestream gespeichert. Es gab auch hin und wieder einen timeout oder die Verbindung zur Twitter-API ist sonst irgendwie hängen geblieben. Dann wurde der download neu gestartet, z.T. die Reihenfolge der Abarbeitung geändert und nur User, die weniger als ein paar hundert Tweets in der DB haben, angefragt. Natürlich waren bei jedem Neustart neue User dabei, die in den timelines aufgetaucht sind.

Wir haben hier also ein sample von knapp 50 Mio Tweets und Retweets, die irgendwie zumindest politisch angefangen haben und eine gewisse Schnittmenge zu allem anderen aufspannen. Für die folgende grobe Analyse wurden die tweets gefiltert nach solchen, die keine retweets sind, von Twitter die Sprache Deutsch drangetaggt bekommen haben und die nicht truncated sind. In pymongo:

.find({"retweeted_status": None, "truncated": False, "lang": "de"})

Truncated, bedeutet, dass der Tweet nach 140 Zeichen abgeschnitten wurde. Das ist bei den meisten nicht der Fall. Man darf allerdings nicht vergessen, tweet_mode="extended" an den API-request zu hängen sonst bekommt man die Zeichen über 140 nicht.

Nach dem Filtern bleiben knapp 20 Mio tweets übrig. Hier die Verteilung in der Zeit (gezeigt ab ende Nov. 2017, Datum im tooltip)

Man beachte den peak am 12.01. An dem Tag hab ich zum ersten mal den live-stream gestartet und auch mal mit queries wie trump experimentiert. Da kam natürlich deutlich mehr rein. Durch die user-timelines kommen dann die ganzen tweets aus der Zeit vor dem 12.01. Am 28.01. war die Festplatte voll... bisschen Platz gemacht und livestream wieder gestartet.

Als erstes hab ich mal die Signifikante-Worte-zähl-Methode von fefe analysieren ausprobiert. Da der sample-Zeitraum relativ klein ist, lohnt sich kaum der Wochentags-Vergleich, deshalb gibts zusätzlich auch den Vergleich pro Stunde. Für einen kurzen Überblick über temporale Ebenen kann man sich diese kurze Video mal reinziehen: "Space-Time as a Sampling Condition for New Social Media Research" Der Mensch ist ganz aufgeregt ob der neuen wissenschaftlichen Herausforderungen.

Alle gefundenen Worte oder tokens wurden berücksichtigt. Die Symbole ,:.…!?-"()& wurden allerdings von Wortanfängen und -enden entfernt. Die Worte wurden mit wiktionary normalisiert und #hashtags und @usertags immer in Kleinbuchstaben umgewandelt. Dadurch kommen auch links und jede Menge Zeichenketten in die Wertung. Eine Version nur mit Substantiven gibts hier.

Signifikant bedeutet hier, dass sich die Häufigkeit eines Wortes pro Tweet mit einem bestimmten Indikator von der Durchschnittshäufigkeit des Wortes pro Tweet abhebt. Der Indikator ist z.B. der Wochentag oder die Stunde in der getweetet wurde.

Normalisiert wird hier also nach Häufigkeit eines Wortes pro Tweet. Im Folgenden seht ihr pro Kategorie ( Wochentag, Uhrzeit, Ort, #Partei) einmal die Anzahl der tweets für jeden Indikator, also z.B. die Anzahl und der Prozentsatz der tweets am Montag im Vergleich zur gesammten Menge der betrachteten tweets.

Die nächste Tabelle zeigt dann die "signifikantesten" Worte pro Kategorie. Diese wurden folgendermaßen ermittelt (am Beispiel für Wochentage):

    signifikanz_der_worte_am_montag =
        freq_wort_pro_tweet_am_montag - 3 * freq_wort_pro_tweet_gesammt

Die Liste der Worte mit der errechneten Signifikanz wurde sortiert und die ersten 20 oder 30 davon übrig gelassen. Danach wurde die Liste nochmal sortiert nach dem Faktor der signifikanten Häufigkeit, also z.b. wie viel mal Häufiger ein Wort am Montag im Vergleich zum Durchschnitt ist. An jeder Zeile ist ein tooltip mit den genauen Zahlen. Der Balken zeigt die Häufigkeit des Wortes im Vergleich zur Häufigkeit der anderen Worte.

Der Faktor 3 in obiger Formel ist halt irgendwie magic und sehr subjektiv. Ist er zu klein, werden viele Worte mit wenig Unterschied zum Gesammtdurchschnitt gefunden, ist er zu groß bleiben nur ganz selten verwendete Worte (oder besser Zeichenketten) übrig, die total signifikant für den jeweiligen Indikator sind aber eben kaum verwendet werden.


Wochentage

Substantive pro Wochentag

gescannte tweets: 19870680

Montag: 2897376 tweets (14.58%)
Dienstag: 2966035 tweets (14.93%)
Mittwoch: 3031749 tweets (15.26%)
Donnerstag: 3020670 tweets (15.2%)
Freitag: 2973231 tweets (14.96%)
Samstag: 2427928 tweets (12.22%)
Sonntag: 2553691 tweets (12.85%)

Montag

#mondaymotivation
#geralg
#engisl
#traumfraugesucht
#montagslaecheln
#rn8
#5kampf
#fünfkampf
#nomagida
#orfsg17
#bsf
#fuenfkampf
#hartaberfair
Wochenstart
#cdrb
#ueberzeugtuns
#terrorihrurteil
#montag
Montagmorgen
#goodbyedeutschland
#4genderstudies
#wwm
#procontra
#nobärgida
#bauersuchtfrau
#oscars
#jamaikaabbruch
#halligalli
@hartaberfair
#wahlarena

Dienstag

#rpk
#vai
#m60ssv
#rosinsrestaurants
#dhdl
#srfclub
#bvbrma
Schweinepreise
#bones
indizde
#wirreden
#tauberfilme
#scfbmg
#hartzundherzlich
#coachscorner
#gerned
#npdverbot
#bistdudeppert
#brager
#edchatde
#wiegehtsdeutschland
#unwort
#rmafcb
#oktoberrevolution
#frontal21
#reformationstag
#tagderdeutscheneinheit
#cdupt16
#dieanstalt
#manchester

Mittwoch

#va
#electionnight
#rmabvb
#bvvp
#relichat
#bohnjour
#thetaste
#aktenzeichenxy
#bachelorette
#pam17
#sommerhaus
#nockherberg
#sterntv
#cdusätzenachmerkel
#bachelor
#dunjahayali
#aschermittwoch
#rblfcb
#ratms
#psgfcb
Bergfest
#burglind
#uswahl16
#srle
#maischberger
@br_kontrovers
#uswahl2016
#bvvnk
#280zeichen
#fcbbvb

Donnerstag

https://t.co/LeJGxvg4RO
Wohlfühlmassage
#ulfs
#unsersong
#lenssen
#br_quer
#throwbackthursday
#gtfoomh
#bambi2017
#gntmfinale
#schlussrunde
#frauentausch
#illner
#maybritillner
#wobebs
#tbt
#gntm
#bambi
#9november
#le2109
#friederike
#gerpol
#w2h
#friedel54
#spdbpt17
#agh
@maybritillner
#staddrat
#gerfra
#welcometohell

Freitag

3.L
#dhh
#tgif
#wmauslosung
FOCUS-Titel
#followfriday
#nicknight_tweetbeat
#sondierenundsex
#schlefaz
#letsdance
#inauguration
#fcbb04
18/19
#jugendwort
#srfarena
#ff
#aspekte
#spitzestifte
@drfriesenmdb
@zdfaspekte
#heuteshow
#frager
#b04fcb
#freitag
#wochenende
Friday
#nowkr
#oez
#linksunten
#gronkhtv

Samstag

#sdh
#uclfinal
#sdr
#schlagdenstar
#sgebvb
#supertalent
#bvbsvw
#h0212
#sds
#dudw
#esc2017
#koeln2204
#esc2015
#bvbs04
#b1908
#24hpolizei
#eurovision
#bvbfcb
#linkelpt
#b1706
#gerita
#esc2016
#esc
#wettendass
#afdbpt
#dsds
#bdk17
#linkebpt
#skybuli
Landesparteitag

Sonntag

#porfra
#dopa
#schwiegertochtergesucht
#presseclub
#polizeiruf
#sg
#spdbpt18
#berlinerrunde
#imzentrum
#berlindirekt
#meinewahl
#gerukr
#jauch
#tatort
Hochrechnung
#annewill
#gerarg
#tvduell
#spiegeltv
#sonntag
@berlindirekt
@tatort
Wahllokal
Advent
#rannfl
@annewilltalk
#rannflsuechtig
#spdbpt
@icke41
Rutsch

Uhrzeit

Substantive pro Uhrzeit

Signifikante tweet-Worte pro Stunde am Tag. Die Uhrzeit ist jeweils abgerundet auf die volle Stunde.

gescannte tweets: 19870680

0:00: 189940 tweets (0.96%)
1:00: 112021 tweets (0.56%)
2:00: 87357 tweets (0.44%)
3:00: 98302 tweets (0.49%)
4:00: 189339 tweets (0.95%)
5:00: 401131 tweets (2.02%)
6:00: 691038 tweets (3.48%)
7:00: 951108 tweets (4.79%)
8:00: 1150030 tweets (5.79%)
9:00: 1239561 tweets (6.24%)
10:00: 1252925 tweets (6.31%)
11:00: 1219825 tweets (6.14%)
12:00: 1205534 tweets (6.07%)
13:00: 1183855 tweets (5.96%)
14:00: 1176061 tweets (5.92%)
15:00: 1185130 tweets (5.96%)
16:00: 1171843 tweets (5.9%)
17:00: 1144599 tweets (5.76%)
18:00: 1155356 tweets (5.81%)
19:00: 1135298 tweets (5.71%)
20:00: 1064727 tweets (5.36%)
21:00: 877715 tweets (4.42%)
22:00: 614198 tweets (3.09%)
23:00: 373787 tweets (1.88%)

0:00

heute2
#domian
Pressetermine
#fitstats_de_at
SV's
#fitstats_de_de
Fitbit
zurückgelegt
#archives
Peine
Helm
Thanks
latest
#rannfl
#event
schlafen
nachts
km
Apple
Nacht

1:00

02:00
@kerstindausend
@bettinathoma
#tricks
grossartige
#lifehacks
#tipps
#event
Lokalsport
Archiv
Intensität
#rannfl
#schweiz
Hit
Fläche
Event
schlafen
wach
YouTube

2:00

#tricks
@einfachseo
#epd
Thailand
#lifehacks
#aktuell
#tipps
#sfw
💘
Dating
#mädchen
#event
Intensität
wach
Fläche
Hit
schlafen
YouTube

3:00

bhkw
RRS-Feeds
Rundschau
@newsrepublicde
#ferien
Presseschau
#dpa
Forum
Good
wach
Intensität
aufstehen
#reisen
moin
#bayern
publiziert
#wetter
Grad
Morgen
YouTube

4:00

http://t.co/r5W9LbOUgM
VaoVaoWeb
JB
#wetterbericht
Rundschau
auslandsdienst.pl
@newsrepublicde
#gutenmorgen
#ferien
Forum
moin
Morgen
wach
aufstehen
#wetter
Kaffee
#bayern
Grad
früh

5:00

@wiblatt
#wetterrv
#todayinhistory
WirtschaftsBlatt.at
Aufständischen
Morgengruß
#deutschewelle
auslandsdienst.pl
FT
BeadStArt
#gutenmorgen
@newsrepublicde
moin
☕️
Morgen
aufstehen
wach
Kaffee
morgens

6:00

Partei-Stars
http://t.co/AEQSx89TjR
Piratenzeitung
candoom
BGF-Deutschland
Volkszeitung
Markus1803
Meistgelesen
D64-Ticker
#finnland
#lateinamerika
Aufständischen
FT
°C
#bigdata
moin
Topthemen
Morgen

7:00

Graßler
iunera
08:00AM
https://t.co/5tHSJGubj7
Medienjunkies
Querdenker
#alsterblick
#hansemerkur
#dach
Themendienst
https://t.co/Gpag22ohln
Meistgelesen
Alexandra
handverlesen
lesenswerten
Morning
Deichmann
#finnland
moin

8:00

http://t.co/LcCiDNlS6w
http://t.co/v2IHwr346i
http://t.co/fj66EWAnWj
http://t.co/uRgumoKD
Kielanwalt
http://t.co/gqmP0WdoQw
Werning
Wechselwirkung
Eßmann
#alsterblick
#hansemerkur
ZwitscherLand
Werk1
Korus
Insurtech
Detlef
Fintech
#karikatur
Datenschutz
Thanks

9:00

#tsmute
http://t.co/lGurKDmPzw
http://t.co/KUrQrDyLtS
http://t.co/KUrQrDPOvS
museen-deutschland
http://t.co/23xKKrpJCO
Onlinebuerger
Budgeteinsatz
http://t.co/23xKKrGMEO
suserdaily
[L-Topnews]
News2B
[L-Business]
WolWa´s
Eßmann
#pressestunde
#tanjaplayner
Twitterwelt
Sven

10:00

SBirre's
http://t.co/l2zgShKEwf
http://t.co/RKM5VYk0NG
http://t.co/u2JSUjToFn
Engmann
Nattland
Freibeuter
Tageblatt
WolWa´s
Korus
https://t.co/IavlLs390e
Agrarwetter
https://t.co/e2sO75acc3
#presseclub
#dopa
Freikirche
Detlef
Fundamentalist
evangelikal
PR

11:00

http://t.co/B0rVIwcmLJ
adigwe's
#sdz
Testfahrer
Rauhut
Devisenkurs
RAFAS
webmag
@meine_reisewelt
#rpk
Agrarwetter
nachrichten
weiland
Ra(n)dnotizen
#presseclub
#paper
https://t.co/TfTDvFgLJG
@hamburgcalling
Mittagspause
Fukushima

12:00

http://t.co/AJkPmzJx65
http://t.co/bCquubmhSf
Tweekly
http://t.co/bCquub5eQf
http://t.co/AJkPmzsu45
Elephanteum
https://t.co/zByU4ms0hE
FÖRDEANWALT
Gegestände
CLOSE
EUROPE
Schenkbote
Wettervorhersage
Werk1
Insurtech
weiland
#hektickets
Fintech
@hamburgcalling

13:00

Bernhoerster
http://t.co/w2eI5IN6UC
http://t.co/w2eI5IuXGu
https://t.co/WYnHvde4op
https://t.co/cWcdnD83Da
einfuehrt
#gruende
Kunstv
02:00PM
#kapitalismustribunal
Rhodan59
https://t.co/I6RCpcXOK7
#horoskope
https://t.co/LeJGxvg4RO
14:01
Wohlfühlmassage
#hektickets
#shoppingqueen
🌳
#architektur

14:00

https://t.co/HTgNyuXIW5
Reisevideos
energynet.de
Gericke
Sven-112
ESET
#bankenbrief
§§
kickaha
Photovoltaikanlagen
Regelleistung
Netzstabilität
#stromerzeugung
#shoppingqueen
Scan
Stromspeicher
#beliebt
#solar
#biathlon
#wirlebenwinter

15:00

http://t.co/yzd9dnkRxq
http://t.co/HLcd0M8sud
http://t.co/ze7CrGwQRM
http://t.co/EAIFNzCK
Kidney
Alpenhotels
Chiemsee
Studies
Referenz
#spdbtp18
Case
#wmauslosung
@meine_reisewelt
10-Tage-Wettervorhersage
Touristik
Ra(n)dnotizen
#paper
Rauhut
§§
#spdbpt18

16:00

Kunstkritikern
#glamour
Kunstinteressenten
Galerist
@ollimcfly
#ltwsaar2017
#werweissdennsowas
#ltw2017nrw
10-Tage-Wettervorhersage
#promojob
@promotionjob
Today's
most
wanted
#bvbs04
Touristik
#bvvp
#ltwsh17
zugenommen
Hochrechnung

17:00

braintwist
Solarmarkt
#hadeb
Datacenter
Adlerauge
#sg
mein-auto-blog.de
#schwiegertochtergesucht
Mühlenprodukte
Großhandelspreise
#gefragtgejagt
Today's
#promojob
Futtermittel
@promotionjob
#appleevent
wanted
#dasperfektedinner
#berlindirekt
Getreide

18:00

LINKE.Dithmarschen
Rot(h
#liebesgschichten
Schlüter
#dasperfektedinner
#orfwahl17
#berlinerrunde
Torsten
#rn8
#fünfkampf
#br_quer
#schwiegertochtergesucht
#sg
Verlagsreport
#edchatde
#nichtmeinekanzlerin
#wahlarena
#bus
#tvduell

19:00

#orfsg17
MICEboard
Verlagsreport
#5kampf
#auto_news
#tatort
#wiegehtsdeutschland
#br_quer
#tvduell
#wahlarena
#wwm
#klartext
#bachelor
#gntm
#dhdl
#esc2017
#dsds
#puls4
#esc
#hartaberfair

20:00

eZeitung
#schlussrunde
#hartaberfair
#zib2
#jauch
#bachelor
#annewill
#dsds
#tvog
#esc2017
#promibb
#imzentrum
#eurovision
#esc2016
#fcbbvb
#esc
#gntm
#dhdl
#tatort
#illner

21:00

#imzentrum
#lenssen
#maybritillner
#illner
#promibb
#ibes
#jauch
#zib2
#tagesthemen
#annewill
#schlussrunde
#halligalli
#srfarena
#schlefaz
#heuteshow
#maischberger
@maybritillner
#lanz
@heutejournal

22:00

Goch
Meerbusch
Erkelenz
Radevormwald
Hückeswagen
Hilden
Remscheid
#lanz
#lenssen
Mettmann
Solingen
#maischberger
#ibes
#srfarena
Lokalsport
#schlefaz
Krefeld
#illner
Duisburg
Nacht

23:00

Kempen
Xanten
Ratingen
Viersen
Lokalsport
Mettmann
Moers
Hückeswagen
Radevormwald
Wesel
Hilden
Kleve
#domian
Erkelenz
Meerbusch
Mönchengladbach
#lanz
Kreis
#maischberger
Nacht

Orte

Substantive pro Ort

Signifikante tweet-Worte pro Stadt/Ort/Platz. Hier ist die Datenmenge etwas kleiner, da nicht jeder seine location mitsendet. In diesem sample sind nicht mal 3.8% der tweets mit einem place-Feld versehen. Wenn es eins gibt, sieht es z.b. so aus:

'place': {
    'attributes': {},
    'bounding_box': {
        'coordinates': [[
            [-2.5139084, 53.531967],
            [-2.355997, 53.531967],
            [-2.355997, 53.636402],
            [-2.5139084, 53.636402]
        ]],
        'type': 'Polygon'
    },
    'contained_within': [],
    'country': 'United Kingdom',
    'country_code': 'GB',
    'full_name': 'Bolton, England',
    'id': '548c7806c1e1b70f',
    'name': 'Bolton',
    'place_type': 'city',
    'url': 'https://api.twitter.com/1.1/geo/id/548c7806c1e1b70f.json'},
}

Der Indikator ist hier das place.name-Feld.

gescannte tweets: 778264

Berlin: 109563 tweets (14.08%)
Bochum: 4198 tweets (0.54%)
Bonn: 4773 tweets (0.61%)
Bremen: 4293 tweets (0.55%)
Dortmund: 5187 tweets (0.67%)
Dresden: 8468 tweets (1.09%)
Düsseldorf: 13040 tweets (1.68%)
Essen: 6997 tweets (0.9%)
Frankfurt am Main: 18296 tweets (2.35%)
Hamburg: 46288 tweets (5.95%)
Hannover: 6922 tweets (0.89%)
Karlsruhe: 5595 tweets (0.72%)
Köln: 28220 tweets (3.63%)
Leipzig: 8398 tweets (1.08%)
Magdeburg: 4008 tweets (0.51%)
Mainz: 5541 tweets (0.71%)
München: 30600 tweets (3.93%)
Münster: 3999 tweets (0.51%)
Potsdam: 6731 tweets (0.86%)
Stuttgart: 11737 tweets (1.51%)
Wien: 23380 tweets (3.0%)
Zürich: 7577 tweets (0.97%)

Berlin

Stigmabase
@otto_0815
Berlin-Tegel
@j_schilde
@bzcat030
#weilwirdichlieben
@jurgenpresser
@bz_nachtfloh
@haraldpetermann
@djeron7
@bzberlin
@der_dutschi
Kreuzberg
@reporter_flash
Recap
#rpten
#rp17
#berlin
Berlin
DE
Stadtführung
#stadtführung
@tagesspiegel
Berliner
#r2g
Bundestag
Trump
#spd
#afd

Bochum

#dierealität
#angelasfreunde
#bereicherer
POL-BO
#absurdistan
#buntland
#hsbo
@billy_rex
@na_presseportal
#ratbo
#einzelfall
#bochum
@bochum_de
anne
Bochum
news
Ruhr
@knooshoodknorke
Symbolbild
Hochschule
#ruhrgebiet
#nrw
Link
Hauptbahnhof
via
;
da

Bonn

#jmt15
BAfmW
@ruesseltier
@ddhilfe
@sascha_foerster
#bonn
#pc11
Bonn
Bonner
#cop23
#telekomwall
#spdbpt18
Amt
#nogroko
Dr
#digitalisierung
dumm
lt;3
helfen
suchen
Hallo
Kind
Nordrhein-Westfalen
Video
Leute
jemand
Sie
warum
Es
wir

Bremen

Baumwollbörse
#fotoschule
@hbbuergerschaft
Erreichung
@elmarpaulke
#fotokurs
#hbbue
Bremen
Weltherrschaft
#bremen
#bremerhaven
90/Die
Zentrale
@_holger
Bremer
Landesgeschäftsstelle
@werderbremen
Bürgerschaft
#dartswm
Werder
#werder
#linke
Bündnis
Grüner
herzlich
I'm
at
w/
zur
@

Dortmund

#tierfotoseu
@daverouge
#dailyu
#cidnrw
#barsession
@mauricegajda
@jensvolke
@senfkutte
@theaterdortmund
@_jvl
@tobi_vega
#dortmund
@vm_83
@martin_lejeune
@stadtdortmund
@scherben81
Dortmund
@dropdeadphil
Dortmunder
#ruhrpott
@bvb
#bvb
BVB
Zoo
#ruhrgebiet
#spdbpt
//
Stadion
Nordrhein-Westfalen
ne

Dresden

CROMATICS
@ufleku2
Frauenkirche
#jmt16
SN
@dietzi
Dresden
#saxlt
#dresden
@cdu_slt
#dlt17
Dresdner
@fasnix
@martindulig
@svenmfgn
#sachsen
#schnitzeljagd
Saxony
Schnitzeljagd
sächsisch
@polizeisachsen
#nopegida
Sachsen
Altstadt
#stadtrundfahrt
#germany
Stadtrundfahrt
#highlights_
#pegida
@

Düsseldorf

Doyç
Dusseldorf
@dusairport
@antenne
#machen_wir
@factorycampus
#ltnrw
#düsseldorf
Düsseldorf
#duesseldorf
#barcampdus
Düsseldorfer
@hannelorekraft
@rponline
@arminlaschet
#nrw
NRW
Airport
Verlag
Nordrhein-Westfalen
//
North
Landtag
@c_lindner
#fdp
+
Du
at
I'm
@

Essen

@ruhrbahn
Essen-Borbeck
#sozialdemokratie
Customer
#essen
#cdupt16
@torsten_hautnah
Essen
#ruhrgebiet
Support
Rhine-Westphalia
North
#spdbpt18
🙈
@kahrs
Nordrhein-Westfalen
H
#tvduell
#schulz
GmbH
❤️
😊
Martin
NRW
#merkel
#groko
@spdde
I'm
at
#btw17

Frankfurt am Main

POL-F
@dervatta_
@ibaerlin
@andifrankfurt
#ffm
@4ttila78
@uwesge
@infernal_runner
TV-TIPP
#frankfurt
Main
Offenbach
Hessen
@airport_fra
@luzini1
@sge_gonzo
FRA
Frankfurt
Volkshochschule
Hesse
@alex13wetter
Frankfurter
Airport
Flughafen
Video
Hauptbahnhof
am
I'm
Uhr
at

Hamburg

https://t.co/J2bpMKzrPF
#ostfrieslandkrimi
@welt_hh
#hhbue
#hamburg
#buchtipp
Hamburg
#rannflsuechtig
@neythomas
Hamburger
ermittelt
#hsv
#rannfl
#g20
St
Band
7/10
@welt
moin
5/10
Niederschlag
Intensität
Fläche
2/10
km
3/10
4/10
Unwetter
via
mehr

Hannover

#m05h96
@bszess
#kmb
#niemalsallein
Hanover
#interschutz
@hannover
#ltnds
#366project
#rugby
#cebit17
#h96m05
Niedersachsen
#h96
#hannover
Hannover
@blaukepetry
@haz
#wolken
#cebit
@dazn_de
#niedersachsen
@cebit
#linkebpt
H
Halle
Hauptbahnhof
Welt
I'm
at

Karlsruhe

dasz
#karlsruhe
@civey_de
BRD
Karlsruhe
Beamter
Staat
worden
Nazi
deutsch
Am
Deutschland
sie
Aber
er
dann
wie
die
man
haben
Die
als
sein
das
der
den
werden
nicht
zu
ein

Köln

https://t.co/iomsWmS7D6
#koelnrat
Cologne
#köln
Köln
Kölner
#effzeh
😘
😀
50%
20%
9/10
Niederschlag
Intensität
Fläche
km
1/10
Video
3/10
4/10
2/10
6/10
5/10
Nordrhein-Westfalen
7/10
Unwetter
mehr
Morgen
Heute
auf

Leipzig

@sunny_93
#wech
Papa_baer
#nachti
Meyersdorf
Twittergemeinde
@zahni_le
Leipzig
#twoff
#leipzig
Höhle
Leipziger
#34c3
Sachsen
reich
Saxony
moin
Kaffee
nen
w/
schönen
lieb
😉
Liebe
morgen
😂
dir
@
schön
gut

Magdeburg

@sende_duydunmu
@wathzmann
#ltlsa
@mdr_san
#magdeburg
#einmalimmer
@mzwebde
@volksstimme
@reinboth
Magdeburg
Sachsen-Anhalt
Bowl
#linkebpt
German
@n24
#türkei
AfD
@tagesschau
CDU
Merkel
diese
dieses
Land
Deutschland
dieser
dies
unser
werden
nicht
und

Mainz

Gudde
#ltrlp
“@GrueneLtRLP
@daniel_koebler
@cliomz
#mainz
Rheinland-Pfalz
#dreyer
Mainz
Malu
#rlp
Mainzer
RLP
Ölgemälde
Oil
Canvas
Döhring's
#s04
morsch
@juliakloeckner
Groko
Landtag
Martin
on
Art
Artikel
Grüner
Glück
interessant
via

München

https://t.co/92vv7HUPfT
#stadtbergen
Twelt
Bavaria
#münchen
Munich
#augsburg
Münchner
München
bayerisch
Bayern
Gewitter
Unwetter
9/10
2/10
7/10
4/10
5/10
6/10
3/10
1/10
Intensität
Fläche
km
Niederschlag
gt;
stark
mehr
Heute
auf

Münster

#rvo17
@v_olberg
Gescher
Götterspeise
#ratms
#münster
Dachboden
#muenster
@evo2me
#bdk16
Westf
#cdulpt17
Münster
@preussen06
#stolberg
@pr_ip
#effzeh
Küche
@telekom_hilft
[pic]
mobil
Nordrhein-Westfalen
NRW
grad
at
mein
I'm
;
@

Potsdam

104.3
#robinschulz
107.5
|||
#bbradio
Marshmello
103.7
102.1
95.4
#nowplaying
BB
~
#vibb
#ger
#brandenburg
feat
@pnn_de
Radio
#potsdam
Robin
Potsdam
Brandenburg
geboren
|
Am
Schulz
uns
amp;
auf
werden

Stuttgart

#filefeed
#stau
A7
@kischtrine
@stuttgarttweets
A8
Heilbronn
A6
A40
Landkarte
A3
Oberhausen
A2
Stuttgart
A4
A5
A1
#stuttgart
Würzburg
Stuttgarter
#deutschland
Baden-Württemberg
Richtung
Nürnberg
Mannheim
Dortmund
Karlsruhe
#tatort
Köln
alt

Wien

@nedo04
#sturmgraz
#tipicobl
#meineleidenschaft
https://t.co/WPoBceleGc
#imzentrum
Auhof
@marchfelderin
@landaudaniel
#wienliebe
@evakalla
#vienna
#puls4
@katha_esskultur
@diepressecom
Austria
#nrw17
Vienna
Wien
@arminwolf
#wien
@kernchri
FPÖ
Wiener
Österreich
#österreich
eh
danke
nix
;

Zürich

https://t.co/KCqjXxlZG8
@higgsmag
@vinzenzwyss
@metamythos
#nobillag
lausanne
ZH
bagi
gang
geisel
delevau
@hansi_voigt
Zürich
#zürich
Gertrud
c
b
e
Schweizer
Schweiz
m
v
n
de
#tatort
+
a
;
du
als

Partei-tags

Substantive pro Partei-tag

Hier werden die tweets nach enthaltenen hashtags kategorisiert. In dieser Reihenfolge #noafd, #afd, #cdu, #csu, #spd, #linke.

Bedeutet, wenn ein tweet #noafd enthält, zählt er in die erste Gruppe. Wenn kein #noafd aber #afd, dann zweite, wenn kein #noafd und #afd aber dafür #cdu, dann 3. usw..

Das Durchschnittsaufkommen für ein hashtag wird aus der Menge aller tweets genommen, welche mind. eines der oben genannten tags enthalten. Der Faktor 3 aus obiger Formel für die Signifikanz ist hier auf Faktor 1 runtergesetzt.

gescannte tweets: 375695

#noafd: 30370 tweets (8.08%)
#afd: 187528 tweets (49.91%)
#cdu: 51155 tweets (13.62%)
#csu: 15971 tweets (4.25%)
#spd: 73016 tweets (19.43%)
#linke: 17655 tweets (4.7%)

#noafd

#noafd
#nonazis
#nopegida
#fcknzs
#hoecke
#fckafd
#koeln2204
Protest
AfD
rechtsextrem
#antifa
braun
Hetze
Nazi
Mensch
gegen
Ihr
Sie
mal
am
ich
man
da
so
wir
auch
ein
nicht
sein
das

#afd

#hütter
#pegida
#npd
#afd
#nsu
#traudichdeutschland
#merkelmussweg
#höcke
#petry
#weidel
@alice_weidel
#gauland
Alternative
@beatrix_vstorch
@afd
#fluechtlinge
Bundestag
Flüchtling
Nazi
wählen
#bundestag
Deutschland
AfD
#btw17
Sie
#fdp
gegen
im
die
sein

#cdu

#wien
fr
++
#cdu
gt;
+++
#ard
Nein
@cdu
#zdf
#politik
#islam
#flüchtlinge
v
#merkel
#nrw
CDU
#berlin
Merkel
#csu
#fdp
#gruene
#grüne
Dank
#groko
und
mit
#spd
zu
für

#csu

Söder
#söder
#dobrindt
bayerisch
Seehofer
#seehofer
@markus_soeder
Horst
#csu
Bayern
#bayern
CSU
#glyphosat
#obergrenze
@csu
#jamaika
er
nach
wollen
einen
bei
sich
von
Die
der
in
die
haben
und
sein

#spd

#spdbpt18
#jusos
#spderneuern
#gabriel
#nahles
Gabriel
#nogroko
@sigmargabriel
@martinschulz
Martin
@spdbt
Schulz
#spd
@ralf_stegner
#schulz
@spdde
#groko
SPD
gerade
noch
mehr
wollen
können
haben
werden
mit
die
der
das
sein

#linke

#hbbue
#bergedorf
#bremerhaven
#linke
#freiburg
#bremen
#wagenknecht
#saxlt
Linke
Uhr
@dielinke
#hamburg
#r2g
linken
Heute
sozial
#sachsen
fordern
zum
heute
#berlin
amp;
am
zur
des
#grüne
im
in
Die

Keine Kommentare:

Kommentar veröffentlichen