Dienstag, 24. November 2015

R als Tool für die digitale Kunstgeschichte

R ist ein statistisches Softwarepaket, das über das Internet zur Verfügung gestellt wird. Es handelt sich um ein sogennates Open Source Projekt, bei dem der komplette Quelltext der Software eingesehen werden kann. Danach kann es auf unterschiedlichen Betriebssystemen verwendet werden, unter anderem Mac OS X, Linux, Sun Solaris und Windows. R zeichnet sich durch eine praktisch unbegrenzt mögliche Erweiterung durch neue Funktionen und Verfahren aus. Neben dem gut ausgetesteten Basispaket, welches bereits eine hohe Funktionalität hinsichtliche statistischer Verfahren und grafischer Darstellungsmöglichkeiten für Daten besitzt, gibt es eine große Anzahl an zusätzlichen R-Paketen mit modernsten statistischen Verfahren für die unterschiedlichsten Einsatzzwecke. 
Wenn man noch nie programmiert hat, ist es sehr hilfreich sich mit den Grundlagen vertraut zu machen. Als ersten Einblick sind YouTube Tutorials sehr empfehlenswert. (vor allem DIESES)
In diesem Blogpost erläutere ich kurz ein paar grundlegende Begriffe anhand von einigen Beispielen. 

Der erste Schritt ist in R Studio unter File --> New File ein "R Script" zu erstellen. Über der Konsole öffnet sich unsere Quelltext Editor. Hier können wir unsere Befehle eingeben, die dann in der Console ausgeführt werden. 

Ein essentieller Bestandteil des Programmierens sind zuallererst Variablen.  
Eine Variable ist eine Art Speicher, den man flexibel mit verschiedenen Datentypen füllen kann. Der Name einer Variable muss in R immer mit einem Buchstaben beginnen. 
Beispiel: 
b = 8
b <- 8 (der Pfeil ist für R das Üblichste)
assign (“ham“, 71)
Mit Variablen kann man mathematische Operationen durchführen wie Addition, Subtraktion, Division, Potenz etc. R funktioniert also wie ein großer Taschenrechner.

Merke: Variablen können nicht nur Nummern beinhalten sondern auch Textzeichen oder ein Datum.

Mit Hilfe der class –Function kann man sich den in einer Variablen hinterlegten Informationstypus ansehen:
Beispiel
> a <- 20
> b <- "kathi"
> class (a)
[1] "numeric"
> class (b)
[1] "character"

Vektoren:
Ein Vektor ist in R eine Liste von Elementen, das kann sehr hilfreich bei vielen Daten sein.
Der Nutzen von Vektoren ist, dass man eine mathematische Operation ganz einfach auf alle Inhalte des Vektors anwenden kann.  
1. Möglichkeit einen Vektor darzustellen: 
avektor <- c(1,2,3,4,5)
2. Möglichkeit einen Vektor darzustellen: 
bvektor <- 1:100

Mit Hilfe der length-Function kann man ganz leicht die Länge eines Vektors ermitteln.

Data.frame: 
Mithilfe von data-frames lassen sich mehrere Vektoren zu einer Datentabelle verknüpfen. Diese Datentabelle kann Vektoren verschiedenen Typus enthalten (character, numerisch etc.). Die Vektoren sollten allerdings gleich lang sein, also gleich viele Elemente beinhalten. Mit der data.frame()-Function lässt sich eine solche Datentabelle erstellen und zuweisen: 

Beispiel: 
id <- 1:15
alter <- c(17,22,58,54,26,37,54,35,22,31,34,25,39,76,66)
name <- c("Kathi","bob", "lili", "ana", "leni", "otto", "gabi", "uli", "chris", "ute", "andy", "tom", "robert", "lisa", "tim")
x <- data.frame(id,alter,name)
x


Wie man ganz bestimmte Elemente in der data.frame abruft:

x$alter Das Dollerzeichen ist ein Operator und sagt: "Gib mir die Spalte alter"
oder: 
x[]     
x[2,2]  bei zwei Zahlen in eckigen Klammern steht die Erste für die Zeile, die Zweite für die Spalte
x [3, 1:3] sagt: Zeige mir von der data.frame x Zeile 3 + Spalte 1-3


Wir wollen jetzt endlich zur Tat schreiten und einen Datensatz auswerten.
Als Beispiel dafür nehmen wir die Datei Artworks.csv (comma seperated value). Das ist der freizugängliche Datensatz des MOMA's.

Dazu laden wir uns den Datensatz herunter. Anschließend klicken wir rechts oben auf "Import Dataset"--> "From Text File" wählen unsere Datei aus und importieren sie. 

Nun sehen wir in unserem Quelltext Editor die Datentabelle. Wir können diese nach unterschiedlichen Kriterien mit dem Filter sortieren. 
Ein wirklich tolle Funktion in R ist die summary()-Function.
Mit diesem Befehl wird uns eine Übersicht über die Top 6 jeder Kategorie angezeigt: 


So sehen wir z.B. dass der häufigste Künstler Eugène Atget ist. Oder dass 10966 Kunstwerke aus der The Louis E. Stern Collection sind. Mit nur einer Zeile kann man sich in Nullkommanichts einen Überblick verschaffen! 

Besonders für die Kunstgeschichte kann so ein Programm, wenn man es beherrscht, eine wahre Arbeitserleichterung sein und Datensätze grafisch darstellbar machen. (Histogramme, Scatterplots, Boxplots etc.)
R ist ein sehr vielfältiges Programm, mit dem man sich jedoch eingehend und länger beschäftigen muss.