Das nächste große Ding nach Web 2.0

Dienstag, 31. März 2015

Das nächste große Ding nach Web 2.0

Als Eric Knorr 2003 zum ersten Mal von einem Web 2.0 sprach [1], konnte er nicht ahnen, dass seine Beschreibung des Internet ein paar Jahre später millionenfach übernommen würde. Das Internet verändert sich. Die Menschen versuchen die Entwicklungen vorherzusehen und schreiben rückblickend Berichte. Doch was ist das nächste große Ding des Internets? Welche Entwicklungen werden das Netz in einer Weise prägen, sodass wir sie uns später gar nicht wegdenken können? Mit dem Web 2.0 hatte sich das Internet grundlegend geändert. Die Nutzer waren nicht mehr länger nur Zuschauer, sondern konnten sich aktiv beteiligen. So wie uns Web 2.0 in den letzten 10 Jahren prägte, bemerken wir nun weitere Veränderungen des Internet. Jedoch sind das nicht einzelne, sondern viele Veränderungen, die es zu beschreiben und beobachten gilt. Viele Experten haben in den letzten Jahren Artikel geschrieben und das nächste große "Ding" prophezeit. Dabei sind vor allem folgende Begriffe immer wieder im Gespräch: Big Data, semantisches Web bzw. Web 3.0 und Internet der Dinge. Viel wurde in diesem Zusammenhang bislang spekuliert, welche der drei Begriffe das Erscheinungsbild des Internet der Zukunft mehr prägen wird. Mit meinem Post möchte ich einen Überblick darüber geben, was sich hinter den Begriffen verbirgt und wie sie zusammenhängen.

Internet der Dinge

Eine Begriffserklärung

Trotz des großen technologischen Fortschritts in den letzten Jahrzehnten gibt es noch immer eine gewisse Kluft zwischen der virtuellen und der realen Welt. Oftmals beschränkt sich die virtuelle Welt auf den Arbeitsplatz, den Laptop daheim und das Smartphone, welches wir mit uns herumtragen. Doch in den ganzen technischen Einzelgeräten, die wir bereits benutzten, verbirgt sich ein riesiges Potential. Was wäre, wenn alle technischen Geräte untereinander vernetzt und ein wenig intelligenter werden würden? Möglich wäre, dass z.B. unser Kühlschrank über den Verbrauch und das Verfallsdatum unser Lebensmittel informiert ist und eine Einkaufsliste an einen Händler unserer Wahl schickt. Ein Auto könnte uns autonom zu unserem Arbeitsplatz bringen, da die Autos miteinander kommunizieren und der Verkehr optimal überwacht und gesteuert wird. Die Industrie (häufig unter dem Begriff Industrie 4.0) kann die Arbeiten noch effizienter erledigen, da Lagerkosten minimiert und Engpässe seltener auftreten.

Das Internet der Dinge ist kurzgefasst eine Idee, in der sich digitale Informationsflüsse mit der physischen Welt verbinden. Die Kluft zwischen der virtuellen und realen Welt wird aufgehoben. Jeder technische Gegenstand kann Teil der digitalen Welt sein. Die digitale Welt greift in die physische Welt ein. Sie ist nicht mehr länger nur virtuell sondern gehört zu unserer Realität.

Erklärvideo: Internet der Dinge einfach erklärt [A]

Die Idee, dass Maschinen viel stärker in unserem Leben Einzug halten, ist nicht so neu wie man vermuten könnte. Sie ist zum Beispiel viel älter als der Begriff Web 2.0. Bereits 1991 sprach Mark Weiser von der Vision eines Internets der Dinge, ohne diesen Begriff benutzt zu haben [2]. Kevin Ashton verwendete danach 1999 als erstes den Begriff Internet of Things in einer Werbekampagne für Procter & Gamble [3]. Erst zwanzig Jahre später scheint das Internet der Dinge seinen Durchbruch zu erleben.

Aktuelle Lage und Herausforderungen

Bislang verwies dieser Blog bei diesem Thema hauptsächlich auf die Seite zur Netzdebatte der Bundeszentrale für politische Bildung (bpb) hin. Dort gibt es zu diesem Thema einige interessante Beiträge, die auch über die fröhliche Erwartungshaltung der Zukunft hinausgehen. Denn bis es soweit ist, gibt es noch einiges an Hürden zu überwinden und neue Fragen zu beantworten. Denn hier betreten wir teilweise tatsächlich Neuland.

Ein Beispiel: Mit dem einhergehendem Kontrollverlust über die Maschinen müssen wir viele Entscheidungen den Maschinen überlassen. Unsere menschlichen Entscheidungen basieren immer auf unserer persönlichen und kulturellen Ethik. Diese Ethik müsste nun den Maschinen beigebracht, sprich einprogrammiert werden. Eine Programmierung basiert jedoch immer auf klaren Vorgaben, die wir in der Ethik nicht ohne weiteres finden. Kann somit eine Maschine ethisch handeln und denken?

Mir persönlich wurde das Problem damals stark bewusst, als der Film "I, Robot" in die Kinos kam. In einer Szene kommt es zu einem Autounfall. Die kollidierenden Fahrzeuge stürzen dabei von einer Brücke in das Wasser. In einem der Autos sitzt der Hauptdarsteller Del Spooner (Will Smith), in dem anderen ein kleines Mädchen. Ein herbeigeeilter Roboter hat die Chance, einen der beiden zu retten und entscheidet sich für Del Spooner. Diese Entscheidung trifft der Roboter aufgrund einer höheren errechneten Lebenschance von Del.

Wie diese Szene des Films zeigt, lassen sich Entscheidungen zwar rational berechnen, jedoch würden Menschen teilweise anders handeln und vielleicht eher das kleine Mädchen retten. Menschen treffen oft irrationale, also nicht berechenbare Entscheidungen. Die Entscheidungen der Menschen sind deswegen nicht automatisch schlechter, auch wenn rationale Überlegungen so manchen vor Fehlentscheidungen geschützt hätten. Dennoch geht es hierbei um eine Frage wen z.B. unausweichliches Leid treffen darf oder wird.

Als Beispiel hätten wir das autonom fahrende Autos. Wenn vor diesem Auto plötzlich ein Fußgänger auftaucht, muss das Auto sich entscheiden ob es eher das Leben der Autoinsassen oder des Fußgängers schützt. Diese und weitere Fragen müssen in der Zukunft ernsthaft diskutiert werden, jedoch fehlt bislang noch ein breites Bewusstsein dafür.

Die Frage nach der Ethik im Zeitalter des Internets der Dinge hat auch noch eine weitere Dimension abseits der Frage von Entscheidungsalgorithmen der Maschinen: Die Frage der Datenethik. Für die Kommunikation unter den Maschinen müssen Daten ausgetauscht werden, soviel ist sicher. Doch diese Daten sind mitunter privat. Was passiert also mit Daten, die für das Internet der Dinge benötigt werden, aber eigentlich nicht öffentlich sein sollen? Mit diesen Fragen beschäftigt sich zum Beispiel Lorena Jaume-Palasi die an der Ludwig-Maximilians-Universität in München zum Thema Internetethik forscht und im folgenden Video ein Interview gibt [B].

Internetethik - Lorena Jaume Palasi im Netzdebatte Interview [B]

Allerdings ist die Sicherheit und der Umgang mit den Daten ein sehr komplexes Thema. Da das Internet normalerweise nicht auf die Landesgrenzen beschränkt ist, wird es sehr schwer sein, einheitliche Regelungen zu treffen. Die Regulierungen wünscht man sich zwar von den Staaten oder beispielsweise von der EU, jedoch helfen Regulierungen nur bei ortsansässigen Unternehmen. Weiterhin wird ein sicher Schutz vor willkürlichem Missbrauch benötigt. Da hilft meistens nur eine Verschlüsselung. Das Verschlüsseln von Daten wird jedoch zum einem nicht so gern von den Staaten gesehen und andererseits würde es der Idee des "alles-ist-vernetzt" widersprechen. Denn nach dem heutigen Stand der Verschlüsselungsverfahren kann man keine Sicherheit und Freiheit der Daten gleichzeitig haben.

Einen weiteren Gesichtspunkt zeigt Stephan Noller als CEO der Firma nugg.ad [C]. Er betont stärker die Seite des Menschen, dem eine Entscheidungsfreiheit zugestanden werden muss, um zum Beispiel eine Datenweitergabe zu verweigern oder zumindest Räume und Bereich zu schaffen, in denen keine Datenerfassung geschieht. Denn je stärker Technologie in unserer Leben dringt, desto stärker gibt es auch eine Abwehrreaktion gegenüber der Erfassung von Daten. Auch in unserer Gesellschaft wird es immer eine Gruppe geben, die der Datenerfassung entfliehen wollen und eine alternative Lebensform wählen werden. Im folgenden das vollständige Interview mit Noller:

Netzdebatte Interview - Stephan Noller über Algorithmen und das Internet der Dinge [C]

Zu guter letzt leidet das Internet of Things zur Zeit am stärksten an der Inkompatibilität der einzelnen Geräte. Jedes Unternehmen stellt eigene Protokolle und Anschlüsse her, die einen offenen Austausch außerhalb eines Ökosystems unmöglich macht. Firmen sind natürlich daran interessiert, viele ihrer eigenen Geräte zu verkaufen. Dabei kann man konkurrierende Geräte nicht gebrauchen. So wird ein geschlossenes System verkauft, wo jedes Zubehör vom gleichen Hersteller geordert werden muss.

Außerdem wollen die Firmen natürlich dem Kunden ein positives Erlebnis bieten. Am besten geschieht dies, indem man alle Geräte selbst entwickeln und steuern kann und keine Geräte fremder Firmen integrieren muss. Wenn die Kunden glücklich sind, bleiben sie der Firma treu. Ein weiterer Grund, warum Firmen einem genormten offenen System skeptisch gegenüberstehen stehen ist der, dass eigene Innovationen im System nicht so schnell umsetzbar sind. Man ist immer angewiesen auf die genormten Standards, die eventuell nicht alles bieten, was man bräuchte. Bis ein neuer Standard entwickelt wird, können mehrere Jahre vergehen. Und selbst dann ist es nicht gewiss, ob die Bedürfnisse der eigenen Firma vollständig abgedeckt werden. Es gibt zwar Projekte, die für offene Standards stehen (Im Smart Home Bereich z.B.: fhem, smarthome.py oder openHAB), jedoch sind diese noch nicht weit verbreitet. Die Problematik ist nicht neu und so werden immer wieder offene Standards gefordert wie z.B. von Brigitte Zypries, der Parlamentarischen Staatssekretärin beim Bundesminister für Wirtschaft und Energie. [4]

Fazit

Zusammengefasst ist das Internet der Dinge eine "never ending story". In kleinen Bereichen unseres Lebens gibt es bereits funktionierende Beispiele, die einem helfen und Sinn machen. Besonders in der Industrie (mehr dazu auf diesem Blogbeitrag) und im Smart Home Bereich gab es in den letzten Jahren die größten Fortschritte. Jedoch werden die Lebensbereiche nie erschöpfend miteinander vernetzt und verknüpft sein. Es wird immer noch eine weitere Stufe geben. Zur Zeit machen noch unterschiedliche Standards oder geschlossene Systeme der Kommunikation sowie die Frage nach dem Schutz der Daten Probleme. Es wird die Zeit kommen, in denen wir computergesteuerter Technik einen erheblichen Anteil von Kontrolle übertragen, wo wir dann vor anderen Herausforderungen stehen werden, z.B. wie eine Maschine in Ethikfragen handeln soll.

Semantisches Web
Web 3.0

Eine Begriffserklärung

Bislang weiß keiner genau, wie viele Internetseiten es gibt. Es gibt Schätzungen und Stiftungen wie z.B. "The Web Index", welche verlässliche Zahlen herausfinden wollen. Kevin Kelly, Gründer des Wired Magazines schätzte 2011 die Anzahl der Webseiten auf 1 Billionen (= 1'000'000'000'000) und meinte, dass sich die Zahl jährlich verdoppeln würde [5]. Egal wie die Zahlen genau aussehen, muss man jedoch anerkennen das selbst ein menschliches Gehirn verglichen dazu "nur" auf 100 Milliarden (= 100'000'000'000) Neuronen kommt, was im Zahlenvergleich deutlich weniger ist. Doch trotz des Zahlenvergleichs ist das Gehirn dem Internet in einem weit überlegen: Die Neuronen sind besser vernetzt.

Eines der größte Problem des Internets sind die Unmengen an Daten (ganz gleich ob Text, Bilder oder Videos), die zwar meistens, je nach Pflege einer Webseite, für den Benutzer Sinn ergeben, jedoch nicht ohne weiteres dafür geeignet sind, dass Computer (unabhängig von einer manuellen menschlichen Steuerung) einen verwertbaren Informationsgehalt daraus ziehen können. Zum Beispiel kann Google nur ein optimales Suchergebnis liefern, wenn zum einem die Suchanfrage richtig gedeutet und zum anderen der komplette Text einer Webseite so interpretiert wird, dass es eine korrekte Antwort auf die Suchanfrage vermuten lässt. Bislang können Daten nur Menschen vollständig korrekt miteinander verknüpfen und bewerten. Das semantische Web wurde 2001 in einem der ersten Artikel darüber wie folgt beschrieben:

„The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation“ Scientific American [6]

Im semantischen Web wird versucht, den Informationsgehalt aller Internetdaten auf der Bedeutungsebene miteinander zu verknüpfen. Dass dieselben Rohdaten verschiedene Bedeutungen haben können, möchte ich an folgendem Beispiel deutlich machen: Eine Homepage, bei der sich alles um Batman dreht, kann allerlei Inhalte über Batman haben. Texte und Bilder über die Geschichte, Filme von Batman usw. Doch um welchen Batman es sich handelt, erfahren wir erst im Bedeutungszusammenhang (Semantik).

Denn Batman ist ein Begriff, der nicht nur auf der Kinoleinwand auftaucht. Batman gilt auch als Gewichts- und Flächeneinheit in Vorder- und Mittelasien, oder als eine Gattung australischer Wächtergrundeln, außerdem werden die Offiziersburschen in der englischen Kavallerie als Batman bezeichnet. Es gibt mehrere berühmte Personen, die Batman als Nachname tragen (z.B. Daniel Batman). Es gibt eine Stadt und eine Provinz namens Batman. Einen Fluss und eine Talsperre, die den Namen Batman tragen. Sportvereine, Musikstücke, usw. Alle tragen denselben Namen aber nicht alle die gleiche Bedeutung (nebenbei bemerkt ist allein die Deklarierung von "Batman" zum Namen bereits eine Semantik, da Batman ja auch ein Adjektiv, Artikel, Verb usw. sein könnte).

Für den Menschen bringt eine Webseite, wo die Semantik durch die Maschinen erkennbar wird, einen enormen Vorteil. Es ist nämlich ein Unterschied, ob ich den Film Batman sehen möchte oder ein Video von der Batman Fußballmanschaft. Die Semantik hilft einem dabei das Richtige auszuwählen.

Tim Berners-Lee, der Erfinder des World Wide Web hatte bereits die Idee des semantischen Webs [6], jedoch stand die Entwicklung nie so sehr im Fokus wie nach der Jahrtausendwende. Im Jahr 2001 wurde das semantische Web z.B. in Zeitschriften als die Zukunft angepriesen:

"The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities." Scientific American [6]

So wird bis heute immer noch das Web 3.0 als eine Erweiterung des Web 2.0 mit dem semantischen Web gesehen. Vor allem John Markoff, ein US-amerikanischer Journalist, hat das Web 3.0 stark mit dem semantischen Konzept des Internets in Verbindung gebracht. Somit wird nach heutigem Stand Web 3.0 oft als synonym für das semantisches Web verwendet.

Da nach den euphorischen Verheißungen der vergangenen Jahren noch kein Durchbruch des semantischen Webs erkennbar wurde, gibt es auch immer wieder kritische Stimmen, die dem semantischen Web das Ende bescheinigen wollten.

Aktuelle Lage und Herausforderungen

Damit ein semantisches Web entstehen kann, benötigt es Programme mit Algorithmen, die intelligent genug sind, einen Satz richtig zu deuten, Bilder auch ohne Textbeschreibung zu lesen oder Informationen ohne besondere Hinweise korrekt zu interpretieren. Dieser Weg wurde gleich zu Beginn als Königsweg ausgemacht, scheitert jedoch immer noch an dem begrenzten technologischen Fortschritt.

Alternativ sollten die Webseitenbetreiber selbst Hinweise und Schlagwörter für eine bessere Maschinenlesbarkeit hinterlassen. Dies gelingt, wenn man für die semantischen Klassifizierungen Metadaten den Inhalten zufügt. Damit es eine Standardisierung der Metadaten gibt, wurden zwei Techniken entwickelt: Web Ontology Language (OWL) sowie das Resource Description Framework (RDF). Bei beiden handelt es sich um maschinenlesbare Sprachen zur formalen Beschreibung von Multimedia-Inhalten.

Man versuchte lange Zeit eine Nutzerpartizipation einzuleiten, die den Weg zu einem semantischen Web bahnen würde. Allerdings blieben Erfolge in dem Bereich bis heute aus. Zwar gibt es bereits bei vielen Content-Management-Systemen (wie z.B. Wordpress oder Blogger) eine einfache Art von Artikel-Verschlagwortung (sogenannte Labels oder Tags). Allerdings ist es dort nicht so detailreich möglich, wie es ursprünglich für ein semantisches Web gedacht war. Da auch in Zukunft nicht damit zu rechnen ist, dass die Menschen von sich aus alles genormt verschlagworten, könnte man meinen, dass das semantische Web gescheitert ist.

Bislang war es unvorstellbar, dass es Programme gibt, die die Semantik von Wörtern und Bildern von sich aus erfassen können. Jedoch gibt es gerade in den letzten Jahren erhebliche Fortschritte. So ist es zum Beispiel Google gelungen, Bilder zu interpretieren. [D]

Bildinhalterfassung mit Vision Deep CNN und Beschreibung mit Language Generating RNN [D]

Die Entwicklung in diesem Bereich führt zu dem Schluss, dass ein semantisches Web höchstwahrscheinlich nur durch Software Realität werden wird, die den Bedeutungszusammenhang von sich aus erkennen kann. Die Motivation von Firmen wie Google in diesen Projekten ist besonders groß, da man dadurch noch viel besser den Nutzern die Inhalte präsentieren kann, die sie auch wirklich benötigen.

Bei Suchmaschinen ist die Semantik besonders wichtig, da zum einem die Suchanfrage richtig gedeutet werden muss und anschließend der Frage entsprechend optimale Ergebnisse geliefert werden müssen. Ein Beispiel für eine funktionierende Semantik ist, wenn man folgende Frage bei Google eingibt: "Wie alt ist Angela Merkel?". Passend wird mir dazu sofort das richtige Alter angezeigt. Ebenso funktionieren Fragestellungen wie: "Wie groß ist der Bodensee?" oder "Wie wird das Wetter morgen?". Die Funktion, die Google dem Nutzer dazu bereitstellt, nennt sich Knowledge Graph und wurde 2012 eingeführt.

Knowledge Graph bei der Frage: "Wie groß ist der Bodensee?" [E]

Vorstellung des "Knowledge Graph" von Google [F]

Die vorgestellte Funktion, die Google Knowledge Graph nennt, ist nur eine von vielen Funktionen, die immer mehr Einzug halten. Neben Google gibt es natürlich auch andere Firmen, die versuchen, Worte in einem Zusammenhang zu verstehen und so Sätze korrekt zu deuten, sodass ein neuer Begriff in der technologischen Welt diese Art von Suchmaschinen beschreibt: Semantische Suchmaschinen.

Große Beliebtheit erreichte zum Beispiel die semantische Suche Wolfram Alpha. Diese bietet Ergebnisse durch eigene Algorithmen, wobei keine fremden Webseiten durchsucht werden, sondern nur hinterlegte Dateneinträge in der eigenen Datenbank. So können neben dem Aufrufen von chemischen Formeln, historischen Persönlichkeiten oder geografischem Wissen auch eine Vielzahl anderer Fragen gestellt werden. Selbst humorvoll kann Wolfram Alpha sein:

Semantische Suchmaschine: Wolfram Alpha [G]

Fazit

Die Vision eines semantischen Web, wie es um die Jahrtausendwende vorgestellt wurde, kann man heute als gescheitert erklären. Technologien, die jedes einzelne Wort von dem Benutzer selbst für die Maschinen semantisch lesbar werden lässt, haben sich bis heute nicht durchgesetzt. Der Aufwand ist dabei einfach viel zu groß und zudem auch noch zu kompliziert für den Benutzer. Meiner Meinung nach ist dieser Weg damals schon zum Scheitern verurteilt gewesen, da gerade das Web 2.0 gezeigt hat, dass die Menschen einen einfachen Weg benötigen, um im Internet zu partizipieren. Ein semantisches Web nach dem damaligen Weg würde alles wieder verkomplizieren.

Doch nach gut 15 Jahren zeichnet sich ein Comeback des semantischen Webs ab. Möglich wurde dies durch den enormen Fortschritt der technologischen Firmen, welche daran arbeiten, Algorithmen zu entwickeln, die von sich aus den Bedeutungszusammenhang von Wörtern und Bilder erkennen. Der heutige Stand zeigt zwar beeindruckende Ergebnisse, jedoch sind diese Programme noch lange nicht ausgereift. Ich persönlich erwarte jedoch in den nächsten Jahren weitere Fortschritte, sodass ein semantisches Web in Zukunft nicht mehr länger nur ein Traum bleibt.

Big Data

Eine Begriffserklärung

Die Daten im Internet belegen weltweit zusammengerechnet insgesamt 4,4 Zettabyte Speicherplatz. Das zumindest ist die Analyse aus dem Jahr 2013 von EMC in Kooperation mit dem Marktanalysten IDC, welche 2014 in der Studie „EMC Digital Universe“ veröffentlicht wurde. [7] Die wenigsten haben bereits einmal von Zettabyte gehört, sodass dafür eine Darstellung der Größe notwendig ist: 1 Zettabyte sind 1'000'000'000 Terabyte oder 1'000'000'000'000 Gigabyte.

Veranschaulichung der Größe eines Zettabytes in einer Grafik aus dem Jahr 2010 [H]

Dieselbe Studie [7] sagt ebenso voraus, dass davon auszugehen ist, dass bis zum Jahr 2020 sich diese Daten verzehnfachen werden. Dann hätten wir ein Datenvolumen von 44 Zettabyte. Die Datenmenge stieg in den letzten Jahren enorm, sodass wir in Zukunft weiterhin mit einer unvorstellbar großen Datenmenge rechnen müssen, die stetig wächst.

Doch woher kommen die Unmengen an Daten? Vor allem die zunehmende maschinelle Erzeugung von Daten hat wesentlich dazu beigetragen. Das sind, um ein paar Beispiele zu nennen, Protokolle, Logdateien, oder Daten der Finanz-Transaktionen, Börsendaten. Auch Daten für die Wissenschaft, z.B. die in der Geologie, Genetik, Klimaforschung und Kernphysik, wachsen stetig in großen Mengen an. Zusätzlich gibt es eine Vielzahl von Sensoren, die automatisch Daten erfassen und in der Datenmenge eine Rolle spielen. [8] Die Menge der großen Daten wird allgemein als Big Data bezeichnet. Jedoch unterliegt das Schlagwort Big Data schon seit längerem einem stetigem Wandel, sodass der Begriff verschiedene Betrachtungsdimensionen zulässt:

Big Data bezeichnet die Menge der Daten an sich. Diese Anzahl der Daten ist dabei so groß, dass diese sich nicht mehr mit herkömmlicher Hardware, Software und Datenbanken sammeln ließe.

Dabei ist nochmal zu unterscheiden, dass manche Definitionen bei Big Data nur die unstrukturierten Daten meinen. Das sind Daten, die nicht analysiert, kategorisiert oder verarbeitet wurden.
Andere bezeichnen Big Data als die Menge der unstruktierten sowie strukturierte Daten.

Big Data bezeichnet das gezielte Sammeln, Kategorisieren und Verarbeiten einer riesigen Datenmenge.
Big Data bezeichnet die Analyse und Nutzung der großen Datenmenge.

Je nachdem wer von Big Data spricht, meint somit einen bestimmten Bereich, der mit einer großen Datenmenge zusammenhängt. Wenn beispielsweise Firmen von Big Data reden, dann meinen Sie oft bestimmte Technologien, die den Umgang mit großen Datenmengen ermöglichen. Ein Begriff, der damit einhergeht, ist Hadoop. Dies ist zum Beispiel eine Technologie für skalierbare und verteilt arbeitende Software.

Ich möchte dies gerne an einem praktischem Beispiel erklären: Eine Firma betreut einen eigenen Mailserver, der nun bereits seit ein paar Jahren läuft. Als dieser eingerichtet wurde, hatte man diesem Server großzügigen Speicherplatz eingeräumt. Mit dem steigendem E-Mail-Verkehr kommt dieser Mailserver an seine Grenzen. Der Speicherplatz ist mit Logdatein und einer riesigen Datenbank übervoll. Hinzu kommt, dass der Zwischenspeicher für die Kopie der Datenbank nicht mehr ausreicht. In diesem Fall ist es ratsam, wenn der Mailserver mit einer skalierbaren und verteilt arbeitenden Software arbeitet. Man richtet somit weitere Server ein, die zusammenarbeiten und sich die Datenbank sowie die Last teilen. Dies ist ein kleines, aber typisches Beispiel, wie selbst kleine Firmen mit Big Data umgehen müssen.

Neben der Problemorientierung gibt es auch den Ansatz, dass eine Firma einen größeren Umsatz durch die Analyse und Auswertung der bislang brachliegenden und ungenutzten Daten generieren kann. Vor allem im B2B (Business-to-Business) Bereich macht z.B. Intel mit dieser Idee Werbung.

Werbevideo von Intel. Januar 2012 [I]

In der Tat kann die Verknüpfung einzelner Informationen ein vielversprechendes Geschäftsmodell sein. Indem man automatisiert Muster und Zusammenhänge in Daten sucht, können zum Beispiel Kaufprognosen eines Kunden erstellt werden. Diese werden verwendet, um dem Nutzer entsprechende Güter zum Kauf anzubieten. Auch werden durch Echtzeitauswertung der Kaufdaten von Millionen anderer Kunden weitere Produkte angeboten die oftmals zusammen gekauft werden. Solche Methoden führen ganz praktisch zur Steigerung des Umsatzes.

Ein weiteres Beispiel für die Auswertung und Nutzung liefert Google. Täglich geben Millionen Menschen Suchanfragen bei Google ein. Die Suchmaschine macht sich das zunutze und analysiert alle Anfragen, aus denen sich vermuten lässt, dass die suchende Person an Grippe erkrankt ist. Daraus kann Google auf regionaler Ebene eine Grippewelle frühzeitig erkennen und stellt diese den Nutzern sowie Ärzten usw. kostenfrei zur Verfügung.

Oben: "Flutrends" von Google erklärt. [J]
Unten: Beispiel für Echtzeitanalyse (bis zum 22.03.15) der Grippeerkrankten in Baden-Württemberg. [K]

Ein weiteres Beispiel kennen wir aus der Autonavigation. Navigationssysteme wie Waze, TomTom, Google Maps oder Apple Maps bieten eine Echtzeitanalyse des Verkehrsflusses, sodass Hindernisse umfahren und der schnellste Weg trotz Stau gefahren werden kann. Das funktioniert, indem jedes einzelne Navigationssystem nicht nur als Empfänger der Daten, sondern auch als Sender fungiert und die eigene Bewegungsgeschwindigkeit an das Unternehmen sendet und somit Teil der Big Data Analyse wird.

Aktuelle Lage und Herausforderungen

Die große Menge an Daten kann auf zwei verschiedene Weisen bewältigt werden: Üblicherweise landen die meisten Daten in den Servern der großen Unternehmen, wo auch alle aufwendigen Berechnungen stattfinden, um schwache Endgeräte zu entlasten (bei Smartphones die Hardware sowie die Akkuleistung). Doch es gibt auch eine gegenteilige Bewegung: Dort wo selbst Supercomputer an ihre Grenzen kommen, will man sich die Rechenleistung von Millionen Nutzern zunutze machen. Berechnungen werden somit dezentral an alle einzelnen Endgeräte ausgelagert, die jeweils einen Bruchteil der notwendigen Arbeit übernehmen.

Die Berechnung des Währungssystems Bitcoins, das sogenannte Mining, zählt beispielsweise dazu. Auch die Auswertung von wissenschaftlichen Daten findet teilweise an vielen heimischen PCs statt. Ein solches Projekt ist z.B. theSkynet. Als im Jahr 2013 in Australien die Antennenstation Askap online ging, werden seitdem täglich so viele Messdaten aus dem All gesammelt, dass die weltweite Internetgemeinschaft um Mithilfe gebeten wurde, die Daten auszuwerten. Jeden Tag produziert diese Station 27 Terabyte an neuen Daten, bei denen selbst die Top 10 der weltweiten Supercomputer 15 Jahre lang beschäftigt wären. Durch die Rechenleistung vieler kleiner Computer auf der ganzen Welt können selbst solche Datenmengen bewältigt werden. Um an solchen Projekten teilzunehmen, muss in der Regel nur ein spezielles Programm auf dem heimischen PC installiert werden, welches die überflüssigen Ressourcen der Rechenleistung für Berechnungen im Hintergrund übernimmt.

Werbevideo zu theSkynet [L]

Mit der Frage, wo die Daten hinfließen, gespeichert und verarbeitet werden, kommt es zu einer der größten Fragestellungen in Bezug auf Big Data: Wem gehören die Daten?

Hier liegt eine etwas komplizierte Rechtslage vor. Zum einem ist es nicht international geregelt, sodass Gesetze in Deutschland nicht automatisch für Unternehmen aus dem Ausland gelten. Weiterhin gibt es zwar in Deutschland angeblich klare Linien, die jedoch durch technische Möglichkeiten aufgeweicht werden. Zum Beispiel dürfen anonymisierte und nicht personenbezogene Daten ohne Einwilligung der Nutzer erhoben und verarbeitet werden. Nur bei Anschrift, Email-Adresse usw., also den personenbezognen Daten, wird eine Einwilligung der Betroffenen benötigt wie es die Vorschriften des Bundesdatenschutzgesetzes (BDSG) vorschreiben.

Problematisch wird hierbei, dass selbst aus anonymisierten Daten inzwischen Rückschlüsse auf die Person gezogen werden können, sodass man inzwischen davon ausgehen kann, dass es nur eine Frage der Technik ist, um aus anonymisierten Daten wieder personenspezifische Daten zu erstellen. Beispielsweise werden in der Regel Cookies eingesetzt, um Benutzer zu identifizieren. Durch die Medien sind bereits viele Menschen diesbezüglich sensibilisiert und blocken teilweise solche Cookies, da sie lieber anonym im Internet unterwegs sein möchten.

Dass dies im Zweifelsfall keine Anonymität gewährt, zeigt das Projekt "panopticlick". Denn aus technischen Daten wie der Bildschirmauflösung, installierter Plug-ins oder Add-ons und deren Versionsnummer, Zeitzone, Browsereinstellungen und installierte Schriftarten lassen sich "Fingerabdrücke" erstellen, die einmalig sind und somit jeden Nutzer im Internet eindeutig identifizieren. Wer dies selbst einmal ausprobieren möchte, hat hier die Möglichkeit dazu. All diese gesammelten Daten sind an sich unverfänglich und böten keinen Anlass zur Sorge, wenn man durch die Auswertung nicht personenbezogene Daten generieren könnte.

Ein weiteres Beispiel ist die Auswertung von Bewegungsprofilen. Die Universitäten MIT, Harvard u.a. haben in Zusammenarbeit eine mathematische Methode entwickelt, woraus sich ein individuelles Bewegungsmuster herausrechnen lässt, welches angeblich sogar ortsunabhängig funktioniert und nur wenige Bewegungsdaten erfordert, um eine Person zu identifizieren. [9] Besonders brisant ist diese Entdeckung deshalb, weil dadurch jeder Mensch, der bereits einmal eine Datenspur hinterlassen hat, sein Leben lang immer wieder auffindbar sein soll. Dabei werden noch nicht einmal GPS-Daten benötigt, die an Unternehmen geleitet werden. Es reicht das einfache Einloggen der Mobiltelefone in die Funktürme der Umgebung, sodass selbst alte Handys betroffen sind, die nicht zu den Smartphones zählen.

Positiv gesehen lässt sich diese neue Methode in der Bekämpfung von Verbrechen anwenden. Da z.B. Kriminelle meist mit sogenannten Wegwerfhandys unterwegs sind, muss nur ein vergleichbares Bewegungsmuster gesucht werden, welches sich einem registrierten Handy zuordnen lässt. Die Studie geht sogar so weit zu behaupten, dass es Bewegungsmuster gibt, die typisch für Kriminelle seien. Ob damit sogar Verbrechen im Voraus verhindert werden können, klingt für uns aktuell sehr unglaubwürdig und eher nach Science-Fiction Filme wie Minority Report. Allerdings ist es im Ansatz bereits Realität in Deutschland, USA und anderen Ländern.

Dabei setzt die Polizei Analyse-Software ein, die mit tausenden Informationen vergangener Delikte gefüttert wird, um daraus eine Vorhersage für zukünftige Verbrechen zu tätigen. Das ganze nennt sich Predictive Policing (vorausschauende Polizeiarbeit), woraus sich bereits mehrere Programme entwickelt haben. In den USA schickt bereits seit 2011 eine Software namens PredPol die Polizei in Santa Cruz an die zukünftigen Tatorte. Mit Erfolg: Einbrüche und Autodiebstähle sind signifikant gesunken und Festnahmen gestiegen. [10] Auch in Deutschland werden bereits solche Programme eingesetzt, nachdem sie sehr erfolgreich in Zürich getestet wurden. Hier ist es die Software precops, die seit Oktober 2014 in Nürnberg, Erlangen, Fürth und München zu Testzwecken läuft. [11]

Fernsehbeitrag zu precops vom Bayerisches Fernsehen [M]

In vielen Büchern und Filmen (wie das bereits erwähnte Beispiel Minority Report) gibt es bereits extreme Beispiele eines totalen Überwachungsstaates. Die Vorstellung einer allwissenden Behörde, welche riesige Datenmengen sammelt und durchforstet, finden wir in der Regel beängstigend. Somit bleibt bei aller Euphorie, was mit der Verknüpfung und Analyse tausender Datensätze möglich ist, auch immer ein großes Risiko, wo sich die Bevölkerung bedroht fühlt. Auch hier haben wir ähnliche Herausforderungen, wir ich bereits im Teil zum Internet der Dinge erläutert habe. Die Sicherheit, die uns Big Data geben kann, gewinnen wir nur, indem wir große Teile unserer Freiheit aufgeben.

Fazit

Big Data bietet enorme Chancen. In manchen Bereichen haben die Menschen im allgemeinen einen offensichtlichen Nutzen, wie in der Vorhersage von Grippewellen. Manch andere Analysen sind eher mit zweifelhaftem Nutzen verbunden, wie die gezielte Steuerung unseres Einkaufverhaltens. Big Data ist jedenfalls nicht mehr aus dem Internet wegzudenken, und wir werden in Zukunft bestimmt noch einige neue Fortschritte in dem Bereich sehen.

Folgende Fragen werden uns dabei weiter begleiten: Wem gehören die Daten? Wo dürfen sie nur gespeichert werden (z.B. nur im Land wo sie auch erhoben wurden)? Wie lange darf ich die Daten verwenden? Darf ich alle Daten verknüpfen um daraus Wissen zu generieren?

All diese Fragen müssen immer wieder in unserer Gesellschaft debattiert werden und durch unseren Staat reguliert werden. Dabei ist die staatliche Instanz nicht ganz neutral in der Bewertung zu Big Data, da sie selbst z.B. innerhalb der Verbrechensbekämpfung profitieren könnte (z.B. mit dem Gesetzesentwurf zur Vorratsdatenspeicherung), anderseits die Datensammlung und -verwertung vieler Großunternehmen wie Google und Facebook unterbinden wollen. Inwieweit dabei eine gesunde Lösung zustande kommt, die dem Bürger Freiheit, den Firmen wirtschaftliche Entwicklung und dem Staat Kontrolle zur Wahrung der Sicherheit bietet, wird die Zukunft zeigen. Welche Regulierungen es auch immer für Unternehmen in Deutschland bzw. der EU geben wird, sollte man sich dennoch vor Augen halten, dass diese Gesetze keine internationalen Abkommen sind und auch nicht vor Missbrauch der Daten schützen.

Was ist das nächste große Ding?

Was sagen Statistiken dazu?

Nachdem ich versucht habe, alle Begriffe zu klären und aufzuzeigen wie die aktuelle Lage dazu jeweils ist, möchte ich auf die Klärung zurückkommen, was wohl das nächste große Ding sein wird. Ein guter Indikator dafür ist die Suche in Google. Wie viele Menschen etwas suchen, lässt sich zum Beispiel bei Google Trends abrufen. Dies ist ein guter Maßstab dafür, was die Menschen zur Zeit bewegt. Man könnte daraus ableiten, wie das Internet gesehen wird und es sich verändert hat. Das größte Gegenargument, dass man gegen die Verwendung dieser Methode vorbringen könnte, wäre, dass die Menschen nur das suchen können, was sie auch kennen (auch wenn die Wortbedeutung nicht bekannt ist). Doch schauen wir uns einmal die Suchhistorie an, wie oft eines der Wörter gesucht wurde:

Suchbegriffstatistik von Google [N]

Hier kann man deutlich erkennen, dass semantisches Web in der Vergangenheit eine sehr große Bedeutung hatte, die sich allerdings mit den Jahren immer stärker abschwächte. Web 3.0 kam im Jahr 2007 etwas stärker in Mode und verläuft danach parallel mit dem Begriff semantisches Web wieder weiter nach unten. Eine besondere Popularität bekam der Begriff Internet of Things ab dem Jahr 2013/2014. Das Interesse der Menschen wurde mit Sicherheit auch durch großflächige Werbung gesteigert, bei der verschiedene Firmen mit dem Begriff für ihr Unternehmen warben:

Werbevideo von Cisco. Januar 2014 [O]

Dem aufmerksamen Leser wird nicht entgangen sein, dass die vorherige Suchstatistik nicht ganz vollständig war. Big Data habe ich übersichtshalber unterschlagen, da dieser Begriff in der Suchstatistik dermaßen heraussticht, dass die anderen Begriffe nicht mehr sichtbar waren. In der folgenden Statistik ist Big Data mit enthalten. Bereits 2012 wurde der Begriff deutlich häufiger gesucht als alle anderen. Seitdem steigt die Suchrate von Jahr zu Jahr bis heute enorm an.

Suchbegriffstatistik von Google [P]

Die Menge an Suchanfragen ist jedoch nicht das einzige Mittel, wie man die Popularität eines Begriff herausfinden kann. Neben den Nutzern von Google, die nach Wörtern suchen, gibt es auch die Autoren, die Inhalte generieren. Das sind Blogger, Journalisten oder andere Webseitenbetreiber, die über bestimmte Begriffe etwas schreiben. Auch wenn nicht alle Webseiten des ganzen Internets erfasst sind (siehe Deep Web oder die robots.txt-Beschränkungen), lässt sich dennoch daraus eine Tendenz ablesen.

Gefundene Suchergebnisse von Google und Bing
	Google	Bing
semantic web	15.500.000	2.190.000
web 3.0	131.000.000	22.900.000
internet of things	782.000.000	44.400.000
big data	751.000.000	19.600.000

Google durchsucht im Vergleich deutlich mehr Webseiten als Bing und kommt somit durchschnittlich auf mehr Suchergebnisse. Mit großem Abstand tauchen die Begriffe Internet of Things und Big Data auf mehr Internetseiten auf als die beiden restlichen Begriffe. Dabei ist insgesamt Internet of Things nochmal etwas populärer, was sich v.a. in den Suchergebnissen von Bing niederschlägt.

Wie bereits angesprochen, gibt es im Internet Bereiche, die Google und Bing bislang nicht spezifisch erfassen, woraus sich sogenannte Deep Web Suchmaschinen entwickelten, die zum Beispiel besonders nach wissenschaftlichen Berichten und Veröffentlichungen suchen. Gerade im wissenschaftlichen Bereich wäre es interessant zu schauen, wie verbreitet manche Begriffe sind und wie viel über etwas geschrieben wurde. Für die folgende Tabelle muss man wissen, wie die beiden Suchmaschinen funktionieren und welche Ergebnisse sie liefern. Denn bei World Wide Science wird nur aufgezählt, wie viele wissenschaftliche Paper mit dem Begriff veröffentlicht wurden und bei Science Research werden zusätzlich alle Berichte und Webseiten von Technologie-Firmen mitgezählt.

Gefundene Suchergebnisse von den Deep Web Suchmaschinen
	World Wide Science	Science Research
semantic web	3.270	4.111
web 3.0	3.150	6.147
internet of things	2.962	5.902
big data	4.993	2.248.409

Diese Tabelle spiegelt im Gegensatz zu den Suchergebnissen von Google und Bing ein ganz anderes Ergebnis wider. Big Data ist als Begriff in der Wissenschaft deutlich beliebter und Internet of Things kommt zumindest unter allen gefundenen Veröffentlichungen am wenigsten vor.

Was können wir nun aus den ganzen Statistiken heraus erkennen? Ich denke, es kommt ganz auf die Betrachtungsweise an. Je nachdem wen man fragt, bekommt man eine unterschiedliche Aussage. Somit lohnt es sich, danach zu schauen, welche Meinung am stärksten richtungsweisend ist.

Wer bestimmt die Richtung?

Meiner Einschätzung nach wird das Internet der Zukunft primär von zwei Akteurs-Gruppen bestimmt:

Kunden/Benutzer
Firmen

die hauptsächlich mit Produkten des Internets Geld verdienen
die Produkte für das Internet of Things verkaufen wollen

Ich schließe hier bewusst zum einen den Staat (oder auch die EU) aus, da dieser nur Regulierungsmaßnahmen vornimmt. Weiterhin glaube ich nicht, dass die Wissenschaft erheblich richtungsweisend für die Entwicklung des Internets sein wird, obwohl ich große Anerkennung gegenüber aller Errungenschaften und Forschungen habe (wie z.B. die des Frauenhofer Instituts). Dennoch bin ich der Meinung, dass viele Entwicklungen und auch Implementierungen durch die großen Firmen selber geschehen (oder auch durch kleine Firmen und Startups, die aber bei Erfolg und Wichtigkeit von großen aufgekauft werden). Als dritter Akteur, der in der Liste fehlen könnte, wären die Medien (Journalismus und Werbung) zu nennen. Diese haben zwar eine nicht unerhebliche Wirkung auf das Verhalten der Kunden, jedoch würde ich Medien nur als sekundären Akteur einstufen, da diese zwar direkt auf den Konsumenten einwirken, jedoch nicht primär das Geschehen des Internets bestimmen.

Die Kunden bestimmen hauptsächlich über den Konsum, wie die Zukunft des Internets aussieht. Ihre Kaufkraft bestimmt, wo sich für Firmen Entwicklungen und Forschung lohnen. Ob mit dem Internet verbundene Haushaltsgeräte mehr und mehr in unserer Gesellschaft Einzug halten werden, wird ganz allein dadurch bestimmt, ob die Menschen das wollen und auch bereit sind, dafür Geld auszugeben. Aktuell besteht noch eine gewisse Euphorie und Interesse. Ob dies jedoch anhalten wird, kann man aktuell noch nicht voraussagen.

In Bezug auf Big Data oder auch das semantische Web haben die Kunden nur sehr indirekt Einfluss, da diese Prozesse so weit im Hintergrund laufen, dass die meisten Kunden die Tragweite der Veränderungen nicht realisieren. Einzig die Angst vor einem "zu schlauen Internet" könnte die Entwicklung auf Ebene der Politik stoppen oder in ihrer Tragweite ausbremsen.

Firmen, die mit Produkten des Internet Geld verdienen (wie z.B. Google, Facebook, usw.), sind darauf angewiesen, dass ihre Technologie sich verbessert und noch besser den Bedürfnissen der Kunden entspricht. Vor allem Big Data ist eine Entwicklung, die fast allen Firmen zugute kommt. Von einem semantisches Web profitieren in großen Teilen Firmen wie Google, Microsoft und Apple, welche gesammelte Informationen dem Kunden gerne in den Suchergebnissen oder Sprachassistenten übermitteln wollen.

Firmen, die jetzt neu in das Blickfeld geraten, sind diese, die zur Zeit sehr stark in intelligente Geräte investieren: Philips wäre ein Beispiel. Bisher waren diese Firmen für das Internet nicht sonderlich wichtig, wollen sich nun aber in dem Trend des Internet der Dinge profilieren und versuchen, smarte Geräte mit ihrem System zu verkaufen. Die Firmen, die technische Alltagsgegenstände produzieren, könnten eine entscheidende Rolle spielen, ob sich ein Internet of Things bei uns im Alltag etablieren wird.

Fazit

Ich sehe zwei parallele Entwicklungen: Zum einem ein allgemein euphorischer Blick auf das Internet der Dinge, wobei die Menschen mit ihrer Kaufkraft selbst darüber entscheiden werden, ob diese Produkte unsere Leben in Zukunft nachhaltig verändern werden oder nicht.

Die anderen Fortschritte bestimmen die Kunden nur indirekt, da sie nicht bewusst für diese Dienste zahlen werden. Big Data und auch das semantische Web sind Entwicklungen, um die Kunden noch stärker an bestehende Unternehmen zu binden. Steckt das semantische Web gefühlt noch eher am Anfang, beeinflusst uns vor allem Big Data bereits jetzt schon sehr stark.

Quellenverzeichnis

[1] CIO. 12.2003: Fast Forward 2010. The Fate of IT, 2004. The Year of Web Services - http://books.google.de/books?id=1QwAAAAAMBAJ&pg=PA90#v=onepage&q&f=false [Zugriff: 01.01.15]

[2] Mark Weiser. 09.1991: The Computer for the 21st Century -http://www.ubiq.com/hypertext/weiser/SciAmDraft3.html [Zugriff: 01.01.15]
[3] RFID Journal, Kevin Ashton. 07.2009: That 'Internet of Things' Thing. - http://www.rfidjournal.com/articles/view?4986 [Zugriff: 01.01.15]
[4] Elektronik Praxis. 03.2014: Verbände fordern offene Standards für das intelligente Haus - www.elektronikpraxis.vogel.de/kommunikation/articles/437336/ [Zugriff: 03.03.15]
[5] t3n. 09.2011: The Web Index: Wie viele Seiten gibt es eigentlich im Netz? - http://t3n.de/news/web-index-viele-seiten-gibt-eigentlich-netz-330311/ [Zugriff: 03.01.15]
[6] http://www.scientificamerican.com/article/the-semantic-web/ [Zugriff: 03.01.15]
[7] EMC, IDC. 05.2014: The digital universe of oppertunities - http://www.emc.com/collateral/analyst-reports/idc-digital-universe-2014.pdf [Zugriff: 01.03.15]
[8] Wikipedia. 03.2015: Big Data - http://de.wikipedia.org/wiki/Big_Data [Zugriff: 01.03.15]