Analityka Z Social MediaSocial Media

Prognozy





Prognozy są bardzo trudne, szczególnie jeśli dotyczą przyszłości.
-NILS BOHR

Przewidując przyszłość

Jeśli istnieje jeden wspólny mianownik w wielu zastosowaniach mediów społecznościowych i analizy danych, które badaliśmy, zyskuje zdolność przewidywania przyszłości: kto kupi, kto wygra, a może nawet kto się zakocha nas. Udane przewidywania, widziane oczami nauki, a nie szumem, sprawiają, że ciężka praca z analizą danych jest opłacalna. Dlatego dobrze jest, abyśmy zamknęli tę część , aby zobaczyć, jak dane są wykorzystywane do prognozowania w kilku kluczowych obszarach, od wyborów po giełdę. Bez względu na to, którym działem zajmujesz się w Twojej organizacji, czy to marketingiem, public relations, sprzedażą, wywiadem biznesowym czy jakąkolwiek inną funkcją, dane będą odgrywać dużą rolę w przyszłości. Dane zmienią sposób prowadzenia działalności. Spójrzmy na kilka przykładów, które omówiliśmy do tej pory:

•  Jeśli zajmujesz się marketingiem, możesz przewidywać, czego ludzie chcą. Lub możesz przewidywać prawdopodobieństwo, że ktoś zareaguje na Twój marketing, jak na przykład cel sprzedawcy detalicznego wiedzący, kiedy ktoś jest w ciąży. Lub jak w przypadku semasio, przewidywanie, kiedy ktoś umieści reklamę w celu zwiększenia kierowania.

•  Jeśli pracujesz w public relations, możesz mieć nadzieję przewidzieć kolejną katastrofę PR, jak omówiono wcześniej. Możesz też mieć nadzieję przewidzieć, jak niebezpieczna jest dana sytuacja, na przykład gdy rasistowska mistyfikacja została opublikowana w Internecie na temat McDonalda. Możesz przewidzieć, z którym dziennikarzem najlepiej porozmawiać, aby uzyskać jak największy wpływ. Lub możesz przewidzieć, kiedy sytuacja osiągnie punkt krytyczny, jak w przypadku kampanii Women2Drive w Arabii Saudyjskiej

•  Jeśli prowadzisz sprzedaż, z pewnością przewidujesz, co zaoferować klientom lub potencjalnym klientom, aby skłonić ich do kolejnego zakupu, np. Netflix lub rekomendacje produktów Amazon. Lub możesz przewidzieć, jaka byłaby najlepsza cena, aby zachęcić ludzi do zakupu Twojego produktu. Co te wszystkie punkty mają ze sobą wspólnego? Są to prognozy. Jak zobaczymy , większość pytań można sklasyfikować zarówno w testach porównawczych, jak i prognozach. 70% menedżerów Clevel, zapytanych o najważniejsze pytanie, jakie należy zadać firmie, stwierdziło, że powinny to być pytania prognostyczne. Zatem przewidywanie jest supermocarstwem, które każdy chce mieć. I przez większość czasu prognozy te będą oparte na danych dużych lub małych, ustrukturyzowanych lub nieustrukturyzowanych. A gdy znajdziesz umiejętność przewidywania pewnych rzeczy, możesz zastanowić się, czy tę zdolność można wytworzyć, tj. Czy możemy stworzyć z niej produkt. Takie produkty informacyjne mogą stać się ważnymi narzędziami prognostycznymi na przyszłość.

Produkty danych i zamieszanie związane z crowdsourcingiem

Big data to szum. Jednym z powodów tego szumu jest to, że dziś bardziej niż kiedykolwiek przedtem mamy mnóstwo publicznie dostępnych danych - danych z mediów społecznościowych. Tak, dane w mediach społecznościowych to duże zbiory danych, ale nie wszystkie analizy w mediach społecznościowych będą analizami w oparciu o duże zbiory danych. Często można znaleźć odniesienia do produktów danych, ale autor ma na myśli produkt skupiony wokół mądrości crowdsourcowanej, na przykład idei crowdsourcowanej. Tego rodzaju podejście nie jest produktem skoncentrowanym na danych, ale raczej innowacją opartą na mediach społecznościowych. Innowacja jest z definicji chaotycznym procesem, na początku którego zwykle umieszczany jest zbiór pomysłów. Zatem wszelkie prace innowacyjne zaczynają się od jakiejś formy "burzy mózgów". Media społecznościowe działają bardzo dobrze, jeśli chodzi o włączenie dużej liczby osób w zbieranie pomysłów. Ale jest to tylko dobry kanał do dotarcia do większego tłumu w celu stworzenia idei crowdsourcowej. W zależności od liczby uczestniczących osób idee crowdsourcingowe mogą tworzyć duże dane. Ale po zebraniu tych danych nie powiesz nic o wykonalności, kosztach ani innych czynnikach. To tylko narzędzie, aby dotrzeć do wielu osób (transmisja) i zebrać pomysły. Prawdziwa praca zaczyna się dopiero po zebraniu danych; narzędzia będą próbowały automatycznie zredukować ten stos pomysłów do kilku segmentów lub podstawowych pomysłów, które są łatwiejsze do analizy i dyskusji - zasadniczo tworząc małe dane z dużych danych. Małe dane mogą być tak małe, jak krótka lista pomysłów. Jednak żaden komputer nie wygeneruje nowych kreatywnych pomysłów i nie będzie działał przeciwko nim. Tak więc ostateczna decyzja typu go / no-go dotycząca tego, czy wykorzystać te pomysły z crowdsourcingu, nadal zależy od człowieka. Co więcej, w większości przypadków małe dane są mniejsze niż to, co zaczęliśmy, ale nadal wymaga dużej oceny przez osobę.

Jednym z najbardziej znanych tego przykładów jest społeczność Dell Idea Storm, która umożliwia wszystkim uczestnictwo i przesyłanie pomysłów. Zamiast korzystać z otwartej platformy, takiej jak Twitter czy Facebook, Dell zbudował własną platformę, aby nie ujawniać zbyt wielu swoich pomysłów zewnętrznym konkurentom, którzy chcieliby je zeskrobać. Kolejny przykład został niedawno opublikowany przez McKinsey na temat General Electric, który wykorzystał Twittera, aby uzyskać publiczne pomysły na bardziej "społeczny" samolot za pośrednictwem konta na Twitterze @ ecomagination. W ciągu kilku godzin baza ponad 90 000 obserwujących dostarczyła tysiące pomysłów, od nowych podejść produkcyjnych do hashtagów specyficznych dla lotów, a wiele z tych pomysłów znalazło zastosowanie w procesie planowania strategicznego GE. Podejścia te są bardzo skuteczne w zbieraniu pomysłów. Istnieje jednak kilka zagrożeń:

Ryzyko PR

Ludzie mogą korzystać z tej platformy, aby zacząć narzekać na ciebie. Aby temu przeciwdziałać, musisz mieć odpowiednie kanały, aby wychodzić z niezadowolonych klientów lub trolli.

Ryzyko marketingowe

Media społecznościowe nie są samospełniającym się mechanizmem marketingowym. Dotyczy to również ideałów opartych na mediach społecznościowych. Korzystanie z mediów społecznościowych nie będzie gwarantowanym sposobem na uzyskanie doskonałych informacji, a nawet wysokiego udziału. Podobnie jak w przypadku innych kampanii marketingowych, kampania ideacyjna wymaga odpowiedniego marketingu i reklamy. Jest to szczególnie ważne, gdy ludzie są członkami społeczności Facebooka lub Twittera z różnych powodów (na przykład dlatego, że oczekują darmowych rzeczy

Będąc po niewłaściwej stronie diagramu Venna

Nie każdy, kto rozmawia w sieci społecznościowej, jest naprawdę twoim klientem. Łatwo jest wyrazić opinię na Twitterze; nie oznacza to jednak, że osoba mówiąca jest gotowa za wszystko zapłacić. Nie wpadnijmy w pułapkę, że jeden pomysł jest wart więcej niż inny pomysł, ponieważ wielu głosowało na niego lub go sugerowało. Każdy pomysł będzie nadal wymagał ręcznego sprawdzenia. Media społecznościowe to po prostu dobry sposób na zebranie tych pomysłów. Chociaż idee crowdsourcingowe są dobrym narzędziem, nie powinniśmy mylić jej z produktami danych. Produkty danych są samowystarczalne i zautomatyzowane. Nie wymagają dużej interakcji międzyludzkiej ani osądu. Są one głównie skoncentrowane na prognozach wykonanych z danych. Przewidywanie przyszłości na podstawie danych jest najsilniejszą formą czwartego "V" danych: wartości (jak zauważono we wstępie). Aby odkryć tę wartość, opanowałeś już dwa główne wyzwania:

•  Aby mieć właściwe pytania do celu biznesowego
•  Aby mieć dane lub dane, które korelują z wynikiem pytania

Prawie wszystkie inne aspekty analityki predykcyjnej opierają się na technologii, która nie jest wcale trywialna, ale którą często można łatwiej rozwiązać niż te dwa pytania. W ich prawidłowym rozwiązywaniu znajdujemy wartość, której szukamy w analizie dużych zbiorów danych. Analityka predykcyjna jest tak modnym wyrażeniem, jak duże zbiory danych. Od połowy 2011 r. Ludzie na całym świecie zaczęli szukać "prognoz". Powstaje bańka mydlana. Jeszcze lepszym znakiem nadchodzącej bańki jest to, że Hollywood kręci film o tym. W przypadku analizy predykcyjnej Moneyball jest doskonałym przykładem: ta książka z 2003 roku autorstwa Michaela Lewisa pokazała, w jaki sposób niewielki rynek drużyny baseballowej Major League wykorzystał wyrafinowane modele analityczne do przewidzenia talentu baseballowego i obsadzenia konkurencyjnego zespołu pomimo niewielkiej listy płac, przewidując dokładnie przyszły talent. Jego analityczne podejście zostało z powodzeniem stosowane przez inne zespoły, które wygrały mistrzostwa świata, trwale zmieniając krajobraz rywalizacji w baseballu. Mimo tych wszystkich szumów cel przewidywania w biznesie nie jest niczym nowym: od dziesięcioleci handlowcy giełdowi próbują przewidzieć rynek, firmy ubezpieczeniowe próbują zidentyfikować osoby o niższym ryzyku, a wiele innych próbowało wymyślić system do przewidywania korzyści dla ich przedsiębiorstwa. Rasa ludzka zawsze chciała mieć moce predykcyjne, więc każdy, od wróżbitów po matematyków statystycznych, próbował zaspokoić tę potrzebę. W kolejnych sekcjach przyjrzymy się czterem obszarom, aby pokazać, jak działają produkty danych (lub nie), wszystkie oparte na prognozach. Ale chociaż łatwo zrozumieć, że przewidywanie przyszłości może mieć sens z biznesowego punktu widzenia, trudniej jest je uruchomić:

Prognozy w branży edukacyjnej
Jak algorytmy zmieniają to, czego się uczymy

Prognozy wyników kasowych w branży filmowej
Jak prognozy nie wykrywają nieoczekiwane

Prognozy w polityce
Dlaczego media społecznościowe są przydatne do kierowania kampaniami, ale nie pomagają w prognozowaniu

Prognozy giełdy
Jak to może działać, ale tylko wtedy, gdy nikt nie wie

Prognozowanie uczenia się

Dane zaczęły mieć wpływ, a podróż wykracza poza to, co sobie wyobrażamy. Historia analizy dużych zbiorów danych rozpoczęła się od prostego ruchu w sieci. Dane sprawiły, że nasze ludzkie zachowanie w Internecie jest bardziej widoczne. Śledziliśmy każdy ruch i każde kliknięcie. Dzięki uczeniu maszynowemu nasze następne kliknięcie stało się przewidywalne. Dzięki Web 2.0 i mediom społecznościowym nagle mieliśmy nieustrukturyzowane dane dotyczące treści oprócz tych ustrukturyzowanych danych kliknięć. Te nieustrukturyzowane dane były trudniejsze do interpretacji, ale oferowały jeszcze głębszy wgląd w nasze ludzkie zachowanie. Teraz widzieliśmy to nie tylko w naszych zachowaniach związanych z zakupami i czytaniem, ale także w sposobie interakcji z innymi. Następnie było śledzenie naszych telefonów i naszego ruchomego profilu. Nagle coraz więcej części naszego życia osobistego przechodziło w tryb online lub zaczęło być digitalizowane. Podczas gdy na początku przewidzieliśmy tylko, który baner reklamowy ma się wyświetlać, zaczęliśmy przewidywać, który przedmiot powinien studiować, aby być szczęśliwym lub odnoszącym sukcesy. Daleko idące? Nie, nie bardzo! Duże zbiory danych zaczęły mieć ogromny wpływ na proces edukacyjny. Nauka okazuje się zaskakująco dobrze nadawać się do analizy danych i zmienia oblicze edukacji policealnej. Wszystko to stało się wraz z nadejściem masowych otwartych kursów online lub MOOC. MOOC ma teraz aż 200 000 studentów. Setki asystentów nauczycieli ułatwia, tworząc świetną bazę danych możliwych pytań i odpowiedzi na tematy kursu. Ta wiedza crowdsourcingowa pomaga znaleźć błędy lub najważniejsze pytania według liczby osób czytających coś lub liczby wymian na dany temat na powiązanym forum dyskusyjnym. Dane pokazują, w jaki sposób się uczymy i pomogą nam ulepszyć nasz styl uczenia się, a ponieważ wszystko jest przechowywane, będzie łatwo dostępne dla wszystkich. To jedna z wielu rewolucji, które zobaczymy na podstawie danych. Już dziś możesz przewidzieć, czy uczestnik MOOC odniesie sukces po pierwszych kilku wykładach. Algorytm używa takich wskaźników, jak:

•  Jak często uczestnik oglądał dany film i kiedy?
•  Na które pytania odpowiedziała poprawnie, a na które popełniła błąd?
•  Czy uczestniczyła w forach dyskusyjnych?

MOOC

MOOCs oznacza "masowe otwarte kursy online". Nie są nowym pomysłem: zawsze staraliśmy się rozpowszechniać edukację wśród dużej liczby ludzi za pośrednictwem mediów. Pokolenia temu nazywaliśmy je kursami korespondencyjnymi. Dwa tysiące lat temu duchowe i społeczne wytyczne zostały uchwycone i rozpowszechnione wśród chrześcijan za pośrednictwem Biblii. A wieki wcześniej Bajki Ezopa kodyfikowały lekcje życia w łatwych do zapamiętania historiach. Czynniki, które sprawiają, że dzisiejsze MOOC radykalnie różnią się od któregokolwiek z tych narzędzi edukacyjnych, to rozmiar, zakres i interaktywność. Nie jest niczym niezwykłym, że MOOC przyciąga setki tysięcy studentów poprzez lekcje online, które mogą korzystać z bogatych multimediów, interaktywnych testów i internetowych społeczności uczniów. Termin ten został po raz pierwszy wymyślony na Uniwersytecie Manitoba w 2008 r., a do 2011 r. Uniwersytet Stanford pilotował trzy udane kursy MOOC, z których jeden przyciągnął ponad 100 000 uczestników. Ta skala zmienia krajobraz edukacyjny. Profesor, którego niedawno spotkaliśmy, który prowadził kurs kryptografii dla 180 000 studentów, powiedział: "Najbardziej przerażające jest to, że mój kurs prawdopodobnie wyeliminował około 50 profesorów uniwersyteckich z biznesu". Nic dziwnego, że wiele wiodących uniwersytetów wskoczyło na MOOC, a kolejne konsorcja i firmy komercyjne podążają tym tropem. Na przykład EdX jest niedochodowym konsorcjum obejmującym MIT, Harvard, UC Berkeley, University of Texas i Cornell, zaprojektowanym w celu zapewnienia niekomercyjnej alternatywy dla masowej nauki online. Z kolei firmy takie jak Coursera i Udacity (których założycielami są pionier Stanford MOOC Sebastian Thrun i profesor Stanford Andrew Ng) dążą do komercjalizacji narzędzi i infrastruktury do masowej nauki online. MOOC są tutaj i będą ewoluować. Ostatnio programy MOOC na kredyt oferowane były również przez wiele szkół, w tym pierwszy w 2013 r. Program studiów magisterskich oparty na MOOC za pośrednictwem Georgia Institute of Technology, we współpracy z AT&T i Udacity. Ważną częścią jest jednak to, że wszystkie interakcje studentów są cyfrowe. Za każdym razem, gdy uczeń uczy się, czyta lub wchodzi w interakcję z materiałami kursu i innymi, tworzy on szlak bogatych danych. Dane są wykorzystywane do badania interakcji uczniów i uczenia się. Dane zostaną wykorzystane do przewidzenia takich rzeczy, jak sukces ucznia. Big data weszło do naszej klasy. Na Uniwersytecie Stanowym w Arizonie zautomatyzowane narzędzia do śledzenia wyników uczniów posuwają się tak daleko, że wymagają doradztwa, a nawet zmiany głównej, jeśli studenci zbyt długo "zbaczają z tropu", jak donosi New York Times. Aby poprawić wskaźnik powodzenia studentów, uniwersyteckie trendy w kierunku wymagań wyprzedzających, które ostatecznie decydują o sukcesie: na przykład wymaganie od kierunków psychologicznych, aby najpierw zajęły się znienawidzoną statystyką, ponieważ jest to często jeden z podstawowych kroków do osiągnięcia sukcesu Głównym. Silniki zaczynają pomagać przewidywać sukces i porażkę. Po zautomatyzowaniu mogą zmieniać wymagania egzaminacyjne, aby uczniowie byli na właściwej drodze. Czy to wykształcenie i rozwój kariery w trybie autopilota? System obowiązujący na Uniwersytecie Stanowym w Arizonie jest dobrym przykładem wykorzystania danych w produkcie. Szkolnictwo wyższe to produkt, który można znacznie poprawić poprzez lepsze przewidywanie. Dane zwiększają zatem potencjał samego produktu. W tym przypadku to nie dział marketingu potrzebuje tych danych, ani public relations, sprzedaż lub obsługa klienta. Nie, produkt jako taki potrzebuje danych. Tak więc dane stały się istotną częścią produktu: produktem danych.

Słowo ostrzeżenia

W niektórych przypadkach dane mogą tworzyć prognozy. A od początku ludzkości chcieliśmy dokładnie tego: przewidzieć przyszłość. Nic więc dziwnego, że przewidywania oparte na danych ekscytują każdego z nas. Jesteśmy oszołomieni tym, że możemy szybciej prognozować grypę niż lekarze. Jesteśmy podekscytowani modelowaniem naszych zachowań zakupowych. Dziwi nas, że możemy przewidzieć przestępstwa i, miejmy nadzieję, zapobiegać im. Jednak dane nie są zbawicielem tego wszystkiego. Widziałeś wiele ostrzeżeń, aby nie przeceniać mocy nowego narzędzia, czy to w mediach społecznościowych, analizie danych czy analizie predykcyjnej. Dowiedzieliśmy się, że Google czasami uważa, że kobieta jest mężczyzną lub że roboty mogą być używane do wypaczania uczenia maszynowego (rozdział 6). Dane i analizy predykcyjne to tylko narzędzia. I podobnie jak w przypadku każdego narzędzia, należy zachować ostrożność przy korzystaniu z niego mądrze:

Unikaj złego pytania

Często związek przyczynowy i korelacja nie są łatwe do ustalenia lub niektóre czające się, zakłócająca zmienna jest ukryta w ogromnych ilościach danych. Na przykład, jeśli nawyki oglądania telewizji pokrywają się z nawykami wielu gejów, nie oznacza to, że jesteś gejem.

Unikaj niewłaściwego użycia.

Narzędzia mogą wyrządzać szkody zarówno dobrze, jak i dobrze, od ataków wymazów przez boty po ułatwianie przestępstw.

Unikaj złej technologii.

Algorytm nie jest prawdą, ale tylko jednym potencjalnym narzędziem do znalezienia prawdy. Sprawdź swoje odpowiedzi względem rzeczywistości.

Jak każde narzędzie, same duże zbiory danych są neutralne i mogą być wykorzystywane do dobra lub zła. Diabeł najczęściej tkwi w szczegółach i będziesz musiał ostrożnie pracować nad sformułowaniem pytania i opracowaniem danych.

Przewidywanie wyborów

Ludzie często pytają o prognozy podczas wyborów. Z jednej strony zaspokaja to ludzkie zainteresowanie tym, kto wygra; z drugiej strony ma to wyraźne znaczenie biznesowe. Każda zmiana władzy politycznej może mieć wpływ na kluczowe decyzje biznesowe, a rynki akcji często zmieniają się w zależności od dyskusji politycznych. Prowadzi to do pierwszego sposobu przewidywania wyników wyborów: korzystania z opinii crowdsourcingowych przez Giełdę Papierów Wartościowych. Bardziej tradycyjnym sposobem byłyby z pewnością ankiety przeprowadzane w formie papierowej lub telefonicznej. Jednak jako nowoczesne uzupełnienie tych ankiet często widzimy coraz więcej zastosowań analityki w mediach społecznościowych. Jednak, jak dowiedzieliśmy się we wcześniejszych częściach, media społecznościowe są trudne do interpretacji, ponieważ dane są często nieuporządkowane, zaszumione i bardzo trudne do odczytania. Jeśli sprawdzisz prognozy oparte na mediach społecznościowych, łatwo znajdziesz piorunujące niepowodzenia w przewidywaniu rzeczywistości. Weźmy jako przykład rasistowską prezydencką republikańską rasę główną w Iowa pomiędzy Mittem Romneyem, ewentualnym republikańskim kandydatem, a kandydatem Rickiem Santorumem na start. Wyścig był tak blisko - 29 839 głosów dla Santorum wobec 29 805 dla Romney, a wyniki z ośmiu okręgów nie zostały certyfikowane z przyczyn technicznych - że Iowa nie przyznała delegatów żadnemu kandydatowi. Prawdziwa historia polega jednak na korzystaniu z mediów społecznościowych. Jeśli opierasz swoje prognozy na wzmiankach o kandydatach na Facebooku, trzeci kandydat, lekarz i kongresman Ron Paul, powinien z łatwością wygrać ten wyścig. Na podstawie liczby wyszukiwań i odpowiednich wzmianek liczby Paula znacznie wyprzedzały jego konkurentów. To samo dotyczy miar pozytywnych nastrojów. Paul miał oddaną rzeszę wyznawców, którzy wiedzieli, jak "pracować" w mediach społecznościowych, ale nie przełożyło się to na głosy. Skąd więc takie rozłączenie między mediami społecznościowymi a wynikami? Zagadnienie to omówimy w poniższych sekcjach. Media społecznościowe nie były całkowicie pozbawione wartości predykcyjnej: Ale nawet nowo utworzony sojusz między Politico i Facebookiem, który miał dać świetny nowy wgląd w sondaże predykcyjne, ostatecznie nie powiódł się. Paul był bardzo silny i widoczny na Facebooku, jak pokazała Rachel Van Dongen w swoim poście. Jednak nie wygrał ani w wyborach w Iowa, ani w New Hampshire. To tylko kolejny przykład pokazujący, że czysta liczba wzmianek w mediach społecznościowych nie zawiera potrzebnych informacji. Chociaż jedna osoba może wywrzeć silny wpływ na media społecznościowe, wciąż ma tylko jeden głos do oddania. Zagłębianie się w treść, a także w osobę, która opublikowała wiadomości, jest trudniejsze, ponieważ mamy do czynienia ze złożonością nieuporządkowanych danych. Inną metodą crowdsourcingu byłoby przewidywanie wyniku za pomocą interfejsu API Google, który oferuje dane dotyczące najważniejszych wyszukiwanych haseł i ich liczby, np. O tym, których kandydatów częściej szukano w Internecie. Ale to nie jest właściwy wskaźnik. Chociaż wydaje się, że może istnieć korelacja, będziemy mieli trudności z przeprowadzeniem testu statystycznego w tym zakresie. Prognozy dotyczące samych mediów społecznościowych są trudne. Dlaczego? Z wielu powodów dwa najlepsze wyjaśnienia są prawdopodobnie takie, że istnieje błąd selekcji i zły błąd PR.

BIAS WYBORU

Jedną z najtrudniejszych rzeczy w mediach społecznościowych jest to, że nie każda rozmawiająca osoba jest w stanie działać. W przypadku wyborów w Iowa może się zdarzyć, że nie każdy z analizowanych artykułów na Twitterze lub Facebooku należał do osób, które mogły oddać głos. Ta rozbieżność między tym, co widzisz, a tym, co faktycznie jest kompletną grupą, jest częstym problemem. W dyskusjach takich jak usenet powszechnie wiadomo, że 90% członków społeczności online nigdy nic nie wnosi. Tylko 10% wnosi wkład, a właściwie większość działań jest wykonywana przez kilka, co stanowi zaledwie 1%. Te liczby mogły ulec zmianie, ponieważ "udostępnianie" stało się łatwiejsze i można to zrobić, klikając przycisk "Lubię to" lub "Prześlij dalej". Jednak nadal nie widzisz większości użytkowników, co może łatwo prowadzić do wypaczonych wyników, jak widzieliśmy w pierwotnych prognozach Iowa. Co więcej, nawet jeśli możesz uzyskać dane od większości użytkowników, często istnieje duża różnica między tym, co ludzie ogłaszają publicznie a prywatnie. To jest często widoczne, gdy wybrani urzędnicy państwowi mają niskie oceny zatwierdzenia - faktyczna liczba osób, które ogłaszają, że na nich głosowały, jest dość niska. Tak jest w przypadku wyników prywatnych ankiet. Możesz sobie tylko wyobrazić, że pochylenie jest jeszcze większe, jeśli spojrzysz na publiczne ogłoszenia. To, co ludzie publicznie twierdzą, że chcą robić, i to, co faktycznie robią, może się znacznie różnić.

Zły PR

Wcześniej omawialiśmy, dlaczego liczba klipów informacyjnych jest często bezużyteczną miarą. Ten pogląd jest szczególnie prawdziwy przed dużymi wyborami. Każda kampania stara się nie tylko promować swoje pomysły, ale także tworzyć zły PR dla drugiej strony. Zły PR spowodowałby więcej klipów z wiadomościami i więcej wzmianek na Facebooku, ale na pewno się nie stworzył wyższej frekwencji dla kandydata w wyborach. Możesz teraz argumentować, że to prawda, ale powinieneś spojrzeć na oceny nastrojów. Algorytmy sentymentu są bardzo trudne do zaprogramowania. Trudno byłoby przewidzieć, w jaki sposób dany raport prasowy zmieni wyborców, ponieważ algorytmy te muszą zostać przeszkolone w zakresie danych, których nie ma, takich jak to, co zrobiłby wyborca po przeczytaniu tych wiadomości. Tak więc, podobnie jak w PR, wiele klipów informacyjnych nie oznacza większej sławy. Może to oznaczać więcej problemów.

Pzewidywanie zachowania głosowania

Z powodu takich trudności media społecznościowe nie są szeroko stosowane jako prognostyczny produkt danych w kampaniach politycznych. Jak wyjaśnił główny naukowiec Rayid Ghani, z zespołu prowadzącego kampanię Obama For America, w rzeczywistości jest on używany znacznie rzadziej niż myśli większość ludzi. Jest to również wyraźny znak przecenionych możliwości społecznych głoski bezdźwięcznej. Opinie polityczne są tak różnorodne, że istnieje wiele możliwych punktów widzenia. Przewidywania mechanizmów rekomendacji będą bardziej skomplikowane; przewidywania decyzji politycznych są skomplikowane, ponieważ tak wiele różnych czynników może odgrywać pewną rolę. Sytuacja staje się bardziej złożona, jeśli czynniki takie jak warunki pogodowe lub nagła zmiana w postrzeganiu społeczeństwa mają silny wpływ na wyniki. Na przykład wpływ huraganu Sandy przed reelekcją prezydenta Obamy był niczym, czego nikt nie mógł przewidzieć. Żadna ankieta, bez względu na to, jak dobrze zrobiona, byłaby przewidywalna z góry. Ale do czego można wykorzystać media społecznościowe, jeśli nie przewidują wyników? Media społecznościowe mogą być niezwykle pomocne w koncentrowaniu wysiłków zespołów kampanii. Bardzo często w kampaniach politycznych prawdziwym wąskim gardłem są ludzie w terenie: zespoły wolontariuszy, którzy chodzą od drzwi do drzwi, aby omawiać wybory z wyborcami i motywować ich do wspierania jednego obozu. Zwycięskie pytanie w każdej kampanii brzmi: gdzie najlepiej rozmieścić tych ochotników. Jeśli wyślesz ich do sąsiedztwa, w którym większość ludzi jest już przekonana, że zagłosuje na twojego kandydata, nie zmieni to proporcji wyborców, którzy będą głosować na twój sposób. Jeśli wolontariusze zostaną wysłani do przeciwległego sąsiedztwa, gdzie nikt nie będzie głosował na wybranego kandydata, bez względu na to, co powie wyborcom, to też nie pomoże. Wręcz przeciwnie, może nawet osłabić podekscytowanie wolontariuszy i może prowadzić do rezygnacji. Wolontariusze muszą być rozmieszczeni, aby kontaktować się z wyborcami. Ale pytanie brzmi: jak znaleźć tych wyborców. Podobnie jak w naszej dyskusji w której zasugerowaliśmy, że korzystasz z mediów społecznościowych, aby znaleźć potencjalne nowe możliwości sprzedaży, możesz także używać mediów społecznościowych, aby znaleźć niezdecydowanych wyborców. Czy to najskuteczniejszy sposób? Tak, ponieważ media społecznościowe są nieuporządkowane, prawdopodobnie najlepiej będzie zacząć od spisów powszechnych tradycyjnych zachowań wyborczych. Jednak media społecznościowe mogą dać dodatkowy wgląd w to, który obszar lub do której osoby warto się zwrócić, ponieważ nadal nie jest zdecydowana. Engage, agencja cyfrowa w Waszyngtonie, przeprowadziła badanie, które pokazało, jak różnorodne były obozy wyborcze w wyborach w USA w 2012 r. Pod względem mediów społecznościowych: na przykład użytkownicy Google mieli tendencję do zbliżania się do prezydenta Obamy, podczas gdy użytkownicy e-commerce eBay, jako grupa, bardziej na korzyść republikańskiego pretendenta. Wyposażony w tego rodzaju informacje, możesz zacząć zwracać się do wyborców przynajmniej w tych różnych kanałach. Wybory powszechne w 2012 r. To dopiero drugie duże wybory wspierane przez nowe media; wciąż jest wiele do nauczenia się na temat tego rodzaju analiz w polityce.

Prognozowanie biur biurowych

Jak wspomniano wcześniej, szum mediów społecznościowych w ramach analizy predykcyjnej pojawia się, gdy nagle mamy dane o ludzkich myślach, nadziejach, spostrzeżeniach i emocjach. Do tej pory analityka predykcyjna była używana do znacznie bardziej namacalnych, ilościowych rzeczy, takich jak przewidywanie prawdopodobieństwa wypadku samochodowego na podstawie danych posiadanych przez firmę ubezpieczeniową. To, co moglibyśmy teraz przewidzieć, te masowe komentarze i dyskusje ukazujące ludzkie emocje, muszą mieć wartość dla branży znanej z emocji, branży filmowej.

Przemysł filmowy

Przemysł filmowy musi przewidywać wyniki podobne do przemysłu kampanii politycznych. Podczas gdy w wyborach zwycięzca bierze wszystko, przemysł filmowy opiera się na kilku hitach, które tworzą główną część zysku. Gdyby można było przewidzieć sukces filmu na wczesnym etapie, zanim film trafił do kin, można:

•  Budżetowanie kanałów marketingowych na filmy, które mają większe szanse powodzenia
•  Zmień części fabuły filmu, w zależności od oczekiwań widzów
•  Zmień wdrażanie filmu w różnych krajach, aby zmaksymalizować przychody kasowe

Po premierze filmu istnieje wystarczająco dużo modeli prognostycznych, aby prognozować sukces w oparciu o weekend sprzedaży kasowej. Jednak do tego czasu jest już za późno, ponieważ realizowane są inwestycje związane z produkcją i marketingiem. Czy możesz użyć szumu, który buduje film, aby skutecznie przewidzieć wynik kasowy? Czy liczba dyskusji i ilość komunikacji w tych dyskusjach o filmie, jego sentymentach lub rozpowszechnianiu się na nim informacji zawiera informacje, które można by wykorzystać do przewidzenia wyników kasowych? W porównaniu z sytuacją kampanii politycznych, przemysł filmowy ma tę przewagę, że dane demograficzne osób aktywnych w mediach społecznościowych i filmowców pokrywają się bardziej. Co więcej, błąd selekcji może nie być tak silny, ponieważ komentarz do filmu może być traktowany jako poważna opinia. Ryzyko, że ludzie nie powiedzą, co myślą, co jest silnie związane z dyskusjami politycznymi, powinno być mniej wyraźne w dyskusjach filmowych. Czy więc moglibyśmy wykorzystać media społecznościowe do przewidywania wyników kasowych?

OSTROŻNIE

Przeprowadzono wiele badań i wydaje się, że można korzystać z mediów społecznościowych, ale z ostrzeżeniem, że wyniki nie zawsze są jednoznaczne lub pewne. Na początku 2010 r. Bernardo A. Huberman (@bhuberman) i Sitaram Asur (@sitaramasur) z HP opublikowali artykuł przewidujący wyniki kasowe. Ich hipoteza była taka, że filmy, o których się mówi, odniosą sukces kasowy. Wykorzystali prawie trzy miliony Tweetów, aby zbudować model przewidujący przychody kasowe. Ich model miał skorygowaną wartość R2 wynoszącą 0,80 (dalszy odczyt współczynnika wartości determinującej), co wskazuje, że znaczną część przychodów kasowych wyjaśniono przewidywanymi przychodami. Doprowadziło to do wniosku, że media społecznościowe mogą być skutecznym wskaźnikiem wydajności w świecie rzeczywistym. Co więcej, stosując algorytm sentymentu, ich przewidywania były lepsze niż prognozy z giełdy w Hollywood i innych rynków informacyjnych. Podobne badanie filmowe dwa lata później autorstwa Felixa Ming Fai Wonga z Princeton University znalazło dowody na to, że liczba tweetów zawierała wgląd w wyniki kasowe, ale doszedł do wniosku, że wyniki te mogą być jedynie orientacyjne. Oznacza to, że nawet jeśli jest dużo tweetów, nie możesz być pewien sukcesu kasowego. Ming Fai Wong szczegółowo opisał rzeczywiste wskaźniki, patrząc na to, co nazywa "aprobatą szumu". Sprawdza liczbę tweetów przed i po uruchomieniu, aby dowiedzieć się, czy szum w mediach społecznościowych jest kontynuowany, czy nie. Chociaż wydaje się, że ta miara sprawdza się w przypadku próbki filmów, które badał, nie była to miara kuloodporna. Ogólnie rzecz biorąc pokazuje to, że media społecznościowe mogą zapewnić wgląd, który warto wykorzystać. Należy jednak uważać, aby nie polegać całkowicie na wynikach mediów społecznościowych, ale połączyć je z innymi danymi. We wspomnianym badaniu Ming Fai Wong wykorzystał uporządkowane dane z IMDb. Połączenie IMDb, wraz z jego wskaźnikami na Twitterze, wygenerowało wystarczającą predyktor. Facebook zastosował podobne podejście we wrześniu 2011 r.10 Wybrał "statystycznie istotną" próbę użytkowników Facebooka i sprawdził, ilu z nich stwierdziło, że chce pójść do filmu. Podejście to było podobne do klasycznego mechanizmu odpytywania, w którym można wybrać statystycznie reprezentatywną grupę użytkowników. Taki proces selekcji nie byłby możliwy w oparciu o wykorzystanie użytkowników Twittera, ponieważ tweety nie zawierają tak dużej ilości informacji, jak komentarze na Facebooku. Dane na Twitterze jako całość są często nieuporządkowane, podczas gdy Facebook wymaga pewnego stopnia struktury (gdzie mieszkasz, czego się uczysz itp.). W pewnym sensie takie podejście pokazało, że Facebook może przeprowadzać ankiety, a użytkownicy nawet nie zdają sobie sprawy z tego, że są ankietowani. W wyniku tego próbkowania uzyskano podobny wysoki R2, o którym lider badania Jacobson wspomniał podczas wywiadu z Lucasem Shawem. Facebook wykorzystał jedynie 1500 punktów danych i był w stanie przewidzieć początkowe wyniki kasowe na tydzień przed premierą filmu o wartości R2 0,89.

WNIOSEK

Odpowiedź na pytanie, czy możemy przewidzieć wyniki finansowe filmu, jest jak dotąd niezadowalającym "czasem". Tak, przemysł filmowy opiera się na emocjach i tak, nasze dyskusje w mediach społecznościowych do pewnego stopnia ujawniają te emocje. Jednak, jak widzieliśmy w części 1, uwielbiamy zaskakiwanie nieoczekiwane, a emocje są niezwykle trudne do przewidzenia. Wówczas zacytowaliśmy Arthura S. De Vany, a ponieważ jego cytat jest tak mocny, chcemy go powtórzyć tutaj:

Nie ma formuły. Nie można przewidzieć wyników. Zarząd nie ma powodu, aby przeszkadzać w procesie twórczym. Charakter, kreatywność i dobre opowiadanie przebijają wszystko inne.
-ARTHUR S. DE VANY W "NAJWYŻSZEJ NIEPEWNOŚCI KSZTAŁTUJE BRANŻĘ FILMOWĄ"

Niemniej jednak, jeśli normą jest oczekiwanie, będziemy w stanie dokonać prognozy. W takich sytuacjach będziemy mogli tworzyć produkty jako aplikacje B2B, które pokazują, gdzie i kiedy należy zastosować wydatki marketingowe na filmy, lub jako produkty B2C, które sugerują, jaki film polecić dalej, tak jak zrobił to Netflix.

Prywatność i duże zbiory danych

Jak dowodził Charles Arthur, Google+ nie jest tak naprawdę siecią społecznościową; bardziej przypomina Matrix. Mija już 30 lat od roku 1984, a George Orwell nie był daleko. Dziś żyjemy w świecie, w którym w wielu dużych miastach zaczynamy widzieć kamerę CCTV na każdym rogu, nasze działania są monitorowane, gdy jesteśmy online, a nasze życie prywatne jest bardziej znane opinii publicznej niż zawsze. W bardzo realnym sensie żyjemy w społeczeństwie post-prywatnym, co ma również wpływ na duże zbiory danych. Orwell przewidział świat, w którym totalitarny rząd znany jako Wielki Brat wiedział i zapisywał wszystko o swoich obywatelach. Argumentowaliśmy, że powinniśmy zapisywać wszystkie dane w granicach prawnych, mimo że jeszcze nie wiemy, jak je wykorzystać. Edward Snowden ujawnił nam, że tajne służby na całym świecie właśnie to robią: oszczędzają miliardy przechwyconych wiadomości z naszego prywatnego życia i wszystko, czego teraz potrzebują, to właściwe pytanie. Następnie pętla zostaje zamknięta i możemy przejść do pracy analitycznej. Założyciel WikiLeaks, Julian Assange, sformułował to nieco inaczej: wszystko, czego potrzebujemy obecnie do stworzenia totalitaryzmu, to ktoś, kto "przekręci klucz". Jako obywatele często zbyt chętnie rezygnujemy z tej prywatności. Często po kliknięciu linku nasze dane są wysyłane do wielu firm, od dużych graczy, takich jak Google, po mniejsze sieci wyświetlania reklam. Wielu z nas szuka nawet okularów Google Glasses, które dosłownie sprawią, że największy na świecie marketingowiec znajdzie między Tobą a rzeczywistością. Czy kiedykolwiek odzyskasz swoją prywatność? Krótka odpowiedź brzmi: nie. Zasadniczo jest prawie niemożliwe, aby się tam ukryć, chyba że żyjesz jak pustelnik bez usług cyfrowych, bez kart kredytowych lub lojalnościowych i bez telefonu komórkowego. Nawet były snowboardzista Xavier Rosset, który naśladował Robinsona Crusoe, wycofując się na wyspę przez 300 dni, nadal prowadził bloga głosowego, aby kontaktować się ze światem zewnętrznym. A kiedy 28-letni Paul Miller wrócił z roku wolnego od Internetu, zauważył, że pociąga to za sobą poważną utratę łączności z innymi. Jeśli nie chcesz sięgać do tych ekstremów, oto kilka wskazówek, jak zachować prywatność w Internecie i samemu stać się częścią dużych zbiorów danych:

•  Zmień ustawienia bezpieczeństwa przeglądarki (sprawdź tę wskazówkę).
•  Ukryj swoje imię, używając stale zmieniających się pseudonimów online.
•  Jeśli korzystasz z mediów społecznościowych, ostrożnie używaj ustawień prywatności, aby kontrolować, komu udostępniasz informacje.
•  Unikaj aplikacji, które przesyłają twoje dane osobowe.
•  Użyj VPN, prywatnej sieci typu punkt-punkt, aby przesyłać dane.

Myślisz, że to za dużo kłopotów? Nie jesteś sam. Według Mashable około 13 milionów użytkowników nie zmieniło dotychczas swoich ustawień prywatności na Facebooku. Prywatność to problem, który pozostanie. Z czasem ustawodawstwo może nadrobić zaległości w relacji między danymi a naszą prywatnością. Tymczasem jest to trend, z którym musimy sobie poradzić i trudno będzie cofnąć czas.

Prognozowanie rynku akcji

Po przejrzeniu przykładów analiz predykcyjnych w nauce, polityce i filmach, przejdźmy do rynków finansowych. W przeciwieństwie do branży filmowej dostępnych jest ogromna ilość ustrukturyzowanych danych finansowych. A branża finansowa jest prawdopodobnie bardziej zaawansowana niż jakakolwiek inna branża w zakresie analiz predykcyjnych. Przez dziesięciolecia wykorzystywał zachowania historyczne do przewidywania przyszłych ruchów. Ten poziom analityki technicznej jest już standardem dla wielu firm. W branży finansowej najlepiej widać, że dane nie są głównym zasobem prognoz. Historyczne przebiegi danych są dostępne dla wszystkich chętnych do zapłaty. Głównymi atutami są spostrzeżenia na temat tworzenia metryk i tego, jak szybko można zestawić obliczenia, aby przewidzieć kolejne kilka sekund na giełdzie. Pojawienie się mediów społecznościowych zapowiadało się jako kolejna pula danych dla takich rzeczy, jak fundusze hedgingowe, w które można wykorzystać, aby poprawić nawet dzisiejszą dokładność. Te nadzieje wydawały się obiecujące. Na przykład ostatnio zgłoszono interfejs API wyszukiwania Google, który pomaga przewidywać globalne trendy giełdowe. Grupa naukowców korzystających z danych historycznych z lat 2004-2010 stwierdziła, że zmiany w liczbie wyszukiwań określonych haseł, takich jak dług, akcje lub portfel, korelowały ze zmianami rynku w górę lub w dół oraz w odpowiedzi na określoną strategię długiej lub krótkiej sprzedaży hipotetyczna inwestycja netto zyski ponad 300% w porównaniu ze strategią kontroli. Ale czy te trendy są wystarczające? Nie do końca, ponieważ najprawdopodobniej mamy tutaj problem, w którym mieszamy przyczynę i relację. Ważniejszym pytaniem jest to , że faktycznie sam decydujesz z góry o kupnie lub rezygnacji z zakupu dla każdego pojedynczego towaru? Czy media społecznościowe mogą być wykorzystywane do podejmowania takich decyzji dokładnie? Omawialiśmy przypadek BP i pokazaliśmy, że opinia publiczna niekoniecznie jest siłą napędową rynku akcji, ale najprawdopodobniej pozostaje w tyle. Czy to oznacza, że nie możemy używać mediów społecznościowych do przewidywania, w jaki sposób akcje będą przedmiotem obrotu? Znajdziesz firmy twierdzące, że ich algorytmy można wykorzystać do przewidywania zmian cen akcji. Firmy w tej przestrzeni to StockTwits, Chart.ly, WallStreet Scanner i Covestor. Ale jak są dobrzy? Zasadniczo firma, która byłaby w stanie dobrze przewidzieć cenę akcji, wolałaby zachować tę wiedzę dla siebie, aby założyć własny fundusz hedgingowy, podobnie jak Derwent Capital, fundusz hedgingowy z siedzibą w Londynie. Derwent Capital zaczął od obietnicy inwestowania opartej na analizie na Twitterze i niewątpliwie nie opublikował szeroko swojej formuły. Jednak, podobnie jak w przypadku dyskusji na temat filmu lub wyborów, istnieje spora część sceptycyzmu, którą należy zastosować przy wykorzystywaniu danych z mediów społecznościowych do przewidywania krzywych akcji:

•  Podobnie jak w innych przykładach, musisz stworzyć algorytm, aby wykryć, na podstawie nieustrukturyzowanych danych, czy dana osoba myśli o sprzedaży lub kupnie określonego akcji. Algorytmy te miałyby wysoki poziom błędu. Ale Wall Street ma już ogromne ilości ustrukturyzowanych danych. Te punkty danych są z definicji bardziej odpowiednie dla komputerów do analizy i prawdopodobnie generowania bardziej dokładnego sygnału. Lub, jak powiedział Paul Rowady, starszy analityk z firmy konsultingowej Tabb Group, Mashable: "Stosunek sygnału do szumu dla tego zestawu danych jest po prostu zdecydowanie za niski". Przydatne byłoby spojrzenie na nieustrukturyzowane dane tylko wtedy, gdy wszystkie inne ustrukturyzowane dane zostały skutecznie przeanalizowane, więc masz nadzieję uzyskać przewagę konkurencyjną dzięki nieustrukturyzowanym danym.
•  Po drugie, czas zawsze był decydującym czynnikiem na Wall Street. Niektóre fundusze, takie jak Renaissance Technologies, stały się znane z tego, że przenosi biura, by być bliżej giełdy. Dzisiaj walka o prędkość jest większa niż kiedykolwiek wcześniej. Media społecznościowe są jednak wolniejsze niż większość innych wskaźników handlu na giełdzie. Musisz poczekać, aż informacje zostaną napisane, opublikowane, zagregowane i przeanalizowane. Takie opóźnienie czasowe może spowodować zbyt duży minus, aby ten pomiar był przydatny.
•  Ostatnim punktem, który zmusiłby nas do zmartwienia się o taki algorytm prognozowania, jest to, że mogą na niego łatwo wpływać fałszywe próby mediów społecznościowych. Być może z powodu tych niedociągnięć Derwent Capital nie jest już aktywny jako ja - fundusz, który staje się platformą oferującą wgląd innym. Podsumowując, te obietnice się nie spełniły, na ile wielu miało nadzieję. Najlepszym podejściem, jakie dotychczas widzieliśmy, jest prawdopodobnie skupienie się i ograniczenie zakresu. Zamiast patrzeć na wszystkie dane w mediach społecznościowych, analizuj tylko wysoce skoncentrowane dane. W odniesieniu do prognoz giełdowych Michael Liebmann wyjaśnił: "Wyciągając wnioski z wiadomości giełdowych, chodzi o przyczynę i skutek. Większość poprawek po prostu ponownie wykorzystuje treść i omawia starsze wiadomości. Stwarza to kolejną warstwę komplikacji, w której badacz musi najpierw ustalić, który temat jest całkowicie nowy i rzeczywiście wprowadzić nowe fakty ".

On i jego zespół skupili się właśnie na takich nowatorskich faktach. Ograniczyli oni swoją nieustrukturyzowaną analizę danych medialnych do wykorzystania ogłoszeń firmy. Dla nich ogłoszenia firmy mogą ujawnić asymetrię informacyjną, co oznacza, że osoba PR w firmie napisała ogłoszenie, wiedząc o rzeczach, których rynek nie wiedział. Ta asymetria może być ujawniona w czystym brzmieniu komunikatów prasowych. To podejście odchodzi od mediów społecznościowych. Jest jednak zbliżony do analizy mediów społecznościowych, ponieważ opiera się na nieustrukturyzowanych treściach. Podejście Michaela ma dwie główne zalety:

•  Zmniejsza ilość danych do analizy. Przeglądanie wszystkich tweetów i blogów na świecie może być zbyt rozpraszające. Jak często omawiano tu, więcej danych oznacza tylko więcej bólu, ale niekoniecznie więcej wglądu.
•  Język jest stosunkowo jednolity, ponieważ komunikaty prasowe są napisane w określonym stylu. Nie znajdziesz tu słów slangowych ani oszczerczych, a emocje są trzymane z daleka. Nie będzie cynizmu, nie będzie ironii, a nawet użyte słowa pochodzą z ograniczonego słownictwa. Im bardziej skoncentrowane jest słownictwo, tym łatwiejsza będzie analiza.

Korzystając z uczenia maszynowego, Michael i jego zespół opracowali algorytm sugerujący, czy cena akcji wzrośnie, czy nie. Krzywa na ryc. 7-5 oparta jest na testach z wykorzystaniem danych z przeszłości i sugeruje, że zapasy wybrane na podstawie ich formuły mają potencjalnie 2% wyższą stopę zwrotu

Prognozy zamknięcia

Zakończmy tą część kilkoma końcowymi prognozami dotyczącymi dużych zbiorów danych. Mamy podstawy technologiczne i zaczęliśmy zapisywać wszystko o naszym ludzkim zachowaniu: sposób, w jaki się poruszamy (telefony komórkowe), sposób, w jaki rozmawiamy (sieci społecznościowe), sposób, w jaki się uczymy (MOOC), sposób, w jaki robimy zakupy (online zakupy), sposób, w jaki mówimy (Siri Apple i inni), a nawet sposób, w jaki oddychamy (nowe sposoby mierzenia siebie). Nie wszystkie dane są łatwe do wydobycia i często nasze nadzieje są znacznie wyższe niż zysk z rzeczywistych wyników. Trzy główne kwestie tutaj są następujące:

•  Brak rzeczywistego pytania biznesowego
•  Trudność (z powodu hałasu) pracy z nieustrukturyzowanymi danymi
•  Nasza własna wrażliwość na temat danych osobowych

Z powodu tej luki między nadzieją a rzeczywistością zobaczymy, że ta branża podąża za typowymi krzywymi szumu, jak wiele innych branż wcześniej. Zaczniemy wysoko i oczekujemy, że dane dadzą nam wszystkie odpowiedzi. Wtedy rozczarujemy się, że wiele z tych odpowiedzi to odpowiedzi na pytania, których nigdy nie mieliśmy i które nas nawet nie interesują. Ale pomimo nadchodzącego rozczarowania zasadniczo dotrzemy do płaskowyżu wydajności. To tylko pytanie, kiedy to się stanie. Czy pamiętasz szum wokół tłumaczeń online? Trwało to dłużej niż się spodziewaliśmy i przez lata musieliśmy radzić sobie z okropnymi tłumaczeniami. Brutalna siła i wiele punktów danych to zrobiło tłumaczenia bardziej przydatne. Podobny rozwój widzimy w sposobie radzenia sobie z nieustrukturyzowanymi danymi. Niedawno Google ogłosiło połączenie wyszukiwania głosowego i wyszukiwania semantycznego. Jak widzieliśmy, trudno jest zmierzyć kontekst semantyczny. W tej chwili Google jest daleki od doskonałości, ale z czasem, przy coraz większej liczbie próbek szkoleniowych, to podejście powinno również zacząć działać. Ten sam rozwój będzie widoczny w pomiarze i interpretacji danych nieustrukturyzowanych. Ponadto, podobnie jak w przypadku drugiego problemu braku korelacji, będziemy widzieć coraz więcej punktów danych, gdy zaczniemy mierzyć coraz więcej. Nawet jeśli rzeczy takich jak kreatywność czy moda są nadal niemożliwe do przewidzenia na dłuższą metę, będziemy coraz lepiej przewidywać te emocjonalne i oparte na kreatywności produkty z powodzeniem w krótkim okresie. Ale ilekroć tak się stanie, ilekroć produkt lub usługa okażą się przydatne, pojawią się pytania dotyczące bezpieczeństwa. Dane wykorzystywane przez firmy są generowane przez ich klientów; dlatego odbędzie się nadchodząca dyskusja na temat tego, kto jest właścicielem tych danych i kto może z nich korzystać. Publiczne oburzenie i dyskusje wokół danych zapisanych przez Narodową Agencję Bezpieczeństwa to tylko początek. Big data, media społecznościowe i analityka danych są teraz częścią twojego życia i staną się jeszcze większą częścią w przyszłości. Więc jak to będzie wyglądać dla Ciebie - więcej szumu niż rzeczywistość lub ważna strategiczna część twojego biznesu? Wyścig się rozpoczął, a zwycięzcy i przegrani w następnej epoce analizy danych zostaną ustaleni na podstawie tego, jak dobrze i jak szybko każda firma może przekroczyć lukę od szumu do strategii. Ta część zawiera ważne wskazówki dotyczące sukcesu w nowej, wspaniałej erze danych:

Znajdź właściwe pytanie.
Pytanie, które jest SMART: konkretne, mierzalne, wykonalne, realistyczne i czasowe.

Znajdź właściwe dane.
Nie wszystkie dane są jednakowo dostosowane do twojego pytania.

Bądź przewidujący.
Rodzajem jest przewidywanie i tworzenie produktu na podstawie danych.

Unikaj pułapek.
Pamiętaj o próbach wypaczenia systemu przez boty lub inne sztuczki.

Zacznij od małego.
Uruchom funkcję według funkcji, aby zbudować swój model.

Zwróć uwagę na takie wrażliwości, jak prywatność.
Nawet jeśli potrafimy dziś zmierzyć prawie wszystko, powinniśmy pamiętać o potrzebie prywatności.

To, czy jesteś zwycięzcą, czy przegranym, zależy od tego,na ile Twoja organizacja zacznie żyć i oddychać danymi. Jak skutecznie może wykorzystywać dane? A przede wszystkim, ile jest w stanie odkryć czwarte "V" danych, wartości? Pytania

Pomyśl o tym z kolegami:

•  Gdzie Twoja organizacja może się najbardziej poprawić? W ramce pytania (zadaj)? W pomiarze danych (miara)? Wprowadzając wszystkie spostrzeżenia do pracy (nauki)? Co należy zrobić, aby wprowadzić tę zmianę?
•  Dla wielu osób największą wartością analizy danych jest przewidywanie przyszłości. Jakie przewidywania najbardziej poprawiłyby przyszłość Twojej firmy? Czy media społecznościowe i / lub inne źródła dużych zbiorów danych mają potencjał do dokonywania takich prognoz?
•  Jakie dane miałyby największy wpływ na Twoją firmę? A czy obecnie najlepiej wykorzystujesz posiadane dane? Czy wykorzystujesz te dane do ulepszania swoich produktów i usług?
•  Co pomyślą Twoi klienci i konsumenci, jeśli zaczniesz wykorzystywać ich zachowanie lub dane do przewidywania przyszłości Twojej firmy? Jak sobie z tym poradzić? Czy otwartość jest najlepszym sposobem?
•  Czy istnieją ulepszenia, które możesz wprowadzić w swoich usługach lub produktach, korzystając z crowdsourcingu? Jak by to wyglądało?