Wprowadzenie
W kwietniu 2011 r. Siły specjalne Stanów Zjednoczonych zstąpiły do kryjówki Osamy bin Ladena, lidera grupy terrorystycznej al-Kaidy. Zabił bin Ladena po ponad dekadzie życia w ukrywaniu i kierowaniu atakami jego wyznawców. Kto więc wiedział, gdzie się znajduje? Odpowiedź może cię zaskoczyć: wszyscy tak zrobiliśmy. Według Kaleva Leetaru, badacza z University of Illinois w Urbana-Champaign, analiza publicznych artykułów prasowych na temat bin Ladena wskazała jego lokalizację w promieniu 200 kilometrów. W bardzo realnym sensie jedna z najbardziej tajemniczych kryjówek na świecie mogła ostatecznie ujawnić się z mozaiki pojedynczych punktów danych. Każdy dziennikarz miał opinię na temat lokalizacji, a wszystkie opinie razem stanowiły prawdziwą odpowiedź. : Nie przeprowadzono ankiety i nie zapytano dziennikarza. W swoich artykułach ujawnili swoje poglądy na temat miejsca pobytu bin Ladena. To siła publicznych i nieuporządkowanych danych. Najprawdopodobniej siły amerykańskie nie polegały na takiej wiedzy opartej na crowdsourcingu. Wiemy dzisiaj, że amerykańskie agencje rządowe, takie jak NSA, korzystają z różnego rodzaju źródeł danych, od szpiegowania telefonów polityków najwyższego szczebla po komunikowanie się z innymi przez dostawców poczty e-mail. Jednak zasada jest taka sama: inteligencja, którą można zastosować, pochodzi z agregacji indywidualnych, a w tym przypadku pozornie przypadkowych punktów danych. Na tym polega obietnica tego, co nazywamy big data. Stało się jednym z najmodniejszych modnych słów nowego tysiąclecia. Obejmuje gromadzenie danych wywiadowczych z wcześniej zabronionego terytorium zestawów danych, które są zbyt duże, aby można je było traktować jako bazy danych, często zawierające terabajty, a nawet petabajty informacji. Jedną z najbardziej przekonujących obecnie form jest wykorzystanie danych w mediach społecznościowych, dublowania, które ujawnia, czego każdy z nas chce, potrzebuje i preferuje. Dane te, wzbogacone o nasze kliknięcia w Internecie, korzystanie z telefonu komórkowego i dane o lokalizacji, zapewnią niesamowity wgląd w nas i naszą przyszłość. Firmę o nazwie Fisheye Analytics, oferuje oprogramowanie jako usługę analizującą dane medialne na całym świecie. Każdego miesiąca analizuje około 70 TB danych tekstowych dla swoich klientów. Ale dowiedzieliśmy się również, że nie liczy się rozmiar, ale właściwe pytanie i właściwe dane.
Cztery "V" danych
Dane zawsze miały wartość strategiczną, ale przy ogromnej ilości dostępnych dzisiaj danych i naszej zdolności do przetwarzania stały się nową formą klasy aktywów. W bardzo realnym sensie dane są teraz nowym odpowiednikiem ropy naftowej lub złota. A dzisiaj obserwujemy boom danych rywalizujący z boomem naftowym w Teksasie w XX wieku lub gorączką złota w San Francisco w XIX wieku. Stworzył całą branżę i w ostatnich latach przyciągnął wiele prasy biznesowej. Ta nowa klasa zasobów dużych zbiorów danych jest powszechnie opisywana przez to, co nazywamy "trzema V." Duże zbiory danych to wszystko, co ma dużą objętość [volume] i dużą prędkość [velocity] i zawiera dużą różnorodność informacji [variety] . Oprócz tych tradycyjnych trzech "V" dodajemy czwarte "V", wartość [value]. To jest to, czego wszyscy szukają i dlatego duże zbiory danych zyskują dziś tak dużą uwagę. Big data może przybierać formę danych strukturalnych, takich jak transakcje finansowe, lub danych nieuporządkowanych, takich jak zdjęcia lub posty na blogu. Może być crowdsourcingowy, jak w przypadku Osamy bin Ladena, lub zebrany indywidualnie, jak każda firma ubezpieczeniowa od dawna. Paradoksalnie ta wartość dużych zbiorów danych jest zwykle reprezentowana w małych danych. Na przykład "Tak / Nie" w pytaniu "Mam kupić tę firmę, czy nie?" Lub w kodzie geolokalizacyjnym miejsca pobytu Osamy bin Ladena. Poszukiwanie wartości to dążenie do ograniczenia dużych zbiorów danych, aby stały się one "cennymi" danymi. Big data napędza także jeden z największych trendów XXI wieku: media społecznościowe. Nasze wspólne dyskusje, komentarze, polubienia, niechęci i sieci kontaktów społecznościowych są teraz wszystkimi danymi, a ich skala jest ogromna. Gdyby wszyscy użytkownicy Facebooka byli krajem, byłby to jeden z największych na świecie z ponad miliardem aktywnych użytkowników, podczas gdy użytkownicy Twittera wysyłają miliony tweetów miesięcznie na początku 2013 roku. To pierwszy raz, kiedy możemy studiować ludzi interakcje i ludzkie dyskusje na takiej głębokości. Każdy tweep (użytkownik Twittera) lub każdy użytkownik w Sina Weibo pozostawia za sobą ślad publicznie dostępnych danych. Ale również nasza prywatna komunikacja na Facebooku lub w strefie Qzone może dostarczyć świetnych informacji: czego szukaliśmy? Co przeczytaliśmy? Gdzie poszliśmy? Z kim się kojarzymy? Co jemy? Co kupujemy W skrócie, wszelkie wyobrażalne interakcje międzyludzkie można znaleźć i badać w sieciach społecznościowych. Jeśli potrafimy wydobywać wszystkie te informacje, wyniki wydają się nieograniczone. Wydaje się nawet możliwe, że możemy znaleźć miejsce, w którym ukrywa się Osama bin Laden. W ten sposób dane w mediach społecznościowych zabiją każdy sekret. Jednocześnie, jak każdy inny trend technologiczny w naszym życiu, istnieje duży szum wokół dużych zbiorów danych i mediów społecznościowych. Na początku analizy mediów społecznościowych ludzie wierzyli, że media społecznościowe mogą być wykorzystane do przekonania kogokolwiek o wszystkim, jeśli zostaną po prostu poprawnie przeanalizowane. To oczywiście źle. Nawet najlepsze analizy predykcyjne nie mogą zapisać niewłaściwego produktu. W innych przypadkach media społecznościowe były postrzegane jako magiczna broń dla marketerów do tworzenia takiego samego "wirusowego" szumu wokół swoich produktów, jak wokół samych mediów społecznościowych. Zobaczymy później, dlaczego tak się nie stało. Dzisiejszy bieg analizy predykcyjnej i pomiaru w mediach społecznościowych jest podobny do tego przeprowadzanego na stronach internetowych, gdy ci, którzy uważali, że posiadanie strony internetowej jest gwarancją sukcesu w 1996 roku. Tymczasem podstawy analizy dużych zbiorów danych i mediów społecznościowych staną się technologiami wspomagającymi dla wielu z nas, tak jak telefon i Internet. Przybyły duże zbiory danych. Zmienia nasze życie i sposób, w jaki prowadzimy działalność. Ale sukces w przypadku dużych zbiorów danych będzie wymagał czegoś więcej niż tylko danych. Tak jak wojska amerykańskie musiały zdecydować, czy korzystać z danych społecznościowych crowdsourcingowych czy danych wewnętrznych, firmy będą musiały zdecydować, które dane wykorzystać. Dane, które posiada każda firma, mogą być tak różne, jak same firmy, od plików dziennika, danych GPS, danych klienta lub maszyny do maszyny i każda z nich będzie musiała wybrać swoje źródło danych. Co więcej, będzie wymagał właściwego sposobu analizy, a następnie analizy danych za pomocą właściwych analiz. Będzie to wymagało umiejętności oddzielenia cennych informacji od szumu. Taki jest nasz cel : nauczyć cię podstawowych zasad tego, co faktycznie wykazały badania, i pomóc ci stać się jedną z firm, które będą wykorzystywać duże zbiory danych do odniesienia sukcesu. Świat danych jest ogromny i każda firma będzie musiała przyjrzeć się własnemu zestawowi danych. W całym tekście wykorzystamy wiele przykładów wskaźników mediów społecznościowych, nie dlatego, że uważamy, że media społecznościowe są najbardziej obiecującym zestawem danych do analizy predykcyjnej. W rzeczywistości w przypadku mediów społecznościowych jest odwrotnie. Media społecznościowe zapewniają najtrudniejsze zbiory danych, o czym dowiemy się później. Jednak dane z mediów społecznościowych są łatwo dostępne dla prawie wszystkich; a zasady, struktury danych i wnioski wyciągnięte z tego tekstu można łatwo przenieść na własne potrzeby i dostępność danych osobowych. Najpierw sprawdźmy, jak obietnica dużych zbiorów danych może wpłynąć na Twoją firmę.
Obietnica
Zwolennicy analizy danych obiecują świetlaną przyszłość, która zmieni nasze życie. Obiecują, że możemy przewidzieć rzeczy, których nigdy wcześniej nie znaliśmy, od punktów cenowych po wywiad wojskowy. I mają rację. Na przykład w Santa Cruz w Kalifornii aplikacja przewiduje, które miejsca i pory dnia są najbardziej prawdopodobnymi porami dla przestępstw. Ostatnio policja złapała dwie kobiety, które zaglądały do samochodów, miały wyjątkowe zachowania i przewoziły narkotyki . Nie mieli pojęcia, że dokonała tego aplikacja do dużych zbiorów danych, która z kolei pomogła w zapobieganiu kilku przestępstwom. Chociaż dane prognostyczne są od wielu lat wykorzystywane w pracy policji, jest to przykład wykorzystania ich w czasie rzeczywistym. Oczywiście policyjne metody predykcyjne to tylko jeden z najbardziej egzotycznych przykładów tego, w jaki sposób możemy wykorzystać moc dużych zbiorów danych. Dzisiaj widzimy, że dane są coraz częściej wykorzystywane w naszym świecie:
• Google wykorzystuje dane do przewidywania następnej fali grypy.
• IBM wykorzystuje dane do optymalizacji przepływu ruchu w Sztokholmie i uzyskania najlepszej możliwej jakości powietrza.
• Zafu, 2Style4You i inni używają samodzielnie zebranych danych dotyczących ciała, aby sugerować ubrania, które najlepiej do Ciebie pasują.
• Dr Jeffrey Brenner, lekarz z New Jersey, korzysta z danych rozliczeniowych w celu wyznaczenia gorących punktów, w których można znaleźć najbardziej złożone i kosztowne przypadki opieki zdrowotnej w jego mieście, w ramach programu obniżania kosztów opieki zdrowotnej.
• Narodowe Centrum Transformacji Akademickiej korzysta z eksploracji danych, aby zrozumieć, którzy studenci mają większe szanse na odniesienie sukcesu na danym kursie.
• Firmy ubezpieczeniowe oferują niższe stawki na ubezpieczenie samochodu, jeśli dobrowolnie umieścisz urządzenie GPS w samochodzie. Wykorzystują te dane, aby przewidzieć, czy wkrótce zdarzy się wypadek samochodowy, a następnie odpowiednio dostosować polisę ubezpieczeniową.
• Wielu detalistów wykorzystuje dane do rekomendacji produktów i ukierunkowanych reklam do tego stopnia, że wiedzą, że możesz być w ciąży.
Żyjemy teraz w świecie, w którym wszystko i wszystko można zmierzyć. "Dane" wydają się być nową ideologią. Jesteśmy dopiero na początku długiej podróży, w której będziemy mierzyć i analizować coraz więcej informacji o wszystkich i wszystkim, aby napędzać nasze firmy i nasze decyzje. Ten świat stał się również źródłem troski. Konsekwencje tych danych dla prywatności i innych dziedzin społeczeństwa nie są jeszcze znane, a są znani krytycy, tacy jak Jaron Lanier, który prosi ludzi, aby nie wierzyli w żaden wynik wynikający z "mądrości tłumu". Ponadto zastosowania dane z policji lub wywiadu wojskowego budzą coraz większą troskę o prywatność. W czasach, gdy agencje amerykańskie sięgają nawet po telefony komórkowe swoich najbliższych sojuszników w celu gromadzenia informacji, wielu użytkowników uważa, że rządy i firmy przekroczyły granicę dopuszczalnego poziomu. Poruszymy niektóre z tych aspektów w całym tekście i zalecimy, aby przejrzystość, a także otwarte dane, były głównym sposobem przeciwdziałania tym obawom. Pomimo tych ostrzeżeń i obaw, dla wielu z nas "sterowane danymi" to nowa filozofia zarządzania. Economist Intelligence Unit opublikował dane ankietowe pokazujące, jak ludzie uważają, że duże zbiory danych pomogą zarówno decydentom, jak i pracownikom. Mniej więcej dwie trzecie uważa, że pomoże nam to znaleźć nowe możliwości rynkowe i podejmować lepsze decyzje, prawie połowa uważa, że pomoże nam lepiej konkurować, a ponad jedna trzecia uważa, że poprawi wyniki finansowe i wykorzysta więcej możliwości. Ale obietnic jest czasem za dużo. Jak każda powstająca technologia, duże zbiory danych są sprzedawane na całym rynku. Jeśli chcesz w to uwierzyć, problemy świata - i twojej firmy - można rozwiązać, zwiększając rozmiar zbioru danych lub przeglądając najnowsze tweety. Do tego stopnia, że Chris Anderson (@ chr1sa), wówczas redaktor naczelny Wired Magazine, odważnie twierdził, że osiągniemy "The End of Theory", jeśli tylko będziemy mieć wystarczającą ilość danych: "Filozofia założyciela Google to że nie wiemy, dlaczego ta strona jest lepsza niż ta: jeśli statystyki przychodzących linków mówią, że jest, to wystarczy. " Przyszłość jest naprawdę świetlana, ale nigdy nie będzie tak jasna. Później omówimy różnice między korelacją a przyczynowością oraz dlaczego jest i zawsze trudno jest zmierzyć przyczynowość. Tekst został zaprojektowana w celu przeszukiwania wyzwań i szumu dużych zbiorów danych. Pomoże Ci zrealizować czwarte "V" , wartość big data. Nie sama mądrość tłumu, ani "więcej danych" nie jest wartością. Aby znaleźć wartość w dużych zbiorach danych, trzeba mieć właściwe, dobrze sformułowane pytania, właściwe metody i właściwe dane. Tylko wtedy uzyskasz pożądaną przewagę konkurencyjną
Koncentracja na danych
Możesz argumentować, że zawsze chciałeś być zorientowany na wyniki. Ponieważ wyniki są mierzalne, musiałeś być również oparty na danych. Dobrze? Ponadto analiza predykcyjna nie wydaje się niczym szczególnie nowym, biorąc pod uwagę, że firmy ubezpieczeniowe używają jej od dłuższego czasu. Skąd więc ten nagły bieg danych i prognoz? Istnieją dwa główne powody tego większego zainteresowania:
1. Publicznie dostępnych jest więcej danych.
2. Technologia służy do przetwarzania dużych ilości danych.
Spójrzmy na oba te czynniki.
WIĘCEJ DANYCH
Obecnie coraz częściej dane stają się centrum wielu dyskusji. Kiedyś dane były ukryte. Twoja firma ubezpieczeniowa użyłaby danych do obliczenia polisy, porównując dane z danymi wielu grup rówieśniczych, ale było to wysoce poufne. Dzisiaj Twitter rozdaje niektóre części swoich 140 milionów tweetów. StackOverflow pozwala każdemu na pobranie kompletnych odpowiedzi na pytania dotyczące programowania. Oprócz tych firm istnieją rynki danych i rządy, które oferują dostęp do danych spisowych i innych typów danych. Objętość tych danych również rośnie, w niektórych przypadkach wykładniczo. Od 2011 r. Biblioteka Kongresu gromadziła miesięcznie ponad 200 terabajtów informacji; a w najlepszych miesiącach na Twitterze przesyłanych jest ponad pół miliarda tweetów.
Skąd pochodzi termin "Big Data"?
Steve Lohr (@SteveLohr) najlepiej wyjaśnił pochodzenie terminu "Big Data" na blogu New York Times. W 1989 r. Erik Larson, później autor bestsellerów, w tym "Diabeł w białym mieście" i "W ogrodzie zwierząt", napisał artykuł dla magazynu Harper, który został przedrukowany w "Washington Post". Artykuł zaczyna się od zastanowienia autora, jak cała ta śmieciowa wiadomość dociera do jego skrzynki pocztowej i przechodzi do branży marketingu bezpośredniego. Artykuł zawiera te dwa zdania: "Właściciele dużych zbiorów danych twierdzą, że robią to z korzyścią dla konsumenta. Ale dane mogą być wykorzystywane do celów innych niż pierwotnie zamierzone. "
W pewnym sensie "duży" w dużych danych odnosi się tutaj do pierwszego "V", volume , idei dużej ilości danych. Jednak "duże" w dużych danych czasami odnosi się do danych o dużej prędkości, w których należy podejmować szybkie decyzje, przyjmując dane w ciągu kilku milisekund, a nawet mikrosekund. Na przykład w przypadku mechanizmów określania stawek w czasie rzeczywistym system ma mniej niż 25 milisekund na reakcję na żądanie z serwera reklam. Serwer reklam podaje punkty danych, takie jak: "Możemy wyświetlać Twoją reklamę osobie w tej witrynie z zasięgu tego adresu IP . Ile jesteś gotów zapłacić? "Dlatego agencja reklamowa musi rozbić swój własny duży zestaw danych w ciągu kilku milisekund, aby móc odpowiedzieć. Innym przykładem danych o dużej prędkości są komputery, które handlują zapasami w ułamku milisekundy. Pojawił się nowy świat danych w czasie rzeczywistym. Czasami termin "duże zbiory danych" jest także używany w przypadku łączenia danych strukturalnych i niestrukturalnych. Kiedyś naukowcy zajmujący się danymi patrzyli tylko na dane ustrukturyzowane. Później zrozumiemy, dlaczego tego rodzaju dane są znacznie łatwiejsze w obsłudze i tworzeniu modeli. Dzisiaj jednak dane często pochodzą z różnych rodzajów. Dowieszy się, kiedy i w jaki sposób pomocne są nieustrukturyzowane dane, takie jak dane medialne używane do przewidywania lokalizacji bin Ladena. Na przykład można przełamać miliony nieustrukturyzowanych tweetów, aby dowiedzieć się, czy pogoda w Nowym Jorku jest ładna. Jednak prawdopodobnie łatwiej jest po prostu pobrać pojedynczy punkt danych ze strony internetowej o pogodzie: słoneczny czy nie? We wszystkich tych dyskusjach na temat danych czwarte "V" jest zapomnianym, ale właśnie dlatego w ogóle robimy dane. Dlatego my skoncentrujemy się na znalezieniu "wartości" w danych.
LEPSZA TECHNOLOGIA
Drugim powodem nadziei związanych z analityką predykcyjną jest to, że dzisiaj istnieje technologia umożliwiająca szybkie (szybkie) przetwarzanie dużych ilości (objętości) zdecentralizowanych danych w różnych formatach (różnorodność). W przeszłości analizy predykcyjne polegały na "ładowaniu" wysoce ustrukturyzowanych danych do hurtowni dużych zbiorów danych i przetwarzaniu wszystkich danych. Takie podejście stało się coraz trudniejsze i droższe. Dzisiaj firmy zaczynają radzić sobie z nieznaną ilością danych, które mogą być przechowywane w dowolnym miejscu, w dowolnej jakości i dowolnej strukturze.
Podstawowa technologia nazywa się Hadoop. Apache Hadoop, reprezentowany przez logo żółtego słonia, można opisać jako ekosystem open source. W tym ekosystemie można wyszukiwać bardzo duże, rozproszone i luźno ustrukturyzowane zestawy danych. Dzięki Hadoop możesz wykonać następujące czynności:
• Zamiast trzymać wszystkie dane w jednej bazie danych, możesz pracować z rozproszonymi bazami danych.
• Zamiast przetwarzać wszystkie dane na jednym serwerze, możesz rozdzielić przetwarzanie serwera na wiele systemów, tworząc znacznie potężniejszy system.
• Zamiast używać tylko treści ustrukturyzowanych, możesz także pracować z treściami nieustrukturyzowanymi.
• Zamiast wyników "z perspektywy czasu" firmy uzyskują wyniki prawie w czasie rzeczywistym.
Chociaż symbolizuje ruch dużych zbiorów danych, Hadoop jest jednym z wielu dostępnych narzędzi do pracy z dużymi rozproszonymi zestawami danych, oprócz prawdziwej armii firm startowych i konsultingowych zaprojektowanych, aby pomóc Ci zrozumieć duże zbiory danych z mediów społecznościowych i innych źródeł . Te narzędzia i łączność danych tworzą z kolei rewolucję. To nie jest książka techniczna, a my zajmiemy się technologiami tylko w takim zakresie, w jakim jest to konieczne do zrozumienia wartości danych. Dzięki temu nie poznasz szczegółów narzędzi hydraulicznych, takich jak Hadoop lub NoSQL.
Skupienie na Analizie
"Złoto wymaga wydobycia i przetwarzania, zanim trafi do naszej biżuterii, elektroniki, a nawet Fort Knox. Ropa wymaga wydobycia i rafinacji, zanim stanie się benzyną, która napędza nasze pojazdy. Podobnie dane wymagają gromadzenia, eksploracji i wreszcie analizy, zanim będziemy w stanie zrozumieć ich prawdziwą wartość dla przedsiębiorstw, rządów i osób prywatnych
"-ŚWIATOWE FORUM EKONOMICZNE
Mamy dane i technologię, więc co powstrzymuje nas wszystkich od przejścia do czwartego "V", wartości? Co powstrzymuje nas przed tworzeniem wspaniałych algorytmów, które z kolei przynoszą wspaniałe produkty lub usługi związane z danymi? Ten tekst dotyczy trzech głównych wyzwań, przed którymi stoimy, i sposobu ich rozwiązania:
• Zadaj właściwe pytanie.
Czy chcesz zwiększyć przychody? Zatem pytanie "jak uzyskać najwięcej wyświetleń w YouTube" może być niewłaściwym pytaniem - ci widzowie mogą nie być kupującymi. Dobre pytania są mierzalne, wykonalne i oparte na wiedzy w dziedzinie. Zadanie właściwego pytania jest najważniejszą częścią analizy danych i problemem, do którego będziemy często odwoływać się w tym tekście.
• Użyj właściwych danych.
Duże dane nazywane są dużymi danymi z jakiegoś powodu: nie zawsze można je przeanalizować bezpośrednio. Oznacza to, że wybór właściwych danych (najlepiej danych ustrukturyzowanych i kwantyfikowalnych) wraz z odpowiednimi technikami próbkowania jest kluczowym czynnikiem w wydobywaniu wiedzy z tych danych.
• Tworzenie właściwej miary.
Jak zamieniasz dane w przewidywane poziomy zamiaru zakupu - lub miłości swojego życia w serwisie randkowym? Wskaźniki to wymierne czynniki napędzające analizę, szczególnie w przypadku danych strukturalnych, a analiza danych obraca się wokół nich.
I oczywiście równie ważnym czwartym krokiem jest nauka i podejmowanie właściwych działań na podstawie tych wyników. Zacznijmy rozumieć te wyzwania, wykorzystując dwa największe sukcesy w biznesowym wykorzystaniu dużych zbiorów danych od tego momentu: rozwój Amazon.com jako rynku i dominacja Google jako wybranej wyszukiwarki. Pierwszy z nich opierał swój sukces na systemie rekomendacji predykcyjnych, podczas gdy drugi opracował metrykę danych - algorytm PageRank Google - dzięki czemu wyniki wyszukiwania były znacznie bardziej trafne dla użytkownika. Oba te przypadki omawiamy bardziej szczegółowo w dalszej części .Oba te sukcesy są przykładami zadawania właściwego pytania. Amazon ma więcej produktów niż jakikolwiek inny detalista. Żaden klient nie znalazłby ich łatwo. Dlatego pytanie Amazon brzmiało: "Który produkt pasuje do jakiej osoby? "Wyzwanie Google było podobne: próbowało znaleźć stronę, której szukasz, na podstawie kilku wskazówek, które otrzymała nie tylko z twojego wyszukiwania, ale także z Twojej lokalizacji i nie tylko. Pomoc w znalezieniu właściwego pytania jest głównym celem tej książki. Należy jednak pamiętać, że nie ma określonego i bezwzględnego sposobu znalezienia właściwego pytania lub, jeśli masz pytanie, znalezienia właściwej miary. To bardzo zależy od twojej firmy i twoich danych. Poza kuloodpornym, pięciostopniowym podejściem, korzystamy z praktycznych przykładów. Pokażemy Ci, jak sformułować konkretne pytanie dotyczące typowych części Twojej firmy. Tekst daje krótkie wprowadzenie do świata danych, a co ważniejsze, wprowadzenie do czwartego "V", wartości. Dowiesz się, jak stworzyć przewagę konkurencyjną. W praktycznych przykładach pokazujemy najczęstsze pułapki i sposoby ich uniknięcia. Wreszcie wspólnym wątkiem w każdym rozdziale jest uczenie się na podstawie tego, czego dane mogą cię nauczyć. Nie tylko w oczywistym sensie wyciągania wniosków z zawartych w nim informacji, ale także w bardziej subtelnym sensie znajomości ograniczeń danych. Czasami dane w mediach społecznościowych mogą dać ci wgląd, którego nie znajdziesz nigdzie indziej, ponieważ agregują ślady cyfrowe dużej rzeszy ludzi. Czasami może brakować krytycznych informacji lub nawet wprowadzić Cię w błąd. Na przykład liczba wyświetleń w YouTube może lub nie być skorelowana z zamiarami zakupu, a strumień na Twitterze może mierzyć najgłośniejsze głosy stronnicze, a nie mądrość tłumu. A czasami te dane będą szczerze cię okłamywać, aby pasowały do celów innych, temat, który omówimy szczegółowo w dalszej części. Uczenie się na podstawie danych i ich charakteru jest kluczową umiejętnością, którą mamy nadzieję Cię nauczyć. Każda jednostka organizacyjna ma swoje unikalne pytania, metryki i wymagania dotyczące danych. Sprzedaż martwi się o najwyższą linię, marketing chciałby osiągnąć zasięg marki, a rozwój produktu chce wiedzieć, jak ulepszyć produkt. Rozdział po rozdziale, przyglądamy się różnym częściom organizacji, aby pokazać, w jaki sposób analiza danych wewnętrznych i zewnętrznych może ulepszyć Twój biznes: po prostu przejdź do swojej sekcji, jak wyjaśniono w poniższej sekcji, dla przykładów z prawdziwego świata
Co oferujemy
Mamy jasny cel: pomóc ci zadawać właściwe pytania, mierzyć właściwe dane i odpowiednią treść oraz uczyć się na podstawie spostrzeżeń, aby odkryć czwarte "V" dużych zbiorów danych. Damy Ci ogólny obraz, którego potrzebujesz, aby skorzystać z szerokiej gamy dostępnych narzędzi - narzędzi, które będą ewoluować poza zakres tego tekstu. Pamiętaj, że nie każdy problem, który omawiamy , będzie problemem dużych zbiorów danych; wręcz przeciwnie. Problemy będą dotyczyły danych i pomiaru danych. Ale czy będziesz potrzebować przetwarzania NoSQL lub milisekund, aby rozwiązać ten problem? Nie. Naszym celem jest nauczenie Cię, dokąd dane mogą Cię poprowadzić, zanim zwiększysz problemy z danymi w górę. Wykorzystamy wiele przykładów z analizy mediów społecznościowych. Ostatecznie chcemy nauczyć Cię, jak pracować z dużą i coraz bardziej powiązaną społecznie siecią danych, aby ulepszyć Twój biznes. Nie musisz koniecznie czytać od początku do końca aby. W zależności od poziomu wiedzy możesz poruszać się po tekściena kilka sposobów, w zależności od tego, jak byś się opisał. Jesteś:
Menedżerem?
Szukasz porady menedżerskiej dla własnego działu, takiego jak marketing lub PR, abyś mógł przejść od razu do właściwej części. Następnie przejdź do reszty lub do części w której wyjaśniamy, w jaki sposób można nadużywać dowolnej metryki. Jeśli Twoja funkcja lub dział nie jest obecna, nie rozpaczaj, ponieważ później oferujemy mały przewodnik do zaprojektowania własnego systemu ask-measure - learn.
Data sicience?
Największym problemem w dziedzinie nauki o danych jest część uczenia się. Co mówią nam te dane? Prawdopodobnie utworzyłeś pulpit nawigacyjny po pulpicie nawigacyjnym dla swoich partnerów biznesowych, ale zastanawiałeś się, jak przenieść go na wyższy poziom. Wybierz dział, który Cię najbardziej interesuje i zacznij czytać. Tekst zawiera wiele niepotwierdzonych historii i przypadków biznesowych na temat efektywnego uczenia się za pomocą danych.
Ktoś z barakiem czasu?
Jeśli znajdujesz się między poprzednimi opisami i nie masz dużo czasu, przejdź do części 2. Sprzedaż ma tę zaletę, że jest łatwa do zmierzenia. Dlatego pytania, koncepcje i metryki tej książki można chyba najlepiej opisać tutaj.
Część 1
W kontekście marketingowym media społecznościowe mogą być wykorzystywane do tworzenia zasięgu, świadomości marki lub zamiaru zakupu - a każda z nich to bardzo różne rzeczy, które często wymagają innego podejścia i różnych środków. Korzystając ze studiów przypadków i przykładów, przeanalizowano, w jaki sposób można wykorzystywać media społecznościowe w celu dotarcia do potencjalnych klientów lub ich dotarcia oraz jakie czynniki wpływają na ich skuteczność. Być może, co ważniejsze, eksploruje mit "osoby wpływowej" i wirusowego rozprzestrzeniania się informacji.
Część 2
Jaka jest różnica między zasięgiem a zamiarem zakupu? W przypadku handlu społecznościowego opartego na danych, zamiar zakupu jest często uzależniony od czynników, takich jak oceny i recenzje generowane przez użytkowników, zdolność do rozpowszechniania informacji o produkcie w sieci społecznościowej oraz rekomendacje oparte na zachowaniu konsumentów w Internecie. Omówiono mechanikę i technologię systemów rekomendacji leżących u podstaw sprzedaży online.
Część 3
Public relations ma dwie kluczowe funkcje: rozpowszechnianie informacji i ostrzeganie ludzi. Dystrybucja informacji za pośrednictwem mediów społecznościowych ma tę zaletę, że pozwala na ocenę zarówno poszczególnych sieci, jak i tego, jak centralni ludzie znajdują się we własnej sieci, podczas gdy wskaźniki zaangażowania w media społecznościowe i topologia sieci mogą pomóc z wyprzedzeniem przewidzieć krytyczne sytuacje. Opisano, jak zmienił się PR w erze mediów społecznościowych i dużych zbiorów danych.
Część 4
Teraz mamy możliwość komunikowania się z naszymi klientami za pośrednictwem mediów społecznościowych i wykorzystania ich śladu danych, aby uzyskać wszystko, od poziomów zadowolenia klientów po zautomatyzowane analizy biznesowe. Analizuje ewolucję obsługi klienta i CRM w erze dużych zbiorów danych.
Część 5
Media społecznościowe i dane CRM są potencjalnie bogatym źródłem danych z badań rynku. Możliwości, takie jak Facebook Graph, pozwalają nam dowiedzieć się więcej o docelowych grupach ludzi niż kiedykolwiek wcześniej, a niektóre firmy wykorzystują swoje dane CRM, aby utrzymanie klientów było jeszcze bardziej przewidywalne. Ale czy media społecznościowe wnoszą cenny wgląd lub hałas w ten proces? Analizuje potencjalną przyszłość społecznego CRM w badaniach biznesowych.
Część 6
Masz nowego przyjaciela Czy to bot, czy nie? Tu omówiono wszystkie sposoby, w jakie fałszywe wyniki mogą wpływać na analitykę mediów społecznościowych w dowolnej z tych funkcji, od fałszywych obserwujących i tweetów po "astroturfing", ruch lub kampanię wykorzystującą automatyczne tożsamości w mediach społecznościowych. Bada także, w jaki sposób natura mediów społecznościowych może być niewłaściwie wykorzystywana do tworzenia fałszywej wirusowości, wpływów i intencji.
Część 7
Czy możemy przewidzieć, czy odniesiesz sukces na studiach, kto wygra następne wybory, czy jaka praca będzie dla Ciebie najlepsza? Przeanalizowano rolę dużych zbiorów danych i mediów społecznościowych w analizach predykcyjnych - naukę przewidywania przyszłych zachowań na podstawie danych. Jest to podsumowanie, które pokazuje, dokąd zaprowadzi nas przyszłość analityki dużych zbiorów danych i mediów społecznościowych.
Sekcja II: Zbuduj swój własny system Ask-Measure-Learn
Czy twój dział nie był wcześniej wspomniany? Czy zostało wspomniane, ale twój problem z danymi jest nieco inny niż tutaj omówiony? A może chcesz zagłębić się w mechanikę analizy dużych zbiorów danych? Jeśli tak, to ta sekcja jest dla Ciebie. Tutaj pomożemy ci sformułować własny system zapytaj-zmień-naucz się, aby zagłębić się w dane:
Część 8
Analiza dużych zbiorów danych zaczyna się od zadawania z góry właściwego pytania. Zdobycie milionów wyświetleń na YouTube lub tysięcy obserwujących na Twitterze może być niezwykle cenne lub w ogóle nic nie znaczyć, w zależności od tego, co jest szczególnie interesujące: Czy chcesz znaleźć nowych klientów? Czy chcesz zwiększyć przychody? A może po prostu chcesz budować świadomość marki? Podobnie, metody eksploracji danych mogą łatwo dać pszenicę lub plewy, w zależności od zadanego pytania i pomiarów / danych użytych do udzielenia odpowiedzi. Przeanalizowano, jak tworzyć mierzalne i wykonalne pytania, które pomogą Ci zrozumieć, co media społecznościowe mogą Ci powiedzieć za pomocą dużych zbiorów danych.
Część 9
Chcesz analizować dane z tweetów opublikowanych na temat problemu lub użyć czyjejś sieci społecznościowej do ukierunkowanego marketingu. Czy wybierasz dokładne dane? Czy to z właściwego kontekstu? Czy zgadza się z Twoimi celami strategicznymi? Czy mylisz związek przyczynowy z korelacją? W tym rozdziale omówiono pracę z danymi ustrukturyzowanymi i nieustrukturyzowanymi, wybór odpowiednich funkcji i zintegrowanie ich z właściwym pytaniem.
Część 10
To, co mierzysz, w dużej mierze decyduje o tym, jakie korzyści uzyskasz z mediów społecznościowych i analizy dużych zbiorów danych. Na przykład "polubienia" na Facebooku mogą mieć bardzo różne znaczenie dla twoich celów w porównaniu do danych z ankiety, wyniku promotora netto lub innych miar. Opisano przykłady i ryzyka związane z powszechnymi wskaźnikami w mediach społecznościowych, a także "paradoksem pomiaru", w którym sam pomiar może mieć wpływ na to, co jest mierzone.
Jeśli dobrze wykonamy naszą pracę, zaczniesz postrzegać analitykę dużych zbiorów danych i mediów społecznościowych jako ustrukturyzowany proces, który rozpoczyna się na długo przed przyłożeniem palca do klawiatury, z jasnymi celami biznesowymi dotyczącymi sposobu wykorzystania i wykorzystania tych danych. Zacznijmy od nauki, jak wykorzystywać dane do celów marketingowych