Użyj właściwych danych
Nie chodzi o "dobre" ani "złe" dane, chodzi o "właściwe" dane.
-TOMAS ANDERSON (@TOMHCANDERSON)
Tom Anderson, dyrektor generalny OdinText, brzmi niemal filozoficznie w swoim oświadczeniu na temat "dobrego" i "złego", ale jego cytat ładnie podsumowuje to, co wielu próbowało powiedzieć: tylko dzięki "właściwym" danym będziesz w stanie wyciągnąć wnioski i działaj na nich. Ale co jest "właściwe"? Po zdefiniowaniu dobrego pytania - to znaczy po zdefiniowaniu pytania - kolejnym wyzwaniem jest ustalenie, jakie dane mogą pomóc odpowiedzieć na to pytanie. Najlepsze pytanie może pozostać bez odpowiedzi, ponieważ używamy lub mierzymy nieprawidłowe dane. Dyskusja obejmuje dwa ważne czynniki:
• Jakiego rodzaju danych (czasami nazywanych także cechami lub zmiennymi) powinniśmy używać? Często firmy udostępniają gotowe pomiary, takie jak współczynniki klikalności użytkowników, ich wiek lub finansowe KPI. Im więcej ich używasz, tym trudniej jest znaleźć relacje i nie przytłoczyć się hałasem. Przy zbyt małej liczbie zmiennych i funkcji możesz jednak nie znaleźć tego, co ma największy wpływ w danej sytuacji. Weźmy za przykład pracę firmy ukierunkowanej na zachowanie. Ma wiele zmiennych dotyczących odwiedzającego, takich jak strony, które wcześniej kliknęła, czas kliknięcia reklamy i jej identyfikator sieci. Może nawet przechowywać sytuację na giełdzie i pogodę w momencie kliknięcia. Nie wszystkie z tych danych są równie pomocne. Okazuje się na przykład, że informacja o przeglądarce jest jedną z najlepszych funkcji do wyboru w kampanii sprzedającej gry online, ponieważ nie każda gra działa w każdym oknie przeglądarki. Wybór funkcji to zatem równowaga między użytecznością a ilością danych. Jest to kluczowy krok w uzyskaniu właściwych danych.
• Ile danych powinniśmy wykorzystać? Media społecznościowe stworzyły ogromne ilości danych i zawsze istnieje pokusa, aby z nich korzystać. Fisheye Analytics przechowuje co miesiąc 25 terabajtów danych lub ponad 300 000 płyt CD. Idealnie chcesz korzystać ze wszystkich danych jednocześnie, ale stwarza to wyzwania inżynieryjne i często może nie poprawić wyniku. Ile danych potrzebujesz, aby opisać linię? Prawidłowo, dwa punkty danych. Czy poprawiłoby to twój model, gdybyś miał milion danych ? Nie! Pytanie o to, ile danych należy użyć, jest często pytaniem o to, jak próbkować dane, aby były istotne statystycznie. Co gorsza, wykorzystanie wszystkich dostępnych danych może ukryć faktyczny problem. W takim przypadku kwestie dotyczące komentarzy w mediach społecznościowych na temat dyrektora generalnego firmy ujawniły się dopiero po zredukowaniu danych do dyskusji na temat neutralności sieci .
Uwaga
Świat nauki o danych i świat statystyki są bardzo podobne. Niemniej jednak obie domeny rozwinęły się z różnych obszarów. Dlatego często ich język może być nieco inny. W dziedzinie analizy danych znajdziesz więcej inżynierów. Nazywają "cechą" to, co naukowiec lub statystyk nazwałby "zmienną". Oba terminy mają podobne znaczenie: jeśli umieścisz swoje dane w arkuszu kalkulacyjnym, "zmienne" lub "cechy" będą zazwyczaj opisane w nagłówkach kolumn arkusza kalkulacyjnego.
Które dane są ważne?
Jest wczesne, słoneczne popołudnie i jesteśmy w jednej z najlepszych niezależnych kawiarni w Nowym Jorku. Kawa jest doskonała, a dyskusja ekscytująca. Przedsiębiorcy przy stole omawiają algorytmy dobierania graczy. Jak komputer najlepiej może łączyć dwie osoby, aby stworzyć największe prawdopodobieństwo małżeństwa? Na pewno istnieje rynek dla tego rodzaju aplikacji, a setki stron już próbują tego dokładnie. Ta grupa przedsiębiorców ma wiele pomysłów na stole:
• Użyj wykresu społecznego każdej osoby.
• Korzystaj z wykresów społecznościowych wszystkich znajomych tej osoby.
• Poproś osobę o ocenę zdjęć, artykułów, filmów itp., Aby zobaczyć, co lubi.
• Zmierz, ile czasu zajmuje mu wypełnienie wstępnego formularza wniosku.
• Sprawdź, ile popełnił błędów ortograficznych.
• Sprawdź, jakiego rodzaju języka używa dana osoba (slang, łatwy i konwersacyjny lub sztywny i formalny).
Lista była coraz dłuższa w miarę dodawania kolejnych punktów danych. "Powinniśmy nawet wykorzystywać informacje DNA, aby dopasować najlepsze pary", zasugerował jeden młody chłopak. Potem zapadła cisza. Czy to było zbyt nierealne? Niezupełnie: GenePartner oferuje to nawet jako usługę, na podstawie badań, które wykazały, że partnerzy są bardziej przyciągani do siebie, jeśli konkretny antygen jest bardzo różny. Zatem DNA, smak, przyjaciele, język - jeśli wszystko to wydaje się rozsądne, co powstrzymuje nas od stworzenia idealnej maszyny do dobierania przeciwników? Pobierz wszystkie dane z Facebooka, Twittera, kwestionariuszy, preferowanych książek, ulubionych filmów, a nawet z analizy DNA i załaduj je do dużej ciemnej "czarnej skrzynki" zwanej uczeniem maszynowym i pozwól, aby duży komputer wykonał zadanie? W tym przypadku nie byłoby potrzeby doświadczenia, a wszystkie nasze wnioski można wyciągnąć za pomocą algorytmów statystycznych. Czy to takie proste? Nie, przynajmniej nie dzisiaj!
Im więcej zmiennych, tym trudniejsze będzie zadanie. Ponadto komputery mają takie same problemy jak ludzie, że nie widzimy lasu dla drzew. Podsumowując, nie jest rozsądne wykorzystywanie wszystkich danych, ale konieczne jest staranne wybieranie zbiorów danych, które mają duży wpływ przyczynowy. Proces ten jest również powszechnie nazywany wyborem funkcji lub regularyzacją. Aby pokierować tym procesem wyboru, możesz użyć jednego z następujących sposobów patrzenia na funkcje
Związek przyczynowy
Czy ta zmienna ma związek przyczynowy z wynikiem pytania?
Błąd
Jak łatwo i czysto możesz zmierzyć tę zmienną?
Koszt
Jak dostępne są dane?
Związek przyczynowy
Powinieneś wybrać funkcje, które mają największy wpływ na odpowiedź na pytanie. Jednak nie zawsze łatwo, jeśli to możliwe, odróżnić związek przyczynowy od korelacji. Spójrzmy na sprawę z British Petroleum: w 2010 r. Platforma BP Deepwater Horizon rozlała 4,9 miliona baryłek (780 000 m3) ropy naftowej i spowodowała katastrofę wzdłuż wybrzeża zatoki w USA. Reakcja wywołała publiczne oburzenie w Stanach Zjednoczonych ,politycy, dziennikarze, celebryci i ogół społeczeństwa zareagowali negatywnie na katastrofę. Ich oburzenie było widoczne w mediach. Fisheye Analytics zebrał wszystkie dane medialne (blogi, Twitter, Facebook, fora informacyjne) dotyczące tego wycieku ropy i stworzył Wynik Net-Sentiment-Score, korzystając z własnego zastrzeżonego algorytmu sentymentu. Wynik netto-sentymentu to stosunek oparty na różnicy między ilością negatywnego sentymentu i pozytywnego sentymentu we wszystkich artykułach, tweetach i postach na blogu. W tym samym czasie nastąpiło publiczne oburzenie, cena akcji BP spadła. Czy istniał związek przyczynowy?
Korelacja a związek przyczynowy
Jak widać, istnieje pewna forma korelacji między ruchami na giełdzie a wynikiem netto nastrojów w dyskusjach publicznych. Innymi słowy, istnieje pewna forma zależności między tymi dwoma zestawami danych. Korelacja pozwala nam powiązać Wynik Sentymentu Netto i cenę akcji ze wzorem matematycznym: dla każdej obniżki Sentymentu Netto cena akcji zmniejszy się o określoną kwotę w USD. Czy możesz jednak stwierdzić, że negatywne tweety powodują niższą cenę akcji? Nie, nie tylko na podstawie korelacji statystycznej. Takie postępowanie byłoby niewłaściwe. Chociaż korelacja jest łatwo ustalana za pomocą analizy statystycznej, związek przyczynowy nie jest łatwy do ustalenia. Co gorsza, w tym rozdziale zobaczymy, że nigdy nie można absolutnie udowodnić związku przyczynowego. Jednak połączenie dowodów statystycznych i logicznego rozumowania może pomóc zasugerować pewne prawdopodobieństwo związku przyczynowego. Aby ustalić, czy liczba negatywnych artykułów spowodowała spadek ceny akcji lub odwrotnie, możemy spojrzeć na tak zwane strukturalne modele przyczynowe (SCM), wprowadzone w 2009 r. Przez profesor UCLA, Judeę Pearl. SCM reprezentują różne pomiary lub zestawy danych schematycznie, wskazując związki przyczynowe za pomocą strzałek.
Bezpośredni efekt. Katastrofa wycieku ropy wywołała oburzenie opinii publicznej we wszystkich rodzajach mediów. To oburzenie spowodowało, że akcjonariusze sprzedali swoje akcje, ponieważ obawiali się, że nazwa firmy zostanie uszkodzona, co może wpłynąć na przyszłe przychody.
Efekt odwrotny. Możliwe może być również odwrotna kolejność. Cena akcji spadła z powodu katastrofy naftowej, ponieważ akcjonariusze zakładali ponure czasy. Upadek spowodował, że opinia publiczna zaczęła o tym mówić. W takim przypadku przyczyna i skutek zostały odwrócone, a wynik sentymentu netto nie miałby wpływu na cenę akcji. W takim przypadku SCM pokazałby opinię publiczną dopiero po spadku cen akcji. Jednym ze sposobów sprawdzenia, który z tych dwóch scenariuszy był prawdziwy, jest użycie znacznika czasu. Gdyby spadek cen akcji nastąpił przed publiczną reakcją w mediach, można przynajmniej odrzucić drugą hipotezę, że reakcja publiczna w mediach spowodowała spadek ceny akcji. Jednak w przypadku BP obie reakcje nakładają się na siebie i dlatego nie można wyciągnąć żadnych wniosków.
Nieznany trzeci. Do tej pory SCM obejmował tylko dwie zmienne: cenę akcji i wynik sentymentu netto. Może się jednak zdarzyć, że istnieją ważne zmienne, których jeszcze nie zidentyfikowaliśmy. Zmienne te nazywane są zmiennymi czającymi się, moderującymi, interweniującymi lub mylącymi. W naszym przykładzie z BP może to być rola rządu. Jak zareagował? Aby uwzględnić rząd, musimy włączyć nowy podmiot do naszego SCM, jak pokazano na Rysunku 9-5. Gdyby rząd był bardzo wymagający w zakresie środków zaradczych na szkody wyrządzone środowisku naturalnemu, to z kolei stworzyłoby przyszłe zobowiązanie dla BP, a tym samym pozwoliłoby na spadek cen akcji. Ujemny wynik sentymentu netto może odzwierciedlać jedynie reakcje rządu, ale nie może powodować faktycznego spadku ceny akcji. Innym wyjaśnieniem może być to, że początkowo politycy nie zareagowali. Ale zmuszeni głośnym publicznym oburzeniem z powodu tego wycieku, politycy zaczęli reagować i żądać płatności wyrównawczych, co z kolei stworzyło przyszłe zobowiązania dla BP, powodując spadek ceny akcji. W takim przypadku wynik sentymentu netto faktycznie spowodował spadek ceny akcji.
Wszystkie powyższe. Jest o wiele więcej możliwych kombinacji niż poprzednio pokazane, a która jest prawdziwa, trudno ją rozgryźć. Nie jest łatwo wiedzieć, co jest przyczyną, a co korelacją. Jednak wszyscy prawdopodobnie możemy się zgodzić, że wszystkie poprzednie efekty odegrały pewną rolę. Ale nawet gdybyśmy mieli poznać związki przyczynowe, nadal nie wiedzielibyśmy, jak silne są te związki.
Testowanie korelacji
Teoretycznie łatwo byłoby znaleźć ciężary dla tych związków przyczynowych. Musisz tylko powtórzyć zdarzenie dokładnie w ten sam sposób i zmienić tylko zmienną, którą chcesz zbadać. W naszym przykładzie oznaczałoby to, że musimy cofnąć czas i znów mieć ten sam wyciek ropy, ale albo zmniejszyć tweety, albo uciszyć rząd. Następnie przyglądamy się reakcji ceny akcji. W praktyce takie eksperymenty z dopasowaniem czasowym nie są możliwe, co prowadzi nas do podstawowego problemu wnioskowania przyczynowego. Paul W. Holland wyjaśnia w doskonałej pracy na temat statystyki i wnioskowania przyczynowego, że nigdy nie będzie pewności przy ustalaniu związku przyczynowego. To dobra wiadomość dla każdego menedżera, który wciąż zadaje pytania, czy można ustalić przyczynę i skutek. Jednak nawet jeśli teoretycznie niemożliwe jest ustalenie związków przyczynowych z pewnością, można obliczyć analizy statystyczne w celu przetestowania związków przyczynowych na pewnym poziomie prawdopodobieństwa:
Błędem jest także wyciąganie wniosków z podstawowego problemu zakłócenia przyczynowego, że wnioskowanie przyczynowe jest niemożliwe. Niemożliwe jest wnioskowanie przyczynowe bez przyjmowania niepotwierdzonych założeń. Nie uniemożliwia to wnioskowania przyczynowego, ale daje powiew niepewności.
-PAUL W. HOLLAND
Testy te miałyby na celu utrzymanie wszystkich okoliczności na stałym poziomie i zmianę tylko jednego parametru na raz. Złoty standard tego można znaleźć w medycynie. Badania kliniczne są tworzone jako randomizowane badania kontrolowane w celu jak najlepszego oszacowania przyczynowego działania leku. Kluczem jest tutaj to, że pacjenci dzieleni są losowo na dwie grupy. Jeden bierze lek, a drugi tylko placebo. W niektórych sytuacjach nawet lekarze przeprowadzający badanie nie wiedzą, która grupa jest która (próba podwójnie ślepa). Jednym z największych zmartwień w tych testach jest to, że przeoczyliśmy zmienną czającą się i że podział próbek nie jest tak naprawdę losowy. W świecie online randomizowane kontrolowane próby są najlepiej znane jako testy A / B. W teście A / B staramy się ograniczyć ryzyko czających się zmiennych, zwiększając tylko próbkę testową.
W medycynie nie możemy poddać wszystkich dostępnych pacjentów badaniu związanemu ze zdrowiem. Jednak w sprzedaży detalicznej online możemy. Niezależnie od tego, czy jest to test medyczny czy test online, kontrolujemy otoczenie. W teście A / B upewniamy się, że ktoś wybrany do projektu strony A nigdy tego nie zrobi i zobaczy stronę internetową B. Jesteśmy w stanie to zrobić, ponieważ mamy prawie pełną kontrolę nad naszym środowiskiem. Na przykład możemy identyfikować odwiedzających za pomocą plików cookie lub adresu IP i wyświetlać im tylko określoną stronę internetową. Systemy te nigdy nie są idealne, ponieważ niektórzy odwiedzający mogą korzystać z kilku urządzeń i dlatego są narażeni na obie wersje. Inni odwiedzający mogą zdecydować o usunięciu plików cookie i w związku z tym zobaczyć różne wersje witryny. Wniosek Holandii, że nie możemy być pewni co do skutku przyczynowego, jest prawdziwy. Jednak, najlepiej jak potrafimy, zmniejszyliśmy potencjalne zmienne czające się. W analizach mediów społecznościowych kontrolowane próby często nie są możliwe. Na przykład BP nie może po prostu stworzyć kolejnego wycieku ropy, aby przetestować inną strategię medialną. Nawet gdyby mógł lub spowodowałby kolejny wyciek ropy (oczywiście, że nie), drugi wyciek ropy zostałby oceniony przez tę samą publiczność na całym świecie, która widziała pierwszą, a to wcześniejsze doświadczenie wpłynęłoby na ich reakcje, więc mielibyśmy jeszcze mniej kontrola zmiennych zewnętrznych. Wyciek ropy z Deepwater Horizon nie był niestety jedynym w historii i można było spróbować wykorzystać przeszłe wydarzenia, by rozdzielić przyczynę i skutek. Ale porównania te stanowią poważne wyzwanie. Wyciek o podobnej wielkości niszczący Stany Zjednoczone to wyciek Lakeview Gusher około 100 lat temu. W 1910 r. media społecznościowe nie istniały, a sposób, w jaki ludzie wyrażają swoje opinie, zmienił się dość radykalnie od tego czasu. Nowszym może być wyciek ropy w zatoce Prudhoe, który miał miejsce w 2006 roku. W tym czasie istniały już media społecznościowe i być może będziesz w stanie zmierzyć reakcję opinii publicznej na to. Ale wyciek ten miał tylko 1% wielkości katastrofy na wodach głębinowych pod względem rozlanego oleju. Było to również na Alasce, a zatem nie wpłynęło na tak wiele osób. Obie różnice sprawiają, że każde porównanie jest dość skomplikowane. Reakcja mediów w przeszłości może stanowić podstawę do porównania, ale nie będzie to trudny pomiar, którego szukamy. Prawdą jest, że BP jest skrajnym przykładem, ale z reguły trudno jest zrozumieć korelację w mediach społecznościowych, ponieważ żadne dwa zdarzenia nie są identyczne. Weźmy na przykład sprzedawcę internetowego, który przekazuje rabaty potencjalnym klientom za pośrednictwem mediów społecznościowych. Podobnie jak BP, nie może łatwo kontrolować, kto widzi kupony, a kto nie. Otwarty charakter mediów społecznościowych uniemożliwia kontrolę. Bez grupy kontrolnej sprzedawca nigdy nie będzie pewien, co skłoniło ludzi do zareagowania na oferowane rabaty.
Błąd lub dlaczego dane strukturalne są najwyższe
Drugim obszarem, na który należy zwrócić uwagę przy wyborze funkcji, jest błąd. Na początku może wydawać się dziwne rozważanie błędów w naszych danych. Jednak prawie każdy typ danych zawiera błąd. Żadna maszyna i żaden proces nie jest w 100% dokładny, dlatego wszelkie dane będą zawierać błędy. W świecie online jesteśmy przyzwyczajeni do tego, że ten błąd jest niewielki. Kliknięcie to kliknięcie. Niektóre kliknięcia mogą zostać zgłoszone, a inne nie, z powodu różnych pomiarów lub różnych systemów, które przetwarzają te kliknięcia później. Sytuacja staje się jeszcze gorsza, jeśli spojrzymy na media społecznościowe. Aby automatycznie zrozumieć tekst pisany przez ludzi, media społecznościowe używają dodatkowych wskaźników, które są obliczane przy użyciu logiki rozmytej. Weźmy przykład nastroju lub wpływu. Te wskaźniki są mierzone bardziej jak prawdopodobieństwo. "Negatywny" sentyment oznacza w rzeczywistości: "Istnieje duża szansa, że istnieje negatywny sentyment". Widzieliśmy algorytmy sentymentalne, w których wielkość błędu była tak duża, że dawały pomiary, które były tylko nieznacznie lepsze niż zgadywanie. Dlatego należy pomyśleć dwa razy przed użyciem tych funkcji w dowolnym pomiarze
Ustawiać : Ustrukturyzowane dane mają niższy poziom błędu i dlatego są często preferowane w stosunku do danych nieustrukturyzowanych.
Zbudowane : Dane strukturalne są dokładnie takie, jak się podaje. Są to dane o z góry określonej kolejności, dzięki czemu komputer może je łatwo odczytać i z nimi pracować. Dane znajdują się w aktach, które komputer może przechowywać, pobierać i przetwarzać. Prostym przykładem byłaby Tabela 9-1. Każdy komputer może to odczytać i użyć reprezentowanych przez siebie zmiennych. Poprzedni przykład to prosta lista, ale struktura danych może być również bardziej złożona, przyjmując formy takie jak tablice, drzewa, wykresy lub tabele skrótów.
Nieustrukturyzowane : Przeciwieństwem danych strukturalnych są dane nieustrukturyzowane. Dane nieustrukturyzowane to informacje, które nie są łatwo analizowane przez komputer. Może to być tekst (jak tweet), obrazy, głos lub inne dane. Innym przykładem może być następujący tweet: "Mam ochotę na jabłka - 1,99 USD - myślałem, że żartują". Ten tweet zawiera pewne informacje, które są również przechowywane w tabeli 9-1, głównie cenę jabłek. Brakuje jednak niektórych informacji:
• Możesz założyć, że cena 1,99 USD powinna być ceną.
• Znasz autora tweeta i że on mieszka w Nowym Jorku, więc cena jest w USD, a nie w dolarach singapurskich. Dodatkowo oznacza to, że cena dotyczy jednego funta jabłek.
• Możesz założyć, że "żartowanie" oznacza pewną reakcję emocjonalną, taką jak smutek lub zdziwienie.
Z drugiej strony komputer będzie miał trudności ze zrozumieniem podstawowej zawartości tego rodzaju tweetów. Nawet po przeszkoleniu w zrozumieniu tego rodzaju nieustrukturyzowanych danych algorytm najprawdopodobniej będzie miał wyższy poziom błędu niż w przypadku danych strukturalnych. Dlatego, jeśli decydujesz, którą funkcję wybrać, najprawdopodobniej usuniesz funkcje, które wykazują błąd. Dane strukturalne są często czymś więcej niż nieustrukturyzowane dane, ponieważ ma mniej błędów. Ta wiedza wyjaśnia, dlaczego media społecznościowe często nie są tak potężne, jak moglibyśmy się spodziewać. Media społecznościowe w dużej mierze generują nieustrukturyzowane dane i często zawierają stosunkowo większy poziom błędu w porównaniu do źródeł ustrukturyzowanych. Jednak pomimo tego niedociągnięcia często zdarza się, że nieustrukturyzowane dane są jedynymi dostępnymi danymi. Weźmy na przykład wysiłki na rzecz poprawy marketingu lub obsługi klienta. Sukces zależy od komentarzy generowanych przez użytkowników, a każdy udany projekt będzie opierał się na nieuporządkowanych danych. Kolejnym powodem, dla którego nieustrukturyzowane dane są coraz częściej wykorzystywane, pomimo tego niedociągnięcia polegają na tym, że wykorzystałeś już wszystkie dostępne dane ustrukturyzowane do analiz i prognoz, a teraz szukasz kolejnej przewagi konkurencyjnej. Przykład można znaleźć w branży finansowej, jak zauważono w "Przewidywaniu rynku akcji" na stronie 206. Fundusze hedgingowe wykorzystały już większość istniejących sygnałów danych do przewidywania zachowań na rynku, dlatego nieustrukturyzowane dane pozostają w dużej mierze niezbadane. Chociaż relacja nieustrukturyzowanych danych do wskaźników finansowych może nie być tak silna jak relacja danych ustrukturyzowanych, takich jak przychody, mamy nadzieję, że możesz uzyskać dodatkowe informacje, których wcześniej nie miałeś.
Kost i wiedza wewnętrzna
Z wyszukiwaniem i przechowywaniem danych wiążą się koszty. Pomimo ogromnej ilości danych przez większość czasu nie będziesz po prostu otrzymywać potrzebnych danych. Konieczne może być zakupienie go na zewnątrz lub utworzenie nowej infrastruktury IT, aby go uzyskać. Ponownie weźmy za przykład pojęcie sentymentu. Jeśli algorytm automatyczny nie jest wystarczjący, możesz zawsze użyć ręcznych czytników, aby określić nastrój. Patrząc na 25 TB danych tekstowych, nie wydaje się to zbyt wykonalne. Dlaczego? Z powodu kosztów. W każdym procesie wyboru funkcji, którego możesz użyć, rolę będzie miał koszt pozyskania lub odzyskania danych. Oprócz kosztów istnieje siła wiedzy poufnej. Dane, które są wyłączną własnością użytkownika, mogą w razie potrzeby zapewnić większą przewagę konkurencyjną niż jakiekolwiek dane publiczne. Z danych publicznych mogą korzystać wszyscy inni, co z kolei nie oznacza trwałej przewagi konkurencyjnej. Weźmy przykład z Moneyball, świetnej książki Michaela Lewisa i fascynującego filmu. Billy Beane, dyrektor generalny Oakland Athletics, wykorzystywał publicznie dostępne statystyki aktywności w grze, aby wykryć niedoszacowanych graczy. Korzystając z tej techniki, mógłby stworzyć zwycięską drużynę, mimo że ma mniejszy budżet niż wielu jego konkurentów. To ekscytująca historia. Ale czy stworzyło to trwałą przewagę konkurencyjną? Nie! Gdy konkurencja zrozumiała, że wykorzystanie danych może pomóc w przewidywaniu wyników, szybko nadrobili zaległości, a dziś wszystkie główne drużyny baseballowe stosują sabermetrics do monitorowania wyników graczy. Podobny przykład można znaleźć w firmach świadczących usługi finansowe. Opierają się na danych publicznych. Ich przewagą konkurencyjną jest algorytm, czyli sposób, w jaki syntezują dane. Tego rodzaju przewaga jest trudna do utrzymania. Nic więc dziwnego, że Kwantowe fundusze hedgingowe to jedna z najbardziej tajnych organizacji, jakie widzieliśmy. Zostaliśmy poproszeni o zawarcie umowy o nieujawnianiu informacji, abyśmy mogli zapoznać się z broszurą firmy. Zapytany, dlaczego firma uważa, że jest to konieczne, ponieważ nie wyświetlono żadnych informacji o ich algorytmach, odpowiedź brzmiała: "Ale nasze wykresy wydajności są w nim, więc możesz być w stanie przekonstruować nasze formuły."Często wykorzystujemy ideę konkurencyjności, która pochodzi od wewnątrz. Może to być jeden z głównych powodów, dla których Twitter nie jest tak cenny jak Facebook. Facebook ma znacznie lepszą kontrolę nad swoimi danymi, podczas gdy Twitter sprzedał swoje dane firmom takim jak Dataswift i Gnip. Z tego powodu dyskutujemy aby nie korzystać z publicznych platform obsługi klienta, ale je posiadać.
PRZYPADEK:
M
Powrcamy do nowojorskiej kawiarni pełnej przedsiębiorców dyskutujących o algorytmach swatania: zrozumieli, że muszą ograniczyć swoje zmienne. Ale jakich zmiennych powinni używać, a które powinni ignorować? Zespół planuje przeanalizować cały Facebook i połączenia użytkownika na Twitterze. Czy ta zmienna powinna być używana w algorytmie swatania?
Błąd
Czy jest technicznie wykonalna analiza wykresów społecznościowych kogoś w odniesieniu do sieci społecznościowych takich jak Facebook i Twitter? A jeśli tak, jaki byłby poziom błędu?
Związek przyczynowy
Czy pomiar wykresu zainteresowań jest prawdziwym odzwierciedleniem jego rzeczywistych zainteresowań? Jak prawdopodobne jest, że ten wykres mierzonych odsetek jest dobrym czynnikiem wpływającym na wybór partnera?
Koszt
Ile kosztuje odzyskanie danych? Czy tylko ty masz te dane i czy jest to potencjalna przewaga konkurencyjna? Jednak wykres społecznościowy może nie być naszym pierwszym wyborem do dobierania par. Dlaczego?
Błąd
Mierzenie liczby połączeń i dla kogo jest łatwe. Albo są to publicznie dostępne informacje, jak na Twitterze, lub są łatwo dostępne po uzyskaniu dostępu do profilu użytkownika na Facebooku. Mniej trudna do zmierzenia jest siła połączenia. Metody mogą obejmować analizę retweetów i zachowania związane z przesyłaniem wiadomości. Jednak taki pomiar najprawdopodobniej będzie zawierał znaczne błędy, ponieważ:
• Nie cała komunikacja może być zmapowana. Na przykład użytkownik może mieć tylko kontakty ze szkoły średniej na Facebooku, ponieważ nie chciał stracić z nimi kontaktu. Jednak jego ważna codzienna aktywność może nie mieć miejsca na Facebooku.
• Istnieją ustawienia prywatności. Coraz więcej przewodników pomaga użytkownikom zachować prywatność części lub całości, a tym samym nie jest łatwo dostępna. Może ta osoba utrzymuje nawet wiele tożsamości online, aby chronić swoją prywatność?
Związek przyczynowy
Dawno temu Goethe wiedział, że powinien istnieć związek przyczynowy między twoją tożsamością a przyjaciółmi: "Powiedz mi, z kim się kojarzysz, a powiem ci, kim jesteś". Ale jak silna jest ta przyczyna? Zwłaszcza w czasach, gdy na Facebooku mamy ponad 500 przyjaciół, a dziedzictwo społeczne nie określa, kogo możemy spotkać. Tak, skutki przyczynowe są prawdopodobnie niewielkie, jak widzieliśmy w rozdziale 1, w którym dyskutowaliśmy, czy sieci społecznościowe mają wystarczające informacje, aby umieszczać reklamy.
Koszt>
Koszt dotarcia do publicznej części tych informacji jest niski. Usługi takie jak Twitter oferują publicznie dostępny dostęp (API), dzięki czemu każdy może korzystać z tych danych. Jeśli jednak każdy może skorzystać z tych informacji, stworzenie przewagi konkurencyjnej będzie trudne. Prywatne dane nie są łatwo dostępne i często trzeba je kupić. Dlatego wykres społecznościowy może nie być naszym pierwszym wyborem. Można argumentować, że sposób, w jaki ludzie korzystają z sieci społecznościowej, zmieni się z czasem, a cała komunikacja zostanie zmapowana. W takim przypadku i jeśli informacje te są dostępne, musielibyśmy ponownie omówić tę dyskusję. Czy istnieją inne zmienne, które mogłyby lepiej pasować do algorytmu swatania? Zgodnie z ideą uporządkowanych danych, zespół wkrótce przeszedł do kwestionariusza. Ustrukturyzowane dane, które można uzyskać za pomocą kwestionariusza, mają kilka zalet
Błąd
Pomiar jest na ogół bardziej dokładny. Załóżmy na przykład, że pytasz w kwestionariuszu, ile lat ma ktoś lub ile wykształcenia ktoś osiągnął. Możemy być całkowicie pewni, że większość ludzi udzieli dokładnej odpowiedzi na to pytanie, więc poziom błędu będzie niski.
Związek przyczynowy
Przyczyna zależy od pytania. Rozważmy na przykład ilość osiągnięć edukacyjnych. Istnieje wiele badań wskazujących, że podobne wykształcenie jest ważne dla dobrego osobistego dopasowania. I powinieneś być w stanie zadać kilka pytań dotyczących wszystkich rodzajów relacji, takich jak zaufanie i nawyki
Koszt
Koszt jest wyższy, ponieważ masz obowiązek stworzenia ankiety i znalezienia respondentów. Jednak później te informacje są twoje i mogą, w razie potrzeby, stanowić przewagę konkurencyjną.
Nie wiemy, czy młody startup OkCupid (@okcupid) postępował zgodnie z koncepcjami przedstawionymi w tym rozdziale. Chris Coyne i Sam Yagan spotkali się w Nowym Jorku i na pewno przyjęli odpowiednie metody. Używają tylko kwestionariusza, w którym dla każdego pytania (na przykład "Jak bardzo jesteś bałaganiarski?") Proszą Cię o:
1. Odpowiedz dla siebie.
2. Odpowiedz, jak chcesz, aby twój partner odpowiedział.
3. Wskaż, jak ważne jest to pytanie.
(Przeczytaj więcej o ich podejściu na swojej stronie internetowej.) Wygląda na to, że system działa, a użytkownicy twierdzą, że pokonuje większość mechanizmów dobierania graczy. Boston Globe nazywa je "Google randek internetowych". 6 OkCupid został zakupiony w 2011 roku przez Match.com
Obawy dotyczące prywatności
Pytanie o to, jakich danych używasz, ma inny wymiar: prywatność. To zawsze był problem. Ale ostatnie odkrycia byłego agenta CIA Edwarda Snowdena uświadomiły wszystkim boleśnie, że jesteśmy monitorowani. Nie wszystko, co możemy zmierzyć, powinno być mierzone. Nie każdy nowy wynalazek oparty na danych spotka się z powszechną akceptacją. Wykorzystanie danych do uzyskania wglądu w twoje życie jest coraz bardziej krytyczne. Pewien rosyjski programista dowiedział się o tym po wydaniu aplikacji iPhone Girls Girls Me. Ta aplikacja połączyła dane lokalizacji z Foursquare z profilami mediów społecznościowych, aby pokazać kobietom, które zameldowały się w pobliskich lokalizacjach, wraz z danymi osobowymi, takimi jak ich wiek, preferencje i sytuacja rodzinna. Po artykule na temat tej aplikacji oburzono się na wykorzystywanie danych osobowych w ten sposób, a niektórzy twierdzili, że seksualnym drapieżnikom łatwiej jest prześladować kobiety. Wkrótce Foursquare wycofało pozwolenie dla Girls Around Me na wykorzystanie danych, czyniąc je bezużytecznymi, a wkrótce potem zostało wycofane z rynku. W związku z tym istnieją wyzwania natury społecznej, oprócz problemów związanych z prawidłowym odpowiedzią na pytanie i poprawnością danych. W "The Creepy Factor" na stronie 21 zajmujemy się kwestią prywatności. Jedną z największych przeszkód w korzystaniu z danych w mediach społecznościowych jest czynnik przerażający lub to, jak reagują na nie konsumenci.
Wybór danych
W ostatniej sekcji omawialiśmy funkcje lub zmienne oraz sposoby ich ograniczenia. Ale nawet jeśli wszystkie funkcje są wybrane, czasem warto zmniejszyć ilość wykorzystywanych danych. Może się to wydawać dziwne w czasie, gdy wszyscy omawiają duże zbiory danych. Dziś masz całą technologię do obsługi dużych ilości danych, więc dlaczego warto je zmniejszyć? Jeśli dane są wartością, czyż więcej danych nie powinno równać się większej wartości?
Dane bez dźwięku to po prostu szum.
-XAVIER AMATRIAN (@XAMAT)
Odpowiedź brzmi nie. Jak zauważył Xavier Amatrian, więcej danych może być po prostu szumem, jeśli nie zostanie właściwie wykorzystany. W innych sytuacjach więcej danych może jedynie stanowić większe obciążenie. Ile punktów danych potrzebujesz do opisania linii? Dwa! Nawet jeśli użyjesz dwóch milionów punktów, nie zmieni to twojej dokładności. Istnieją dwa sposoby ograniczenia danych:
Próbkowanie
Czy wystarczą dwa punkty, czy będę potrzebować więcej? A jeśli potrzebuję więcej, ile? Na pytania te zostaną udzielone odpowiedzi w formie próby.
Podzbiory
Czasami, jak widzieliśmy w "Case Study: Major Telecom Company" na stronie 219, podzbiór może faktycznie ujawnić spostrzeżenia, których nie widzielibyśmy inaczej z powodu hałasu.
Próbkowanie
Pobieranie próbek jest procesem polegającym na wykorzystaniu jedynie małej statystycznie istotnej próbki wszystkich potencjalnych danych w celu uzyskania pewnej wiedzy na temat populacji statystycznej. W przypadku linii wystarczające byłyby dwa punkty danych. Ile punktów potrzebujemy jednak, aby wyszkolić system rekomendacji? Przynajmniej w tym przypadku algorytm nie musi tworzyć wszystkich potencjalnych gałęzi modelu drzewa decyzyjnego. Xavier zgłosił coś podobnego. Przeanalizował potrzebny rozmiar próbki, aby wystarczająco wyszkolić silnik sugestii z Netflix.
Podzbiory
Podzbiór danych może być użyty, jeśli celowo ograniczymy jedną lub więcej zmiennych. W ten sposób możemy zmniejszyć zmienność lub szum i lepiej zobaczyć określone relacje w danych. Do tej pory mówiliśmy o zaletach pracy z danymi ustrukturyzowanymi i nieustrukturyzowanymi. Aby poradzić sobie z nieustrukturyzowanymi danymi, wprowadzamy pomiary w aby uczynić te dane częściowo ustrukturyzowanymi. W kontekście mediów społecznościowych takim pomiarem jest słowo kluczowe. Słowo kluczowe to słowo lub wyrażenie, które musi zawierać się w naszym nieuporządkowanym tekście. Słowa kluczowe stanowią skuteczny sposób na wycięcie części nieustrukturyzowanych danych w celu dalszej analizy lub analizy porównawczej. Jednak słowo kluczowe tworzy również skuteczny podzbiór w zestawie danych. Załóżmy, że chcesz przeanalizować wpływ rozmów w mediach społecznościowych na sprzedaż. Możesz wziąć wszystkie miliardy tweetów, które kiedykolwiek napisano, i spróbuj skorelować je z wynikami sprzedaży. Ten rodzaj pracy wymaga nie tylko dużego nakładu zasobów (ponieważ jest to naprawdę duże zbiory danych), ale jest również całkowicie bezużyteczny. Nie uzyskasz z tego niczego przydatnego, ponieważ nie wygeneruje on żadnych wglądów. Poziom hałasu przekroczy rzeczywisty sygnał, który chcesz zmierzyć. Dlatego używamy słowa kluczowego, a Ty analizujesz tylko korelację między tweetami, które wspominają Twoją markę, a przychodami ze sprzedaży. Chociaż wydaje się to rozsądnym podejściem, nie ma jednej prawdy w sposobie konfigurowania słowa kluczowego. Język ludzki jest wieloaspektowy i istnieje wiele sposobów wyrażenia nawet jednej marki. W rezultacie każdy podzbiór, który tworzymy za pomocą słów kluczowych, jest nowym źródłem błędu.
"Znam słowa kluczowe"
Możesz teraz skinąć głową i powiedzieć, że znasz pojęcie słów kluczowych. Na koniec każdy z nas korzystał już z Google, Bing lub innej wyszukiwarki. Dlatego uważamy, że rozumiemy, jakie są słowa kluczowe. Ale bądź przygotowany na niespodziankę. Konfiguracja słów kluczowych w Google i konfiguracja słów kluczowych do analizy dużych zbiorów danych są bardzo różne. Dobry projekt słowa kluczowego może potrwać tygodnie, a nawet miesiące i nie jest trywialnym problemem. Dlaczego? Czy kiedykolwiek miałeś problem z wyszukiwaniem Google, że pierwszy wpis nie był tym, czego szukałeś, ale drugim lub trzecim na wyświetlonej liście? Jak u większości z nas, zdarza się to często. Wyszukiwanie w Google jest procesem dwuetapowym. W pierwszym kroku wpisujemy słowo kluczowe, a Google wyświetla niektóre wyniki. W drugim kroku ręcznie sprawdzamy te wyniki i wybieramy ten, który najbardziej nam się podoba 25 najlepszych wyników. Dzięki monitorowaniu w mediach społecznościowych nie może być drugiego ręcznego kroku, ponieważ musi to być zautomatyzowany proces. Słowo kluczowe dla marki może generować setki, a nawet tysiące artykułów dziennie. W związku z tym nie ma możliwości ani możliwości przeprowadzenia ręcznego procesu sprawdzania, takiego jak w przypadku wyszukiwania Google. Oczekiwania dotyczące słowa kluczowego dla firmy monitorującej media społecznościowe są znacznie wyższe niż w przypadku wyszukiwania w Google.
Brak prawdy
Słowo kluczowe wspierające zespół marketingowy w analizie wartości marki będzie wyglądać inaczej niż słowo kluczowe, które ostrzeże dział PR o wirusowych dyskusjach na temat marki. Niestety w projektowaniu słów kluczowych nie ma prostej złotej reguły. Każde słowo kluczowe ma swoje wady. Jest ustawiony albo zbyt szeroko lub zbyt wąsko. Więcej informacji na temat konfiguracji słów kluczowych znajduje się na pasku bocznym. Jeśli słowo kluczowe jest skonfigurowane zbyt szeroko, pozwoli na włączenie zbyt wielu niepotrzebnych artykułów, postów, tweetów itp. Do twojego zbioru danych. Spowoduje to zniekształcenie danych analitycznych. Jeśli filtr jest zbyt wąski, może dopuszczać tylko poprawną treść, ale może brakować odpowiednich artykułów. Spowoduje to również zniekształcenie danych analitycznych. Nigdy nie będzie 100% poprawne słowo kluczowe. Musisz wiedzieć o tym fakcie, zanim użyjesz słów kluczowych do podjęcia decyzji. Spójrzmy na przykład na wszystkie opublikowane artykuły dotyczące marki samochodu. Objętość artykułów jest przedstawiona na schemacie Venna Rycina 9-11. Tutaj możesz zobaczyć, jak trudno jest znaleźć równowagę dla aktualnego terminu marki. Zbiór danych obejmuje wszystkie artykuły wspominające termin marki. Ze względu na naszą dyskusję powiedzmy, że nazwa marki to "Renault". Analiza danych jest przeprowadzana dla zespołu marketingowego i powinna powiedzieć im, w jaki sposób publiczna dyskusja na temat "Renault" koreluje z ich wysiłkami pozycjonowania. Oznaczałoby to, że sprzedaż z drugiej ręki lub jakiekolwiek lokalne wiadomości o wypadku z udziałem Renault nie są interesujące. Najprawdopodobniej nie mają one związku z działaniami marketingowymi i dlatego mogą być traktowane jak hałas. Musimy zatem zrobić podpróbkę z danych. Ale jak? Wprowadzając kolejny filtr słów. Na przykład, moglibyśmy wykluczyć wszystkie artykuły wymieniające słowo "wypadek" lub "sprzedaż". Każde wykluczenie spowoduje niestety również wycięcie potrzebnych artykułów. Nie zobaczymy już artykułu informującego o tym, że "sprzedaż samochodów z Renault" wzrosła. Nie zobaczylibyśmy również informacji o "wycofaniu, aby zapobiec dalszym wypadkom". Oba są jednak bardzo istotne dla naszych działań pozycjonujących.
Problemy z właściwym słowem kluczowym
Słowa kluczowe to sposób poruszania się po zestawie danych. Podobnie jak indeks w książce, utworzy się indeks w ramach danych nieustrukturyzowanych. Słowa kluczowe pomagają szybko znaleźć odpowiednią część tekstu. Jednak bez względu na to, czy korzystasz z najnowszej technologii, takiej jak Lucene, która obejmuje szybkie i łatwe "wyszukiwanie pełnotekstowe", problemy z określeniem wyraźnego podzbioru danych pozostają takie same. Każda osoba konfigurowałaby słowa kluczowe inaczej. Nie ma dobra ani zła. Dlatego konfiguracja słów kluczowych jest często najlepszym wysiłkiem . Aby zdefiniować podzbiór danych, powinniśmy używać prostych słów kluczowych, a nie wyszukiwania pełnotekstowego. Proste słowa kluczowe mają ustaloną strukturę: każde słowo kluczowe ma termin podstawowy, który następnie zostaje zawężony przez dodatkowe filtry i wyjątki. Słowa kluczowe, filtry i wyjątki to ciągi tekstowe:
(Słowo podstawowe) ORAZ (Filtruj) NIE (wyjątki)
Ze względu na złożoność projektu słowa kluczowego konfiguracja powinna nigdy nie można tego zrobić bez obszernych testów. Ktoś musi ocenić, czy znalezione artykuły pasują do pytania, czy nie. Jest to ręczny krok, taki jak przegląd, który wykonujemy w wyszukiwarce Google. Dla każdego słowa podstawowego musisz wykonać osobny proces iteracji, aby sprawdzić, czy filtry są odpowiednie. Po zdefiniowaniu wszystkich słów podstawowych są one łączone w jeden zestaw danych do dalszego przetwarzania. Wskazówki krok po kroku to:
1. Badania.
a. Badanie głównego okresu bazowego.
b. Znajdź wyjątki od okresu bazowego.
c. Skróty badawcze.
d. Znajdź wyjątki od skrótów.
e. Zbadaj sposoby wspomnienia o tym wyrażeniu w mediach społecznościowych (np. hashtag lub za pośrednictwem uchwytu na Twitterze).
2. Przetestuj wyniki wyszukiwania i wróć do kroku 1, o ile test nie jest wystarczający.
3. Powtórz krok 1 z innymi sposobami odwoływania się do słowa kluczowego.
4. Przetłumacz podstawowe słowo, skróty i wykluczenia na inne interesujące języki.
5. Sprawdź wyniki tych tłumaczeń.
Krok 3 często można uprościć. Często marka jest najlepsza i jedyny sposób na opisanie tego, czego szukasz. Jednak aby uzyskać dostęp do wszystkich danych, należy wziąć pod uwagę błędy ortograficzne. Jeśli główne słowo kluczowe jest częstym tematem, który można opisać na wiele sposobów (np. Piłka nożna), będziesz potrzebować wsparcia z modeli ontologicznych.
Krok 4 również często można uprościć. Wiele algorytmów indeksowania i wyszukiwania, takich jak wyszukiwanie elastyczne, oferuje obsługę wielu języków. Chociaż jest to wygodne, należy korzystać z nich z dużą ostrożnością. Te tłumaczenia mogą czasami być bardzo mylące. Przejdźmy przez jeden kompletny przykład, wykorzystując producenta samochodów "Renault". Zadaniem powinno być przechowywanie wszystkich artykułów o Renault, aby można je było później wykorzystać do dalszych badań, w tym do dyskusji na temat wypadków i wyprzedaże używane. Badania ujawnią, że Renault jest również marką koniaku, dlatego musimy udoskonalić nasze słowo kluczowe, ponieważ:
"Renault" NIE "Winiarnia" NIE "Koniak"
Czy Renault ma skrót? Tak, symbol giełdowy "RNO". Warto uwzględnić ten termin w wyszukiwaniu; będzie to jednak oznaczać, że musimy wykluczyć niektóre inne warunki "RNO", ponieważ mogą one oznaczać coś innego niż zwykłe akcje. Możesz także dołączyć hashtagi lub uchwyty na Twitterze dotyczące Renault. W wyniku tych badań pojawi się następujące wyrażenie wyszukiwania:
1. ("Renault" NIE "Winiarnia" NIE "Koniak")
2. ("RNO" NIE "Nuklearny" NIE "NITRID")
3. ("Renault-Nissan")
4. ("#Renault")
5. ("#RNO" NIE "Nuklearny" NIE "NITRID")
6. ("# Renault-Nissan")
7. ("@Renault_Live")
8. ("@NissanMotorCo")
Trzeba będzie teraz przejść do badania wszystkich marek Renault, as ludzie mogą odnosić się do Renault, mówiąc po prostu "Clio" lub "Twingo" itp. Po zakończeniu pracy wszystkie te warunki należy sprawdzać indywidualnie, według rodzaju mediów i języka. Weźmy tylko te osiem warunków i ograniczmy się tylko do wiadomości online, Facebooka i Twittera. Nawet przy ograniczeniu nadal istnieją 3 × 8 = 24 różne kontrole. Załóżmy dalej, że chcesz przeanalizować sześć języków. Na koniec potrzebujesz 6 × 8 = 48 różnych ciągów słów kluczowych