Big Data : Case Studies
Jak BigData pomogą zwiększyć wydajność supermarketów
TŁO
Walmart jest największym sprzedawcą detalicznym na świecie i największą firmą na świecie pod względem przychodów, z ponad 2 milionami pracowników i 20 000 sklepów w 28 krajach. Operacje na taką skalę nie są zaskoczeniem, że od dawna dostrzegają wartość w analitykach danych. W 2004 r., Kiedy huragan Sandy uderzył w USA, odkryli, że nieoczekiwane spostrzeżenia mogą się ujawnić, gdy dane zostały przeanalizowane w całości, a nie jako pojedyncze zestawy indywidualne. Próbując prognozować zapotrzebowanie na materiały awaryjne w obliczu zbliżającego się huraganu Sandy, CIO Linda Dillman przedstawiła zaskakujące statystyki. Oprócz latarek i sprzętu ratunkowego, nie spodziewała się ,że zła pogoda doprowadziła do wzrostu sprzedaży truskawek Pop Tarts w kilku innych miejscach. Dodatkowe dostawy zostały wysłane do sklepów na ścieżce huraganu Frances w 2012 r. I sprzedane bardzo dobrze. Od tego czasu firma znacznie powiększyła swoje działy Big Data i analityczne,
stale pozostając w czołówce. W 2015 roku firma ogłosiła, że jest w trakcie tworzenia największej na świecie prywatnej chmury danych, umożliwiając przetwarzanie 2,5 petabajtów informacji co godzinę.
siła, że jest w trakcie tworzenia największej na świecie prywatnej chmury danych, umożliwiając przetwarzanie 2,5 petabajtów informacji co godzinę.
Jaki problem pomaga rozwiązać BigData?
Supermarkety każdego dnia sprzedają miliony produktów milionom ludzi. Jest to niezwykle konkurencyjna branża, na którą spora część ludzi żyjących w rozwiniętym świecie może liczyć na codzienną pomoc. Supermarkety konkurują nie tylko ceną, ale również obsługą klienta i, przede wszystkim, wygodą. Posiadanie odpowiednich produktów we właściwym miejscu i czasie, tak aby odpowiedni ludzie mogli je kupić, przedstawiają ogromne problemy logistyczne. Produkty muszą być efektywnie wyceniane w centach, aby zachować konkurencyjność. A jeśli klienci stwierdzą, że nie mogą dostać wszystkiego, czego potrzebują pod jednym dachem, będą szukać gdzie indziej, co jest lepsze dla ich napiętego harmonogramu.
W jaki sposób wykorzystywane są Big Data w praktyce?
W 2011 roku, wraz z rosnącą świadomością, w jaki sposób dane mogą być wykorzystywane do zrozumienia potrzeb swoich klientów i dostarczania im produktów, które chcieli kupić, firma Walmart założyła @WalmartLabs i zespół ds. Fast Big Data do badań i wdrażania nowych inicjatyw opartych na danych w całej firmie. Kulminacją tej strategii była Data Café - najnowocześniejsze centrum analityczne w siedzibie w Bentonville w stanie Arkansas. W Café zespół analityczny może monitorować 200 strumieni wewnętrznych i zewnętrznych danych w czasie rzeczywistym, w tym 40-petabajtową bazę danych wszystkich transakcji sprzedaży w poprzednim tygodniu. Poważna analiza danych w czasie rzeczywistym jest postrzegana jako klucz do prowadzenia biznesu Wydajność - jak mówi starszy analityk statystyczny Naveen Peddamail:
"Jeśli nie możesz uzyskać wglądu, dopóki nie przeanalizujesz sprzedaży na tydzień lub miesiąc, stracisz sprzedaż w tym czasie. Naszym celem jest zawsze uzyskiwać informacje do naszych partnerów biznesowych tak szybko, jak to możliwe, aby mogli podejmować działania i skracać czas realizacji. Jest to proaktywna i reaktywna analityka. "
Zespoły z dowolnej branży są zaproszone do odwiedzenia Café z problemami z danymi i współpracują z analitykami, aby opracować rozwiązanie. Istnieje również system, który monitoruje wskaźniki wydajności w całej firmie i uruchamia automatyczne powiadomienia, gdy osiągają określony poziom - zapraszając zespoły odpowiedzialne za ich prowadzenie z zespołem ds. Danych na temat możliwych rozwiązań. Peddamail podaje przykład zespołu spożywczego, który stara się zrozumieć dlaczego sprzedaż danego produktu niespodziewanie spadła. Kiedy dane były już dostępne w rękach analityków Café, ustalono bardzo szybko, że spadek ten można bezpośrednio przypisać błędowi cenowemu. Błąd został natychmiast naprawiony, a sprzedaż odzyskana w ciągu kilku dni. Sprzedaż w różnych sklepach w różnych obszarach geograficznych może być monitorowana w czasie rzeczywistym. Pewnego Halloween, jak wspomina Peddamail, wskaźniki sprzedaży nowych ciasteczek był monitorowane, kiedy analitycy zauważyli, że istnieje kilka lokalizacji, w których w ogóle nie sprzedawali. To pozwoliło im wywołać alarm w zespołach odpowiedzialnych za te sklepy, którzy szybko zorientowali się, że produkty nie zostały nawet umieszczone na półkach. Niezupełnie złożony algorytm, ale nie byłby możliwy bez analityki działającej w czasie rzeczywistym. Inną inicjatywą jest społeczny projekt genomu Walmart, który monitoruje publiczne rozmowy w mediach społecznościowych i próbuje przewidzieć, jakie produkty ludzie będą kupować na podstawie ich rozmów. Mają także usługę Shopycat, która przewiduje, w jaki sposób znajomi z zakupów wpływają na ich nawyki zakupowe w danych społecznościowych i stworzyli własną wyszukiwarkę o nazwie Polaris, aby umożliwić im analizę wyszukiwanych haseł wprowadzanych przez klientów na ich stronach internetowych.
Jakie były wyniki?
Walmart powiedział , że system Data Café doprowadził do skrócenia czasu, jaki upłynął od wykrycia problemu w liczbach, do proponowanego rozwiązania od średnio dwóch do trzech tygodni do około 20 minut.
Jakie dane zostały użyte?
Data Café używa stale odświeżonej bazy danych zawierającej 200 miliardów wierszy danych transakcyjnych - i to tylko w ostatnich kilku tygodniach działalności! Ponadto pobiera dane z 200 innych źródeł, w tym danych meteorologicznych, danych ekonomicznych, danych telekomunikacyjnych, danych z mediów społecznościowych, cen gazu oraz bazy danych zdarzeń mających miejsce w pobliżu sklepów Walmart.
Jakie są szczegóły techniczne?
Baza transakcyjna Walmart w czasie rzeczywistym składa się z 40 petabajtów danych. Ogromna ilość danych transakcyjnych zawiera tylko dane z ostatnich tygodni, ponieważ znajduje się tam wartość, o ile idzie o analizę w czasie rzeczywistym. Dane ze sklepów sieci, działów online i jednostek korporacyjnych są przechowywane centralnie w Hadoop (rozproszonym magazynie danych i systemie zarządzania danymi). CTO Jeremy King określił to podejście jako "demokrację danych", ponieważ jego celem jest udostępnienie jej każdemu, kto może z niej skorzystać. W pewnym momencie po przyjęciu rozproszonego systemu Hadoop w 2011 r. analitycy obawiali się, że wolumen rośnie w tempie, które może utrudnić ich analizę. W rezultacie przyjęto politykę "inteligentnego zarządzania" gromadzeniem danych, która wymagała utworzenia kilku systemów zaprojektowanych w celu udoskonalenia i kategoryzacji danych przed ich zapisaniem. Inne stosowane technologie to Spark i Cassandra, a języki R i SAS są używane do opracowywania aplikacji analitycznych.
Wszelkie wyzwania, które trzeba pokonać?
Ponieważ operacja analityczna była tak ambitna jak planowana przez Walmarta, szybka ekspansja wymagała dużej ilości nowych pracowników, a znalezienie właściwych osób o odpowiednich umiejętnościach okazało się trudne. Problem ten nie jest ograniczony do Walmart: niedawna ankieta przeprowadzona przez naukowców Gartnera wykazała, że ponad połowa firm uważa, że ich zdolność do przeprowadzania analiz Big Data jest utrudniona przez trudności w zatrudnieniu odpowiedniego talentu. Jednym z podejść, które Walmart podjął, aby rozwiązać ten problem miała zwrócić się do crowdsourcowanej strony internetowej o konkurs danych naukowych Kaggle - Kaggle ustawiła użytkownikom strony internetowej wyzwanie polegające na przewidywaniu, w jaki sposób wydarzenia promocyjne i sezonowe, takie jak wyprzedaże i święta, wpłynęłyby na sprzedaż wielu różnych produktów. Ci, którzy wymyślili modele, które najbardziej pasowały do prawdziwych danych zebranych przez Walmart, zostali zaproszeni do ubiegania się o stanowiska w zespole ds. Danych. W rzeczywistości, jednym z tych, którzy pracowali dla Walmarta po wzięciu udziału w konkursie, był Naveen Peddamail, którego myśli zawarto w tej sekcji. Gdy nowi analitycy zaczną racę w firmie Walmart, zostaną oni objęci programem rotacji Analytics. Dzięki temu mogą przejść przez każdy inny zespół odpowiedzialny za pracę analityczną, aby umożliwić im uzyskanie szerokiego przeglądu wykorzystania analityki w całej firmie. Starszy rekruter Walmart za operację systemów informatycznych, Mandar Thakur, powiedział :
"Konkurs Kaggle wywołał szum wokół Walmart i naszej organizacji analitycznej. Ludzie zawsze wiedzieli, że Walmart generuje i ma dużo danych, ale najlepsze było to, że pozwoliło to ludziom zobaczyć, jak używamy go strategicznie. "
Jakie są kluczowe punkty nauki i wnioski?
Supermarkety to duże, szybkie, ciągle zmieniające się firmy, które są złożonymi organizmami składającymi się z wielu pojedynczych podsystemów. To sprawia, że są idealnym biznesem do zastosowania analityki Big Data. Sukces w biznesie jest napędzany przez konkurencję. Walmart zawsze był liderem w inicjatywach opartych na danych, takich jak programy lojalnościowe i premiowe, a także całym sercem zaangażował się w najnowsze osiągnięcia w czasie rzeczywistym, elastyczne analizy, które wykazały, że planują pozostać konkurencyjni. Handel detaliczny "cegiełkami" może być postrzegany jako "low tech" - w rzeczywistości prawie epoka kamienia łupanego - w porównaniu do ich krzykliwych, internetowych rywali, ale Walmart pokazał, że to nowatorskie rozwiązanie Big Data jest dla nich tak samo ważna jak dla Amazona czy Alibaby. Pomimo pozornie wygodniejszych opcji, okazuje się, że klienci, czy to z przyzwyczajenia czy preferencji, nadal są gotowi wsiąść do swoich samochodów i podróżować do sklepów kupuj osobiście. Oznacza to
, że nadal istnieje duży rynek, a firmy, które najlepiej wykorzystują dane analityczne, aby zwiększyć efektywność i poprawić jakość obsługi swoich klientów, będą prosperować.
Odkrywanie sekretów wszechświata za pomocą BidgData
Tło
CERN jest międzynarodową organizacją naukowo-badawczą, która zarządza Wielkim Zderzaczem Hadronów (LHC), największym i najbardziej zaawansowanym eksperymentem fizycznym ludzkości. Zderzenia, zamknięte w 17 milach tuneli schowanych 600 stóp pod powierzchnią Szwajcarii i Francji, mają na celu symulację warunków we wszechświecie kilka milisekund po Wielkim Wybuchu. To pozwala fizykom szukać nieuchwytnych cząstek teoretycznych, takich jak bozon Higgsa, które mogłyby dać nam niespotykany wgląd w skład wszechświata. Projekty CERN, takie jak LHC, nie byłyby możliwe, gdyby nie Internet i Big Data - w rzeczywistości Internet powstał w CERN w latach dziewięćdziesiątych. Tim Berners-Lee, często nazywany "ojcem Internetu", opracował protokół hipertekstowy, który łączy Sieć World Wide Web w CERN. Jego pierwotnym celem było ułatwienie komunikacji między naukowcami z całego świata. Sam LHC generuje około 30 petabajtów informacji rocznie - 15 bilionów stron drukowanego tekstu, wystarczających do wypełnienia 600 milionów
szafek - wyraźnie Big Data według dowolnych standardów! W 2013 r. CERN ogłosił, że bozon Higgsa został znaleziony. Wielu naukowców uważa to za dowód, że standardowy model fizyki cząstek elementarnych jest prawidłowy. Potwierdza to, że wiele z tego, co sądzimy, że wiemy o działaniach wszechświata na poziomie subatomowym, jest w zasadzie słuszne, chociaż wciąż pozostaje wiele tajemnic, szczególnie dotyczących grawitacji i ciemnej materii.
Jaki problem pomaga rozwiązać Big Data?
Zderzenia monitorowane w LHC zdarzają się bardzo szybko, a powstałe subatomowe "szczątki" zawierające nieuchwytne, poszukiwane cząstki istnieją tylko kilka milionowych części sekundy, zanim się rozpadną. Dokładne warunki, które powodują uwalnianie cząstek, których szukają w CERN, występują tylko w bardzo precyzyjnych warunkach, w wyniku czego setki milionów kolizji musi być monitorowanych i rejestrowanych co sekundę w nadziei, że czujniki odkryją je . Czujniki LHC rejestrują setki milionów zderzeń między cząsteczkami, z których niektóre osiągają prędkość zaledwie ułamka pod prędkością światła, gdy są przyspieszane wokół zderzacza. Generuje to ogromną ilość danych i wymaga bardzo czułego i precyzyjnego sprzętu do mierzenia i rejestrowania wyników.
W jaki sposób wykorzystywane są Big Data w praktyce?
LHC jest wykorzystywany w czterech głównych eksperymentach, z udziałem około 8000 analityków na całym świecie. Wykorzystują te dane do wyszukiwania nieuchwytnych teoretycznych cząstek i sondowania odpowiedzi na pytania dotyczące antymaterii, ciemnej materii i dodatkowych wymiarów w czasie i przestrzeni. Dane są gromadzone przez czujniki wewnątrz zderzacza, które monitorują setki milionów zderzeń cząstek co sekundę. Czujniki są czułe na światło, więc są to w zasadzie aparaty fotograficzne o rozdzielczości 100 megapikseli, zdolne do robienia zdjęć z niesamowicie dużymi prędkościami. Dane są następnie analizowane za pomocą algorytmów dostrajanych do rozpoznawania podpisów energetycznych pozostawionych przez pojawienie się i zniknięcie egzotycznych cząstek, których poszukuje CERN. Algorytmy porównują powstałe obrazy z danymi teoretycznymi wyjaśniającymi, w jaki sposób wierzymy, że cząstki docelowe, takie jak bozon Higgsa, zadziałają. Jeśli wyniki są zgodne, jest to dowód na to, że czujniki znalazły docelowe cząstki.
Jakie były wyniki?
W 2013 r. Naukowcy CERN ogłosili, że wierzą, iż zaobserwowali i zarejestrowali istnienie bozonu Higgsa. Był to ogromny krok naprzód dla nauki, ponieważ istnienie cząstki było teorią od dziesięcioleci, ale nie można było tego udowodnić, dopóki technologia nie zostanie opracowana na taką skalę. Odkrycie dało naukowcom bezprecedensowy wgląd w podstawową strukturę wszechświata i złożone relacje między fundamentalnymi cząstkami, z których zbudowane jest wszystko, co widzimy, doświadczamy i wchodzimy w interakcje. Poza LHC, CERN istnieje od lat 50. XX wieku i był odpowiedzialny za wiele przełomów naukowych przy wcześniejszych eksperymentach, a wielu światowych naukowców wywodzi się z ich pracy z organizacją.
Jakie dane zostały użyte?
Przede wszystkim LHC zbiera dane za pomocą czujników światła, aby zarejestrować zderzenie i opad, od protonów przyspieszonych do 99,9% prędkości światła. Czujniki wewnątrz zderzaków zbierają energię świetlną emitowaną podczas zderzeń i rozpadu powstałych cząstek i przekształcają ją w dane, które mogą być analizowane za pomocą algorytmów komputerowych. Wiele z tych danych, w gruncie rzeczy fotografie, jest niestrukturalnych. Algorytmy przekształcają wzorce światła rejestrowane przez czujniki na dane matematyczne. Dane teoretyczne - pomysły na temat tego, jak postrzegamy cząstki, na które polujemy, będą działać - są porównywane z danymi czujnika, aby określić, co zostało zrobione w aparacie.
Jakie są szczegóły techniczne?
Worldwide LHC Computing Grid to największa na świecie rozproszona sieć komputerowa, obejmująca 170 centrów komputerowych w 35 różnych krajach. Aby opracować rozproszone systemy zdolne do analizy 30 petabajtów informacji rocznie, CERN zainicjował projekt openlab, we współpracy z ekspertami ds. Danych w firmach, w tym Oracle, Intel i Siemens. Sieć składa się z ponad 200 000 rdzeni i 15 petabajtów przestrzeni dyskowej. 300 gigabajtów na sekundę danych dostarczonych przez siedem czujników CERN jest ostatecznie zmniejszonych do 300 megabajtów na sekundę "użytecznych" danych, co stanowi nieprzetworzoną produkcję produktu. Te dane są udostępniane w strumieniu w czasie rzeczywistym do instytucji akademickich które współpracują z CERN. CERN opracował metody dodawania dodatkowej mocy obliczeniowej w locie, aby zwiększyć moc obliczeniową sieci, nie przerywając jej w trybie offline, w czasach skoku zapotrzebowania na moc obliczeniową.
Wszelkie wyzwania, które trzeba pokonać?
LHC bardzo szybko gromadzi niezwykle duże ilości danych. Żadna organizacja na świecie nie dysponuje mocą obliczeniową i zasobami niezbędnymi do terminowej analizy tych danych. Aby sobie z tym poradzić, CERN zwrócił się do przetwarzania rozproszonego. Już od pewnego czasu używali rozproszonego obliczania. W rzeczywistości Internet, jaki znamy dzisiaj, został pierwotnie zbudowany w celu ratowania naukowców przed wyjazdem do Genewy, kiedy chcieli przeanalizować wyniki wcześniejszych eksperymentów CERN-u. W przypadku LHC, CERN utworzył LHC Distributed Computing Grid, która obejmuje 170 centrów komputerowych w 35 krajach. Wiele z nich to prywatne centra obliczeniowe obsługiwane przez organizacje akademickie i komercyjne, które współpracują z CERN. To równoległe, rozproszone wykorzystanie mocy obliczeniowej komputera oznacza, że można przeprowadzić o wiele więcej obliczeń na sekundę niż nawet najpotężniejsze superkomputery na świecie.
Jakie są kluczowe punkty nauki i wnioski?
Przełomowe prace CERN-u, które znacznie poprawiły naszą wiedzę o tym, jak działa wszechświat, nie byłyby możliwe bez Big Data i analityki. CERN i Big Data ewoluowały razem: CERN był jednym z głównych katalizatorów rozwoju Internetu, który spowodował wiek Big Data, w którym dziś żyjemy. Rozproszone przetwarzanie danych umożliwia wykonywanie zadań, które znacznie wykraczają poza możliwości jednej organizacji do samodzielnego wykonania
W jaki sposób Netflix wykorzystał Big Data, aby dać nam programy, które chcemy?
Tło
Uważa się, że strumieniowa usługa filmowa i telewizyjna Netflix stanowi jedną trzecią ruchu internetowego w USA w godzinach szczytu, a usługa ta ma obecnie 65 milionów członków w ponad 50 krajach korzystających z ponad 100 milionów godzin programów telewizyjnych i filmów dziennie. Dane tych milionów subskrybentów są gromadzone i monitorowane, próbując zrozumieć nasze nawyki oglądania. Ale dane Netflix są nie tylko "duże" w sensie dosłownym. To połączenie tych danych z nowatorskimi technikami analitycznymi sprawia, że Netflix jest prawdziwą firmą Big Data.
Jaki problem pomaga rozwiązać Big Data?
Legendarny hollywoodzki scenarzysta William Goldman powiedział: "Nikt, nikt - nie teraz, nie kiedykolwiek - zna najmniej cholerną rzecz o tym, co jest lub nie do przewidzenia" Mówił to przed pojawieniem się Internetu i Big Data i od tego czasu firma Netflix postanowiła udowodnić, że się myli, budując biznes wokół przewidywania, co dokładnie będziemy oglądać.
W jaki sposób wykorzystywane są duże dane w praktyce?
Szybkie spojrzenie na stronę z ofertami Netflix wystarczy, aby dać ci wyobrażenie o tym, jak poważnie traktuje się dane i analizy. Specjaliści są rekrutowani do pracy w zespołach szczególnie kompetentnych w stosowaniu umiejętności analitycznych w poszczególnych obszarach biznesowych: analityka personalizacyjna, analityka komunikatów, analityka dostarczania treści, analityka urządzeń ,lista jest długa. Mimo że Big Data jest wykorzystywana we wszystkich aspektach działalności Netflix, ich świętym Graalem zawsze było przewidywanie, co klienci będą lubić oglądać. Analityka Big Data to paliwo, które uruchamia "silniki rekomendacji" przeznaczone do tego celu. Intensywności zaczęły się tutaj w 2006
roku, kiedy firma nadal była przede wszystkim działalnością DVD-mailingową (streaming rozpoczął się rok później). Wprowadzili nagrodę Netflix, oferując milion dolarów grupie, która może wymyślić najlepszy algorytm przewidywania, jak klienci ocenią film na podstawie swoich poprzednich ocen. Zwycięski projekt został ostatecznie ogłoszony w 2009 r. I chociaż algorytmy są ciągle aktualizowane i dodawane, zasady nadal stanowią kluczowy element mechanizmu rekomendacji. Początkowo analitycy byli ograniczani brakiem informacji, które mieli na temat swoich klientów - tylko cztery punkty danych (identyfikator klienta, identyfikator filmu, ocena i data obejrzenia filmu) były dostępne do analizy. Gdy tylko przesyłanie strumieniowe stało się podstawową metodą dostawy, wiele nowych punktów danych dotyczących ich klientów stało się dostępne. Te nowe dane umożliwiły Netflix zbudowanie modeli do przewidywania doskonałej sytuacji burzy wśród klientów, którym stale towarzyszyły filmy, które by im się podobały. Szczęśliwi klienci, mimo wszystko, są znacznie bardziej skłonni do kontynuowania subskrypcji. Kolejny kluczowy element prób Netflixa, by dać nam filmy, którymi będziemy cieszyć się, to oznaczanie tagami. Firma płaci ludziom za oglądanie filmów, a następnie oznaczanie tagami elementów, które zawierają filmy. Następnie zasugerują Ci oglądanie innych produktów, które zostały oznaczone podobnie jak te, z których korzystałeś. To tutaj pochodzą niekiedy niezwykłe (i nieco robotowo brzmiące) "sugestie": "W nastroju do zwariowanej komedii dla nastolatków z silną kobiecą przewagą?" powód, dla którego usługa czasami poleca oglądać filmy, które zostały ocenione tylko jedną lub dwiema gwiazdami. Może to wydawać się sprzeczne z intencją ich celu, jakim jest pokazanie mi filmów, które będę lubił. Ale to, co się stało, to fakt, że ważność tych ocen jest większa niż przewidywania, że zawartość filmu spodoba się. W rzeczywistości Netflix zdefiniował prawie 80 000 nowych "mikro gatunków" filmów w oparciu o nasze nawyki oglądania! Niedawno Netflix przeniósł się do pozycjonowania siebie jako twórcy treści, a nie tylko metody dystrybucji dla studiów filmowych i innych sieci. Ich strategia została tu mocno wzmocniona przez ich dane - co pokazało, że ich subskrybenci mieli żarłoczny apetyt na treści wyreżyserowane przez Davida Fincha i z udziałem Kevina Spaceya. Po przelicytowaniu sieci, w tym HBO i ABC, by uzyskać prawa do House of Card, byli tak pewni, że dopasowali swój model predykcyjny do "doskonałego programu telewizyjnego", że sprzeciwiali się konwencji produkcji pilota i natychmiast zlecili wykonanie dwóch sezonów obejmujących 26 odcinków. Aspekt produkcji pod kontrolą Netflix został poinformowany danymi - nawet zakres kolorów zastosowany na obrazie okładki dla serii został wybrany do przyciągnięcia widzów. Ostatecznymi danymi, które firma Netflix ma nadzieję poprawić, jest liczba godzin spędzonych przez klientów korzystających z ich usług. Nie potrzebujesz statystyk, aby powiedzieć, że widzowie, którzy nie spędzają zbyt wiele czasu na korzystaniu z usługi, prawdopodobnie uznają, że nie otrzymują wartości za pieniądze ze swoich subskrypcji, a więc mogą anulować subskrypcje. W tym celu ściśle monitorowany jest sposób, w jaki różne czynniki wpływają na "jakość doświadczenia" i budowane są modele, aby zbadać, w jaki sposób wpływa to na zachowanie użytkowników. Zbierając dane użytkowników końcowych o tym, w jaki sposób fizyczna lokalizacja treści wpływa na wrażenia użytkownika, można wykonać obliczenia dotyczące rozmieszczenia danych, aby zapewnić optymalną obsługę tak wielu domów, jak to możliwe.
Jakie były wyniki?
List do akcjonariuszy Netflixa z kwietnia 2015 roku pokazuje, że ich strategia Big Data się opłacała. Dodali 4,9 miliona nowych subskrybentów w pierwszym kwartale 2015 r., W porównaniu z czterema milionami w tym samym okresie w 2014 r. Netflix włożył wiele tego sukcesu w ich "coraz lepszą zawartość", w tym House of Cards, a Orange to New Black. Ta oryginalna treść jest motorem pozyskiwania nowych członków i utrzymania klientów. W rzeczywistości 90% członków Netflix zaangażowało się w tę oryginalną zawartość. Oczywiście ich zdolność do przewidywania, co widzowie będą zadowoleni, stanowi dużą część tego sukcesu. A co z ich ostatecznym wskaźnikiem: ile godzin klienci poświęcają na korzystanie z usługi? W samym tylko pierwszym kwartale 2015 r. Członkowie
serwisu Netflix przesłali 10 miliardów godzin treści. Jeśli strategia Big Data firmy Netflix będzie nadal ewoluować, liczba ta wzrośnie.
Jakie dane zostały użyte?
Algorytmy rekomendacji i decyzje dotyczące zawartości są zasilane danymi o tym, jakie tytuły klienci oglądają, o oglądanych filmach, czasie spędzonym na wybieraniu filmów, o tym, jak często odtwarzanie jest zatrzymywane (przez użytkownika lub z powodu ograniczeń sieciowych) oraz podanymi ocenami. Aby przeanalizować jakość doświadczenia, Netflix zbiera dane o opóźnieniach spowodowanych przez buforowanie (szybkość buforowania) i przepływność (co wpływa na jakość obrazu), a także lokalizację klienta.
Jakie są szczegóły techniczne?
Mimo że ich bogaty katalog filmów i programów telewizyjnych jest przechowywany w chmurze w Amazon Web Services (AWS), jest również odzwierciedlany na całym świecie przez dostawców usług internetowych i innych hostów. Oprócz obniżenia opóźnienia podczas przesyłania treści na całym świecie, zmniejsza to koszty dla dostawców usług internetowych - oszczędzając im kosztów pobierania danych z serwera Netflix przed przekazaniem go widzom w domu. W 2013 r. rozmiar ich katalogu miał przekroczyć trzy petabajty. Ta ogromna ilość danych wynika z potrzeby posiadania wielu tytułów w maksymalnie 120 różnych formatach wideo, ze względu na liczbę różnych urządzeń oferujących odtwarzanie Netflix. Pierwotnie ich systemy korzystały z baz danych Oracle, ale przełączyły się na NoSQL i Cassandrę, aby umożliwić bardziej złożoną analizę danych niestrukturalnych opartą na Big Data. Przemawiając na światowej konferencji Strata + Hadoop, Kurt Brown, który prowadzi zespół platformy danych w Netflix, wyjaśnia, w jaki sposób platforma danych Netflix stale się rozwija. Infrastruktura danych Netflix obejmuje technologie Big Data, takie jak Hadoop, Hive i Pig oraz tradycyjne narzędzia do analizy biznesowej, takie jak Teradata i MicroStrategy. Zawiera również własne oprogramowanie open source Netflix aplikacje i usługi Lipstick i Genie. Podobnie jak cała podstawowa infrastruktura Netflix, wszystko działa w chmurze AWS. W przyszłości Netflix eksploruje Spark w celu przesyłania strumieniowego, uczenia maszynowego i zastosowań analitycznych, a oni nadal opracowują nowe dodatki do swojego własnego pakietu open source.
Wszelkie wyzwania, które trzeba pokonać?
Chociaż wiele metadanych zebranych przez Netflix - których aktorów oglądający lubią oglądać i o której porze oglądają filmy lub telewizję - to proste, łatwo skwantyfikowane dane strukturalne, Netflix zdał sobie wcześnie sprawę z tego, że wiele cennych danych jest również przechowywanych w bałaganiarskiej, nieustrukturyzowanej zawartości wideo i audio. Aby udostępnić te dane do analizy komputerowej, a tym samym odblokować ich wartość, należało je w pewnym stopniu określić ilościowo. Netflix zrobił to, płacąc zespołom widzów, licząc w tysiącach, aby przesiedzili godziny zawartości, drobiazgowo tagując elementy, które znaleźli w nich. Po przeczytaniu 32-stronicowego podręcznika, płatni widzowie zaznaczyli tematy, problemy i motywy, które miały miejsce na ekranie, takie jak bohater doświadczający religijnego objawienia lub silna kobieca postać, dokonująca trudnego wyboru moralnego. Na podstawie tych danych Netflix zidentyfikował blisko 80 000 "mikro-gatunków", takich jak "filmy komediowe z mówiącymi zwierzętami" lub "dramaty historyczne o tematyce gejowskiej lub lesbijskiej". Netflix może teraz zidentyfikować filmy, które lubisz oglądać, dokładniej niż po prostu zobaczysz, że lubisz horrory lub filmy szpiegowskie, i możesz użyć tego do przewidywania, co chcesz obejrzeć. Daje to nieuporządkowane, niechlujne dane zarys struktury, którą można ocenić ilościowo - jeden z nich podstawowe zasady Big Data. Dzisiaj Netflix zaczął automatyzować ten proces, tworząc procedury, które mogą wykonać migawkę treści w formacie JPEG i analizować, co dzieje się na ekranie przy użyciu zaawansowanych technologii, takich jak rozpoznawanie twarzy i analiza kolorów.
Te migawki mogą być wykonywane w zaplanowanych odstępach czasu lub gdy użytkownik wykonuje określone działanie, takie jak wstrzymanie lub zatrzymanie odtwarzania. Na przykład, jeśli wie, że użytkownik pasuje do profilu, który ma tendencję do wyłączania się po obejrzeniu krwawych lub seksualnych scen, może zasugerować bardziej spokojne alternatywy, gdy następnym razem usiądą, aby coś obejrzeć.
Jakie są kluczowe punkty nauki i wnioski?
Prognozowanie, co widzowie będą chcieli obejrzeć to duża sprawa dla sieci, dystrybutorów i producentów (wszystkie role, które Netflix obecnie wypełnia w branży medialnej). Netflix objął prowadzenie, ale konkurencyjne usługi, takie jak Hulu i Amazon Instant Box Office, a wkrótce także Apple, można również liczyć na ulepszanie i udoskonalanie własnych analiz. Prognozowanie treści jest dziedziną, w której możemy się spodziewać ciągłych innowacji, napędzanych przez silną konkurencję, z biegiem czasu. Netflix zaczął budować fundamenty "spersonalizowanej telewizji", gdzie poszczególni widzowie będą mieli własny harmonogram rozrywki, na podstawie analizy ich preferencji. Idea ta była od dawna opowiadana przez sieci telewizyjne, ale teraz zaczynamy dostrzegać, że stała się rzeczywistością w dobie Big Data
Jak duże dane są wykorzystywane do napędzania sukcesu w produkcji
Tło
Rolls-Royce produkuje ogromne silniki, które są używane przez 500 linii lotniczych i ponad 150 sił zbrojnych. Silniki te generują ogromne ilości mocy i nie jest zaskoczeniem, że firma, która zajmowała się dużymi liczbami, z całego serca przyjęła Big Data.
Jaki problem pomaga rozwiązać Big Data?
Jest to bardzo zaawansowany technologicznie przemysł, w którym porażki i błędy mogą kosztować miliardy - i ludzkie życie. Dlatego ważne jest, aby firma mogła monitorować stan swoich produktów, aby wykryć potencjalne problemy, zanim one wystąpią. Dane zebrane przez firmę Rolls-Royce pomagają projektować bardziej wytrzymałe produkty, sprawnie utrzymywać produkty i zapewniać lepszą obsługę klientów.
W jaki sposób wykorzystywane są duże dane w praktyce?
Rolls-Royce zastosował procesy Big Data w trzech kluczowych obszarach ich działalności: projektowaniu, produkcji i obsłudze posprzedażnej. Spójrzmy na każdy obszar po kolei. Paul Stein, główny dyrektor naukowy firmy, mówi: "Mamy ogromne klastry komputerów dużej mocy, które są wykorzystywane w procesie projektowania. Na każdej symulacji jednego z naszych silników odrzutowych generujemy dziesiątki terabajtów danych. Następnie musimy użyć całkiem wyrafinowanych technik komputerowych, aby przyjrzeć się ogromnemu zestawowi danych i wizualizować, czy dany produkt, który zaprojektowaliśmy, jest dobry czy zły. Wizualizacja Big Data jest tak samo ważna, jak techniki, których używamy do manipulowania nim. "W rzeczywistości mają nadzieję, że będą w stanie wizualizować swoje produkty we wszystkich możliwych skrajnych zachowaniach, w których się wykorzystają. Oni już pracują nad tym dążeniem. Systemy produkcyjne firmy coraz częściej stają się połączone w sieć i komunikują się ze sobą w dążeniu do stworzenia
sieciowego środowiska Internetu rzeczy (IoT). "Właśnie otworzyliśmy dwie światowej klasy fabryki w Wielkiej Brytanii, w Rotherham i Sunderland, produkując dyski do silników odrzutowych i łopatek turbiny "- mówi Stein. "Innowacja polega nie tylko na metalowych procesach bashowania, które są bardzo wyrafinowane i bardzo inteligentne, ale również na zautomatyzowanych schematach pomiarowych i sposobie, w jaki monitorujemy naszą kontrolę jakości komponentów, które wytwarzamy w tych fabrykach. Poruszamy się bardzo szybko rozwiązanie oparte na Internecie Rzeczy. "W zakresie obsługi posprzedażnej silniki i systemy napędowe Rolls-Royce są wyposażone w setki czujników, które rejestrują każdy najmniejszy szczegół dotyczący ich działania i zgłaszają inżynierom wszelkie zmiany danych w czasie rzeczywistym. , który następnie decyduje o najlepszym sposobie działania. Firma Rolls-Royce posiada działające centra serwisowe na całym świecie, w których doświadczeni inżynierowie analizują pobierane dane z silników. Mogą one łączyć dane z silników, aby uwypuklić czynniki i warunki, w których silniki mogą wymagać konserwacji. W niektórych sytuacjach ludzie będą interweniować, aby uniknąć lub złagodzić to, co jest prawdopodobne powodować problem. Coraz częściej Rolls-Royce oczekuje, że komputery same przeprowadzą interwencję. Ponieważ silniki lotnicze są tak niezawodne jak one, nacisk kładzie się na maksymalizację wydajności, oszczędzanie paliwa linii lotniczych i dotrzymywanie harmonogramów. Analiza danych Big Data pomaga firmie Rolls-Royce w zidentyfikowaniu działań związanych z obsługą techniczną dni lub tygodnie z wyprzedzeniem, aby linie lotnicze mogły zaplanować pracę bez pasażerowie doświadczający jakichkolwiek zakłóceń. Aby to poprzeć, analityka na pokładzie silników przechwytuje duże ilości danych generowanych podczas każdego lotu i przekazuje tylko istotne informacje na temat gruntu w celu dalszej analizy. Wszystkie dane dotyczące lotu są dostępne dla inżynierów w celu zbadania i wykrycia drobnych marginesów poprawy wydajności. "Analizy danych są przeprowadzane we wszystkich tych zestawach danych" - mówi Stein. "Szukamy anomalii - czy ciśnienie, temperatura czy pomiary drgań [które] są wskaźnikiem silnika Musi być obsługiwany. "Ogromna liczba czynników branych pod uwagę oznacza, że gdy coś pójdzie nie tak, wszystko, co przyczyniło się do ich identyfikacji, może zostać zidentyfikowane, a system może nauczyć się przewidywać, kiedy i gdzie problem może się pojawić. Kończąc, informacje te są ponownie przesyłane do procesu projektowania.
Jakie były wyniki?
W końcu analiza danych Big Data pomogła firmie Rolls-Royce w usprawnieniu procesu projektowania, skróceniu czasu opracowywania produktów oraz poprawie jakości i wydajności ich produktów. I choć nie podają dokładnych liczb, firma twierdzi, że przyjęcie podejścia opartego na Big Data do diagnozowania usterek, ich korygowania i zapobiegania ponownemu wystąpieniu "znacząco" obniżyło koszty. Mówią również, że usprawniają procesy produkcyjne, umożliwiając wyeliminowanie błędów z przyszłych produktów podczas procesu projektowania. Doprowadziło to również do stworzenia nowego modelu biznesowego dla firmy. Uzyskanie tego poziomu wglądu w działanie swoich produktów oznacza, że Rolls-Royce był w stanie zaoferować klientom nowy model usług, który nazywają Total Care, gdzie klienci są obciążani za godzinę za korzystanie z ich silników, a wszystkie koszty serwisowania są ponoszone przez firmę Rolls-Royce. "Ta innowacja w dostarczaniu usług była przełomowa i jesteśmy bardzo dumni z tego, że przeprowadziliśmy ten konkretny krok w branży" - mówi Stein. "Poza sprzedażą detaliczną jest to jedna z najlepszych wyrafinowanych zastosowania Big Data, o których wiem. "
Jakie dane zostały użyte?
W firmie Rolls-Royce nacisk kładziony jest przede wszystkim na dane wewnętrzne, w szczególności czujniki zamontowane w produktach firmy. Dane operatorów są odbierane w postaci bezprzewodowych transmisji z samolotu (radio VHF i SATCOM na trasie oraz 3G / Wi-Fi przy bramce) i
zawierają zestawienie raportów dotyczących wydajności. Zazwyczaj obejmują one migawki osiągów silnika w kluczowych fazach lotu, takich jak start, gdy silnik ma maksymalną moc, wznoszenie i jazdę (stan ustalony). Inne raporty zawierają szczegółowe informacje o wszelkich interesujących wydarzeniach podczas lotu, w których dostępne są nagrania o wysokiej częstotliwości przed i po wydarzeniu. Komunikaty konserwacyjne generowane przez samolot, raporty o ruchu (znaczniki czasu i lokalizacje) oraz profile całego lotu zapewniają jeszcze więcej szczegółów. Firma generuje również ogromną ilość danych w swoim procesie produkcyjnym. Stein podaje jeden konkretny przykład: "W naszej nowej fabryce w Singapurze generujemy pół terabajta danych produkcyjnych na każdym pojedynczym piórze wentylatora. Produkujemy 6000 łopatek wentylatora rocznie, więc to trzy petabajty danych dotyczących produkcji tylko jednego komponentu. To dużo danych. "
Jakie są szczegóły techniczne?
Przechowywanie
Ilość danych szybko rośnie, zarówno ze względu na wzrost floty, jak i coraz częstsze wprowadzanie większej ilości samolotów wyposażonych w dane. Najnowsza generacja silników przekazuje tysiąc razy więcej informacji niż silniki wprowadzone w latach 90. ubiegłego wieku. To stwarza zapotrzebowanie na tanie, skalowalne przechowywanie, a także szybkie przetwarzanie i odzyskiwanie. Rolls-Royce utrzymuje solidną i bezpieczną infrastrukturę chmury prywatnej dzięki zastrzeżonemu sposobowi magazynowania, który optymalizuje przepustowość przetwarzania przy jednoczesnym utrzymaniu jeziorka danych do badań offline. Patrząc w przyszłość, coraz więcej będzie się wykorzystywać do przechowywania w chmurze, ponieważ połączonych jest więcej źródeł danych, w tym danych z Internetu Rzeczy, otwierając nowe usługi dla klientów firmy. Zwiększy to zdolność do pozyskiwania danych w celu zbadania wydajności floty i określenia nowych możliwości dalszej poprawy lub rozszerzenia świadczonych usług.
Analityka
Rolls-Royce wykorzystuje wyrafinowane i najlepsze w swojej klasie analityki danych, aby dokładnie monitorować przychodzące strumienie danych. Wykrywa to zarówno rozpoznane tryby degradacji poprzez dopasowanie sygnatur i nowe anormalne zachowania. Nacisk na oba podejścia polega na wczesnym wykryciu z pewną diagnozą i rokowaniem, przy jednoczesnym minimalizowaniu wskaźnika fałszywych trafień. Jest to podstawa każdego programu analitycznego, zarówno na dużych, jak i na małych danych - jeśli wyniki mają niską wiarygodność lub nie są dostępne w odpowiednim czasie dla właściwych osób, wysiłek jest marnowany.
Wszelkie wyzwania, które trzeba pokonać?
Brak wyszkolonych i doświadczonych analityków danych jest często wymienianym wyzwaniem, a Rolls- Royce nie jest wyjątkiem. "Umiejętności zawsze stanowią problem" - mówi Stein. "Zdobywanie talentu najwyższej klasy nigdy nie jest łatwe, ale możesz ułatwić sobie pracę, przechodząc tam, gdzie znajduje się największy talent." Aby rozwiązać ten problem, w 2013 r. Rolls-Royce przeprowadził badania Big Data w centrum swoich laboratoriów korporacyjnych , ustanowiony we współpracy z Singapore Nanyang Technology University. Mówiono, że kluczowe obszary badań mają charakter elektrycznego systemy zasilania i sterowania, technologie wytwarzania i naprawy oraz inżynieria obliczeniowa. Opiera się to na istniejących partnerstwach firmy z najlepszymi uniwersytetami w Wielkiej Brytanii i na całym świecie i pomaga zapewnić łatwiejszy dostęp do nowych ekscytujących talentów.
Jakie są kluczowe punkty nauki i wnioski?
W końcu analiza danych Big Data pomogła firmie Rolls-Royce w usprawnieniu procesu projektowania, skróceniu czasu opracowywania produktów oraz poprawie jakości i wydajności ich produktów. I choć nie podają dokładnych liczb, firma twierdzi, że przyjęcie podejścia opartego na Big Data do diagnozowania usterek, ich korygowania i zapobiegania ponownemu wystąpieniu "znacząco" obniżyło koszty. Mówią również, że usprawniają procesy produkcyjne, umożliwiając wyeliminowanie błędów z przyszłych produktów podczas procesu projektowania. Doprowadziło to również do stworzenia nowego modelu biznesowego dla firmy. Uzyskanie tego poziomu wglądu w działanie swoich produktów oznacza, że Rolls-Royce był w stanie zaoferować klientom nowy model usług, który nazywają Total Care, gdzie klienci są obciążani za godzinę za korzystanie z ich silników, a wszystkie koszty serwisowania są ponoszone przez firmę Rolls-Royce. "Ta innowacja w dostarczaniu usług była przełomowa i jesteśmy bardzo dumni z tego, że przeprowadziliśmy ten konkretny
krok w branży" - mówi Stein. "Poza sprzedażą detaliczną jest to jedna z najlepszych wyrafinowanych zastosowania Big Data, o których wiem. "
Jak Big Oil wykorzystuje Big Data
Royal Dutch Shell to czwarta co do wielkości firma na świecie pod względem przychodów. Wraz z BP, ExxonMobil, Total i Chevron są jednym z "supermajorów", które przerabiają większość paliwa, które zasila naszą cywilizację mocą. Są pionowym przedsiębiorstwem zintegrowanym, z udziałem na każdym etapie procesu przekształcania paliw kopalnych w energię dla domów, pojazdów i przedsiębiorstw - wydobywanie, rafinacja, pakowanie, dystrybucja i handel detaliczny. W ostatnich latach opracowali koncepcję pola naftowego opartego na danych, próbując zwiększyć wydajność, zmniejszyć koszty i poprawić bezpieczeństwo w całej branży.
Jaki problem pomaga rozwiązać Big Data?
Świat stoi w obliczu kryzysu energetycznego w obliczu rosnącej liczby ludności i coraz mniej licznych zasobów nieodnawialnych. Podczas gdy podejmowane są próby generowania większej ilości energii ze źródeł odnawialnych lub alternatywnych, zdecydowana większość zużywana przez nas energia pochodzi z nieodnawialnego oleju, gazu i węgla. Podaż znanych zasobów maleje, a niełatwy stan międzynarodowej polityki w wielu częściach świata zwiększa trudność eksploracji. Oznacza to, że koszty wydobycia nieuchronnie wzrosną, ponieważ wydobywający będą zmuszeni szukać głębiej i dalej. Poszukiwanie węglowodorów wiąże się z ogromną ilością siły roboczej, sprzętu i energii. Przy kosztach wiercenia typowych głębokowodnych szybów naftowych o wartości do 100 milionów dolarów lub więcej, absolutnie niezbędne jest wiercenie w miejscach, które zapewnią najlepsze nagrody.
W jaki sposób wykorzystywane są Big Data w praktyce?
Tradycyjnie eksploracja nowych zasobów polegała na wprowadzeniu czujników do ziemi w celu wychwycenia fal sejsmicznych o niskiej częstotliwości powodowanych przez aktywność tektoniczną. Te fale energii przepływające przez skorupę ziemską będą inaczej rejestrować się na czujnikach, w zależności od tego, czy przemieszczają się one przez twardą skałę, ciecze lub gaz, wskazując prawdopodobną lokalizację złóż węglowodorów. W przeszłości mogło to często okazać się trafieniem i brakiem, a kosztowne, czasochłonne ćwiczenia eksploracyjne byłyby potrzebne, aby potwierdzić ustalenia z pierwszego badania. W wielu przypadkach te ćwiczenia testowe mogą przynieść rozczarowujące wyniki, a koszty przekraczają dochód, jaki mogą generować depozyty. Jednak dzięki naszym ogromnie zwiększonym możliwościom monitorowania, rejestrowania i analizowania danych, w ostatnich latach opracowano znacznie bardziej wydajne technologie. Podczas gdy poprzednio badanie mogło obejmować kilka tysięcy odczytów, dzisiaj będzie to zazwyczaj ponad milion. Dane te są następnie przesyłane do systemów analitycznych i porównywane z danymi z innych witryn wiertniczych na całym świecie. Im ściślej pasuje do profili innych witryn, w których występuje obficie
zasoby zostały znalezione, tym większe prawdopodobieństwo, że operacja wiercenia na pełną skalę się opłaci. Co więcej, Big Data jest również wykorzystywana w Shell do monitorowania wydajności i stanu ich urządzeń. Wykorzystanie technik pionierskich w produkcji w przemyśle maszynowym czujniki zbierają dane dotyczące działania każdego urządzenia w miejscu wiercenia, umożliwiając dokładną prognozę jego działania i prawdopodobieństwa awarii. Pozwala to na rutynową konserwację i przeprowadzane bardziej efektywnie, dodatkowo obniżające koszty ogólne. W całej swojej logistyce, dystrybucji i sprzedaży detalicznej Big Data łączy się z wieloma zewnętrznymi źródłami, w tym lokalnymi czynnikami ekonomicznymi i danymi meteorologicznymi, które przechodzą do złożonych algorytmów zaprojektowanych w celu określenia ceny, jaką płacimy przy pompach.
Jakie były wyniki?
Chociaż Shell wraz z innymi firmami zajmującymi się poszukiwaniem i wierceniem ropy naftowej i gazu utrzymują w tajemnicy temat dokładnego charakteru analityki, którą zatrudniają, oraz konkretnych danych, które gromadzą, mówią, że są bardziej niż kiedykolwiek przekonani o swojej zdolności do prognozy rezerw, dzięki zaawansowanym analizom Big Data. Na pewno jest wiele do zrobienia: zwiększając ilość ropy, którą wiercą na całym świecie zaledwie o jeden procent w ciągu roku, supermajorzy wytwarzają wystarczającą ilość paliwa, aby zapewnić planecie moc przez kolejne trzy lata.
Jakie dane zostały użyte?
Shell zbiera dane, które pozwalają im obliczyć prawdopodobną wielkość zasobów ropy i gazu, monitorując fale sejsmiczne pod powierzchnią ziemi. Dokładny charakter tych pomiarów i analiz jest ściśle strzeżony tajemnica handlowa, jednak poza tym, że "wiele milionów" tych pomiarów jest wykonywanych w dowolnym proponowanym miejscu przed rozpoczęciem wiercenia.
Jakie są szczegóły techniczne?
Shell wykorzystuje kable światłowodowe i technologię czujników opracowaną przez firmę Hewlett- Packard do przeprowadzania badań potencjalnych miejsc wiercenia. Dane są przechowywane i analizowane za pomocą infrastruktury Hadoop działającej na serwerach Amazon Web Service. Wolumeny danych są również tajemnicą przemysłową, chociaż wiadomo, że pierwszy test systemu zgromadził około jednego petabajta informacji, i szacuje się, że dotychczas Shell wygenerował około 46 petabajtów za pośrednictwem programu opartego na danych dotyczących pól naftowych. Uważa się, że ich dedykowany zespół analityczny składa się z około 70 pracowników. Shell jest znany z tego, że pracował z ekspertami od efektów specjalnych i filmowych w DreamWorks, aby stworzyć ich narzędzia do wizualizacji, które zapewniają analitykom 3D i 4D reprezentacje pozwalające na zbadanie przewidywanych rezerw.
Wszelkie wyzwania, które trzeba pokonać?
Ogromny wzrost ilości danych generowanych na polach naftowych oznacza, że należy opracowywać coraz bardziej zaawansowane narzędzia analityczne w celu bardziej wydajnego określania cennych sygnałów wśród szumu tła danych potrzebne były uaktualnienia systemu, ponieważ istniejące platformy analityczne nie były w stanie przeprowadzić analiz predykcyjnych niezbędnych do dokładnego tworzenia prognoz z generowanych Big Data. Ponadto początkowo w branży panował opór przed przejściem od deterministycznego, opartego na obserwacji podejścia do statystycznie napędzanego modelu probabilistycznego. Oczywiście ostatnio wiele mówiono o potencjale tego, co nazywa się "niekonwencjonalnymi zasobami" - takimi jak gaz łupkowy i łupkowa ropa naftowa - aby wypełnić lukę spowodowane przez coraz droższe konwencjonalne zasoby. Jednym z problemów jest jednak to, że istnieje stosunkowo niewiele danych historycznych dotyczących nowych i
kontrowersyjnych metod wydobywania tych zasobów, takich jak szczelinowanie. Jednak, jako ramię branży, które powstało podczas rewolucji Big Data, jest to obszar wielu badań, w których dokonuje się szybki postęp.
Jakie są kluczowe punkty nauki i wnioski?
Dopóki nauka i społeczeństwo nie ewoluują do punktu, w którym mamy niezawodne alternatywy, świat zależy od paliw kopalnych. Z trudnością ze znalezieniem nowych rezerw rosnących wraz z kosztem wydobycia, Big Data jest kluczem do zwiększenia wydajności i redukcji kosztów wydobycia i dystrybucji. W silnie pionowo zintegrowanych branżach, takich jak paliwo, efektywność ma efekt skumulowany, ponieważ oszczędności są przekazywane wzdłuż łańcucha dostaw. Oznacza to, że analityka może być stosowana na każdym etapie procesu, identyfikując miejsca, w których wąskie gardła powodują problemy, a najbardziej prawdopodobne jest zwiększenie wydajności. Chociaż spółki naftowe i gazowe konsekwentnie osiągają ogromne zyski, rosną i spadają Koszt produkcji energii często powoduje niestabilność na rynkach międzynarodowych i może mieć ogromny wpływ na nasze indywidualne koszty utrzymania, a także konsekwencje polityczne. Bardziej dokładne prognozowanie, a także bardziej wydajne i usprawniona dystrybucja, pomaga zminimalizować
tę zmienność.
Jak duże dane przekształcają opiekę zdrowotną
TŁO
Firma Apixio z siedzibą w Kalifornii, specjalizująca się w obliczeniach kognitywnych, została założona w 2009 roku z myślą o odkryciu i udostępnieniu wiedzy klinicznej ze zdigitalizowanej dokumentacji medycznej, aby usprawnić proces podejmowania decyzji dotyczących opieki zdrowotnej. Wraz z zespołem ekspertów ds. opieki zdrowotnej, naukowców zajmujących się danymi, inżynierami i ekspertami w dziedzinie produktów firma postawiła sobie za cel umożliwienie dostawcom usług medycznych uczenia się od dowodów opartych na praktykach do indywidualnego dostosowania opieki.
Jaki problem pomaga rozwiązać Big Data?
Szokujące 80% informacji medycznych i klinicznych na temat pacjentów składa się z niestrukturalnych danych, takich jak pisemne notatki lekarza. Jak powiedział dyrektor generalny Apixio Darren Schulte: "Jeśli chcemy nauczyć się, jak lepiej dbać o osoby i lepiej zrozumieć zdrowie całej populacji, musimy być w stanie wydobywać nieustrukturyzowane dane do wglądu". Opieka zdrowotna to nie brak danych, ale nieuporządkowany charakter danych: wiele, wiele różnych formatów i szablonów, z których korzystają podmioty świadczące opiekę zdrowotną, oraz wiele różnych systemów przechowujących te informacje. Aby rozwiązać ten problem, Apixio opracował sposób dostępu do tych informacji klinicznych i ich sensu.
W jaki sposób wykorzystywane są Big Data w praktyce?
Elektroniczna dokumentacja medyczna (EHR) istnieje od jakiegoś czasu, ale nie ma na celu ułatwienia analizy danych i przechowywania danych w wielu różnych systemach i formatach. Zanim więc Apixio będzie mógł przeanalizować jakiekolwiek dane, najpierw muszą wyodrębnić dane z tych różnych źródeł (co może obejmować notatki lekarskie, zapisy szpitalne, rządowe zapisy Medicare itp.). Następnie chcieli zmienić te informacje w coś, co komputery mogą analizować. Notatki dla lekarza mogą
występować w wielu różnych formatach - niektóre są pisane odręcznie, a niektóre są w zeskanowanym formacie pliku PDF - więc Apixio wykorzystuje technologię OCR (optyczne rozpoznawanie znaków), aby stworzyć tekstową reprezentację tych informacji, które komputery mogą odczytać i zrozumieć. Apixio współpracuje z danymi wykorzystującymi różne metody i algorytmy oparte na uczeniu maszynowym i posiadające możliwości przetwarzania naturalnego języka. Dane mogą być analizowane na poziomie indywidualnym w celu stworzenia modelu danych pacjenta, a także mogą być agregowane w populacjach w celu uzyskania większej wiedzy na temat rozpowszechnienia choroby, schematów leczenia itp. Schulte wyjaśnia: "Tworzymy" obiekt pacjenta", zasadniczo profil złożony z wykorzystaniem danych uzyskanych w wyniku przetwarzania tekstu i wydobywania tekstu oraz zakodowanych danych dotyczących opieki zdrowotnej. Tworząc ten indywidualny profil i grupując osoby o podobnych profilach, możemy odpowiadać na pytania o to, co działa, a co nie w tych osobach, co staje się podstawą spersonalizowanej medycyny" .Tradycyjna medycyna oparta na dowodach w dużej mierze opiera się na badaniach metodologicznych. wady lub randomizowane badania kliniczne ze stosunkowo niewielkimi populacjami, które mogą nie generalizować dobrze poza tym konkretnym badaniem. Poprzez wydobycie na świat opartych na praktyce danych klinicznych - kto ma jaką kondycję, jakie zabiegi działają, itd. - organizacje mogą się wiele nauczyć o tym, jak się opiekują jednostkami. Schulte, lekarz, który był głównym lekarzem Apixio, zanim został dyrektorem generalnym, mówi: "Myślę, że może to pozytywnie zakłócić to, co [w branży opieki zdrowotnej] zrobić. Możemy nauczyć się więcej z praktyki medycyny i udoskonalić nasze podejście do opieki klinicznej. Dzięki temu jesteśmy bliżej "systemu opieki zdrowotnej". Nasze myślenie o tym, co faktycznie działa, a co nie, jest aktualizowane dzięki danym z rzeczywistych danych. "Pierwszy produkt pochodzący z platformy technologicznej Apixio nosi nazwę HCC Profiler. Klienci tego produktu dzielą się na dwie grupy: plany ubezpieczeniowe i sieci opieki zdrowotnej (w tym szpitale i kliniki). Medicare stanowi dużą część ich działalności, w szczególności tych osób w Medicare, które zdecydowały się na plany w zakresie organizacji utrzymania zdrowia (HMO) (zwane Medicare Advantage Plans), które w 2015 roku stanowiły prawie 17 milionów osób w USA. Plany zdrowotne i lekarz organizacje mają motywację do zarządzania całkowitymi kosztami opieki nad tymi osobami. Aby to zrobić, organizacje te muszą wiedzieć o wiele więcej na temat każdej osoby: Jakie choroby są aktywnie leczone? Jaki jest stopień ich choroby? Jakie są różne zabiegi dla tych osób? Jest to o wiele łatwiejsze do zrozumienia, kiedy możesz uzyskać dostęp do tych 80% danych medycznych, które wcześniej były niedostępne do analizy, i uzyskać je poza zakodowanymi danymi znajdującymi się w zapisie elektronicznym oraz w rozliczeniach lub administracyjnych zestawach danych.
Jakie były wyniki?
Dla tych pacjentów w Medicare Advantage Plans, Medicare płaci "ograniczoną płatność" sponsorującemu planowi opieki zdrowotnej lub organizacji świadczącej usługi - miesięczna płatność obliczana dla każdej osoby na podstawie przewidywanych kosztów opieki zdrowotnej w danym roku. Płatność jest obliczana przy użyciu modelu przewidywania kosztów, który uwzględnia wiele czynników, w tym liczbę, rodzaj i dotkliwość warunków leczonych dla danej osoby. Zrozumienie tych warunków jest krytyczne nie tylko dla szacowania kosztów opieki zdrowotnej dla osób w danym okresie, ale także dlatego, że informacje te są również bardzo przydatne, aby pomóc w lepszym zarządzaniu opieką w populacji. Tradycyjnie, aby zrozumieć takie informacje o pacjentach, eksperci przeszkoleni w czytaniu wykresów i kodowaniu informacji ("koderów") będą musieli przeczytać całą tabelę pacjentów, szukając dokumentacji dotyczącej chorób i leczenia. Jest to żmudny i kosztowny sposób wydobywania informacji z dokumentacji pacjenta, który jest obarczony ludzkim błędem. Apixio wykazało, że komputery mogą umożliwić programistom odczytywanie dwóch lub trzech razy więcej wykresów na godzinę niż sam przegląd ręczny. Oprócz przyspieszenia procesu analizy wykresów, Apixio odkrył, że komputery są również bardziej dokładne. Poprawa dokładności może wynosić nawet 20% w stosunku
do tego, co programista odczytujący wykres mógłby znaleźć. Dodatkową korzyścią jest zdolność komputera do znajdowania luk w dokumentacji pacjenta, zdefiniowanej jako notatka lekarza o przewlekłej chorobie w historii pacjenta bez niedawnej oceny lub planu. Na przykład w okresie dziewięciu miesięcy w populacji 25 000 pacjentów, Apixio wykrył ponad 5000 przypadków chorób, które nie zostały udokumentowane w sposób jasny i właściwy. Takie luki mogą prowadzić do niedokładnego obrazu występowania i leczenia choroby, co może negatywnie wpłynąć na koordynację i opiekę nad pacjentami. Te luki w dokumentach stanowią świetny sposób na lepsze kształcenie lekarzy w zakresie odpowiedniej dokumentacji. Schulte wyjaśnia: "Jeśli nie otrzymujesz tych informacji w odpowiedni sposób, w jaki sposób system może koordynować i zarządzać opieką nad osobą? Jeśli nie wiesz, co to jest, co leczysz i kto jest dotknięty czym, nie wiesz, jak koordynować opiekę nad populacją i zarządzać nią w celu zmniejszenia kosztów i poprawy wyników dla osób. "
Jakie dane zostały użyte?
Apixio działa zarówno z danymi strukturalnymi, jak i nieustrukturyzowanymi, chociaż większość ich danych to niestrukturalne, opracowane na maszynie karty kliniczne. Mogą to być notatki GP, notatki konsultantów, notatki radiologiczne, wyniki patologii, notatki z wypisu ze szpitala itp. Pracują również z informacjami na temat chorób i procedur zgłaszanych rządowi (w tym przypadku Medicare).
Jakie są szczegóły techniczne?
Infrastruktura Big Data firmy Apixio składa się z dobrze znanych komponentów infrastruktury, w tym nierelacyjnych technologii baz danych, takich jak Cassandra i platform przetwarzania rozproszonego, takich jak Hadoop i Spark. Apixio dodał do tego swoją własną warstwę zarządzania, która automatyzuje system, który nie może być obsługiwany ręcznie w skali, w jakiej działa Apixio. Wszystko działa w usłudze Amazon Web Services (AWS) w chmurze, którą Apixio wybrał ze względu na swoją solidność, a także prywatność i bezpieczeństwo w zakresie ochrony zdrowia oraz zgodność z przepisami. Wszystko jest przetwarzane i analizowane wewnętrznie przy użyciu własnych algorytmów i procesów uczenia maszynowego, w przeciwieństwie do pracy z zewnętrznym dostawcą Big Data. Apixio stworzył własny "wykres wiedzy", aby rozpoznać miliony koncepcji i terminów związanych z opieką zdrowotną oraz zrozumieć zależności między nimi. Tego typu narzędzie jest ściśle związane z opieką zdrowotną: gotowe rozwiązanie od dostawcy Big Data działającego w wielu branżach po prostu by nie działało. Mapy pacjentów w plikach PDF lub TIFF są głównymi danymi dostarczanymi przez plany ubezpieczeń zdrowotnych, biorąc pod uwagę ich proces uzyskiwania wykresów od biur dostawcy poprzez faksowanie lub drukowanie i skanowanie żądanych dokumentów w biurze medycznym. Dlatego Apixio opracował zaawansowaną technologię wykorzystać i skalować OCR, aby mapy medyczne skanowane maszynowo były odczytywalne przez ich algorytmy. Wyrafinowane przepływy pracy obliczeniowej, które wstępnie przetwarzają obrazy, ustawiają parametry w silniku OCR i poprawne wyniki muszą byćopracowany, aby wyodrębnić tekst dostępny na zeskanowanym wykresie.
Wszelkie wyzwania, które trzeba pokonać?
Przygotowanie dostawców usług opieki zdrowotnej i planów ubezpieczeń zdrowotnych do dzielenia się danymi to prawdziwe wyzwanie, które powstrzymuje próby złożenia dużych zestawów danych do generowania wiedzy opartej na Big Data driven. Apixio pokonał te przeszkody, demonstrując, że oferują prawdziwą wartość. "Nasza propozycja wartości jest wystarczająco silna, aby przezwyciężyć wszelkie obawy związane z udostępnianiem tych danych ... chyba że rozwiążesz dziś poważny problem, żadna z tych organizacji nie da ci dostępu do prawdziwej ilości danych" - wyjaśnia Schulte. Co prowadzi nas do kolejnego wyzwania: bezpieczeństwa danych. Dzięki niektórym gwałtownym naruszeniom danych dotyczących zdrowia bezpieczeństwo jest gorącym tematem w tej dziedzinie. Dla Apixio znaczenie bezpieczeństwa danych i ich wymagań prawnych były głównym czynnikiem decydującym. Schulte odnosi się do bezpieczeństwa danych jako "tabeli stawek", co oznacza, że jest niezbędnym warunkiem dla każdego, kto chce działać na arenie Big Data w służbie zdrowia. "W przypadku każdej nowej umowy musimy wykazać nasze bezpieczeństwo. A bycie na AWS z pewnością pomaga w tym zakresie… zajmuje ich spory niepokój - wyjaśnia. Dane pacjenta muszą być zaszyfrowane w spoczynku i podczas transportu, a Apixio nigdy nie ujawnia osobistych informacji zdrowotnych (PHI), chyba że personel Apixio bezwzględnie potrzebuje dostępu. "Dowód jest w puddingu" - mówi Schulte. "Duże plany ubezpieczeń zdrowotnych nie podpisywałyby umów i nie prowadziłyby z nami interesów, gdybyśmy nie byli wystarczająco bezpieczni, aby to zrobić."
Jakie są kluczowe punkty nauki i wnioski?
Big Data w opiece zdrowotnej jest wciąż w powijakach, a wciąż istnieje wiele szumu wokół możliwości, czasami kosztem namacalnych rezultatów. Schulte potwierdza to: "Dyrektorzy IT w szpitalach często nie widzą wielu problemów rozwiązanych za pomocą Big Data. Widzą wiele zręcznych kokpitów, które nie są zbyt duże pomocne dla nich. Pomocne jest aktywne rozwiązywanie dzisiejszych problemów ... na przykład zapewnienie odpowiedniej opieki i redukcja kosztownych, nieskutecznych metod leczenia
… Ważne jest, aby skupić się na rzeczywistych wynikach, czymś namacalnym, co zostało osiągnięte. Nie kieruj się tylko słowami: "Hej, stworzyłem trochę małego narzędzia do nauki danych, aby grać." "Nacisk na wyniki i wyniki jest tak samo istotny dla biznesu, jak i dla branży medycznej. Jeśli jednak pozbędziesz się szumu, nadal jest oczywiste, że jesteśmy bliscy ekscytujących zmian w sposobie, w jaki rozumiemy, leczymy i zapobiegamy chorobom. Schulte zgadza się: "Jesteśmy w nowym świecie pod względem sposobu, w jaki opieka zdrowotna będzie stosowana w oparciu o te dane, a Big Data to sposób, aby pomóc nam w osiągnięciu tego celu".
Jak Big Data są niezbędne dla sukcesu zespołów sportów motorowych
TŁO
Prędkość jest jedną z cech charakterystycznych Big Data i jest kilka sytuacji, w których prędkość jest bardziej niezbędna niż sporty motorowe. Na wszystkich poziomach zaawansowania, od NASCAR i Formuły 1 po karting amatorski, zespoły i organizatorzy wyścigów stosują coraz bardziej wyrafinowane strategie oparte na danych. W tym przypadku patrzymy na zespół F1 Formuły 1.
Jaki problem pomaga rozwiązać Big Data?
Dane nie są niczym nowym w wyścigach Formuły 1: telemetria jest używana od lat 80. XX w., Aby przesyłać na żywo dane z samochodu do inżynierów na pit-stopach. Thomas Mayer, dyrektor operacyjny zespołu Lotus F1, mówi mi: "Formuła 1 zawsze była w czołówce rozwoju technologicznego, więc naturalne było, że analiza danych stanie się dla nas ważna. Oszczędza to czas i pieniądze: zamiast polegać na próbach i błędach, mamy prawdziwe dane … "Oprócz oszczędności czasu i pieniędzy w zespole, Big Data pomaga im golić drogocenne sekundy z czasów okrążeń, zapewniając bardziej ekscytujące spektakl dla widzów.
W jaki sposób wykorzystywane są Big Data w praktyce?
Jak mówi Mayer: "Zbieramy i analizujemy wiele danych. Nie mówimy o gigabajtach lub terabajtach, ale o petabajtach. "Wszystkie te dane można wykorzystać do dostosowania w czasie rzeczywistym do każdego aspektu samochodu i dostosowania go do wydajności kierowcy. Podczas testowania, korzystając z danych przesyłanych przez samochody, zespół może podejmować decyzje dotyczące zmiany ustawień samochodu, zanim kilka minut później powróci na tor. Dane są również wykorzystywane do prowadzenia symulacji, które są niezbędne, ponieważ ilość czasu, jaki kierowcy mogą spędzić na ćwiczeniach, a testowanie ich samochodów jest ograniczone przez organ zarządzający sportem, FIA, w celu stworzenia równych szans dla zespołów dysponujących mniejszymi zasobami. Zespół ma trzytygodniowe testy na początku roku, a następnie tylko cztery dni testów w sezonie w weekendy, w których nie ma wyścigów. Symulacje i analiza danych pozwalają zespołowi pojawić się na torze wyścigowym z silnym wyobrażeniem o tym, jak samochód będzie jeździł, bez przetestowania go
- raczej jak zaglądanie w kryształową kulę i wiedząc, gdzie samochód zakończy się pod koniec wyścigu
. Podobnie jak prędkość samochodów, szybkość, z jaką dane są przesyłane, ma ogromne znaczenie. W 2013 r. Lotus F1 zmienił dostawcę pamięci masowej używanego dla danych odbieranych przez ich samochody na szybszy system, który umożliwił ich transfer 2000 statystyk na okrążenie. Uznali, że jest to kluczowy czynnik dramatycznej poprawy wydajności ich młodszego kierowcy Marlon Stöckinger w serii Formula Renault 3.5; w 2013 roku zdobył 23 punkty i zajął 18. miejsce w klasyfikacji generalnej sezonu; w 2014 roku zdobył 73 punkty i zajął dziewiąte miejsce. Podczas gdy na początku informacje były transmitowane w "pakietach" jak samochód minął pit-stop, dziś jest stała komunikacja w czasie rzeczywistym. Dzięki dedykowanym szybkim światłowodom, które układane są przed każdym wyścigiem, inżynierowie i analitycy w centrali zespołu i centrach inżynieryjnych mogą mieć dane zaledwie ułamek sekundy później niż ekipy pitstopowe. Jest to ważne, ponieważ wielu pracowników nie znajduje się w obwodzie; w przypadku Lotus F1, który zatrudnia około 470 osób, tylko około 60 osób może jechać na wyścig, a tylko 40 z nich może być w garażu wyścigowym. Pomaga to także zespołowi podejmować długoterminowe decyzje związane z projektowaniem i osiągami samochodu, a nie zmianami weekendowymi. Fani Formuły 1 również generują dużo danych. Podczas Grand Prix USA 2014 widzowie wysłali ponad 2,3 terabajta danych w sieciach komórkowych, przesyłając zdjęcia do mediów społecznościowych i publikując na Twitterze ich doświadczenia.
Jakie były wyniki?
Podczas gdy kierowca musi polegać na instynktownych odruchach, aby poradzić sobie z wyścigami z prędkością 300 km na godzinę, jego zespół wsparcia jest uzbrojony w dane, które okażą się bezcenne w czasach kryzysu. Jednym z przygważdżających przykładów analityki, która przyszła na ratunek, jest sytuacja, w której kierowca Red Bulla, Sebastian Vettel, został obrócony i uszkodzony podczas Grand Prix Brazylii w 2012 roku. Do czasu, gdy jego samochód wykonał pit stop na 10. okrążeniu, inżynierowie przeprowadzili symulacje z wykorzystaniem modelowanych danych, aby ustalić, jakie zmiany należy wprowadzić w samochodzie, aby utrzymać je przez kolejne 70 okrążeń. Oznaczało to, że Vettel zdobył wystarczającą ilość punktów, aby zdobyć tytuł mistrzowski po raz trzeci z rzędu. W przypadku Lotus F1, Big Data stanowi kluczowy element ich sukcesu, pozwalając im udoskonalić wydajność kierowców i samochodów oraz zwiększyć konkurencyjność. Nie chodzi tylko o dobre osiągi w jednym wyścigu; chodzi również o zbieranie dobrych danych, co pomaga im poprawić się w następnym wyścigu i poza nim.
Jakie są szczegóły techniczne?
Partner Lotus F1 , dostawca Big Data , EMC, wykorzystujący architekturę serwerów V-Block i środowisko chmury prywatnej. Jeden V-Block znajduje się w fabryce, a inny podróżuje do każdego wyścigu. Ponadto zespół korzysta z wielu narzędzi programowych, z których niektóre są unikalne dla Lotus, a niektóre z nich standardowa technologia Formula One. Na przykład samochód ma standardową
jednostkę sterującą silnikiem, która jest dostarczana z zestawem pakietów oprogramowania, z których korzystają wszystkie zespoły. Jest to zintegrowane z własnymi niestandardowymi narzędziami.
Wszelkie wyzwania, które trzeba pokonać?
Wysoko naładowana atmosfera wyścigu i ograniczenia przytorowe stanowią wyjątkowe wyzwania dla zespołu IT Lotus F1. Z 40 pracowników dozwolonych w garażu wyścigowym, tylko jeden jest informatykiem. Oznacza to, że systemy muszą być kuloodporne i szybko działać. Posiadanie jednego głównego dostawcy upraszcza sprawy, jeśli coś pójdzie nie tak, muszą tylko skontaktować się z jedną firmą.
Jakie są kluczowe punkty nauki i wnioski?
Formuła 1 nieustannie ewoluuje, a Big Data nieuchronnie nadal będzie odgrywać rolę w wyścigu, aby uzyskać szybsze czasy okrążeń i większe zaangażowanie fanów. Podobnie jak w wielu innych dziedzinach życia, Big Data usuwa wiele domysłów i umożliwia podejmowanie decyzji, mając pewność, że są one wspierane przez statystyki. Wraz z pojawieniem się nowych rozwiązań technologicznych, takich jak hybrydowe i elektryczne silniki, rzeczy mogą się w ciągu najbliższych kilku lat ożywić. Rozwiązania Big Data bez wątpienia pomogą zespołom takim jak Lotus F1 poradzić sobie ze zmianami i zapewnić, że fani otrzymują to, czego chcą: ekscytujące wyścigi oraz szybki i wściekły spektakl.
Big Data dla małych firm
TŁO
Pendleton & Son to lokalny rzeźnik z północno-zachodniego Londynu. Założony w 1996 roku, cieszy się stałą bazą klientów i dobrą reputacją od lat. Prawie dwa lata temu, kiedy lokalna biblioteka została zamknięta, do budynku wszedł supermarket sieciowy. Znajdujący się przy tej samej ulicy nowy sklep wpłynął na ogólny spadek przychodów i dochodów małego sklepu mięsnego.
Jaki problem pomaga rozwiązać Big Data?
Podczas gdy założyciel Tom Pendleton był pewien, że jego sklep oferuje wyższą jakość i wybór w porównaniu do supermarketu, kłopot polegał na przekazywaniu tego komunikatu opinii publicznej i zachęcaniu klientów do wejścia. Próba konkurowania cenami nie działała i przy spadających dochodach syn Aaron Pendleton zwrócił się do danych, aby utrzymać firmę na powierzchni.
W jaki sposób wykorzystywane są Big Data w praktyce?
Pendletonowie współpracowali z konsultantem Big Data, który zasugerował instalację prostych, niedrogich czujników w oknie sklepu, aby monitorować kroki i mierzyć wpływ reklam i promocji. Korzystając z tych czujników, firma była w stanie zmierzyć, ilu ludzi przeszło obok sklepu, ile osób zatrzymało się, aby spojrzeć na wystawę okienną i tabliczkę z tabliczką, i ilu ludzi weszło do sklepu w rezultacie. Uzbrojeni w te informacje, byli w stanie udoskonalić swoje rekalmy i wiadomości w oparciu o to, co zainteresowało najbardziej klientów . Dane z czujnika wskazywały również na nieoczekiwany nowy strumień przychodów dla firmy. Ponieważ dwa popularne puby znajdowały się na końcu ulicy, godziny wieczorne do północy okazało się szczególnie zajęty pod względem przechodniów
- prawie tyle samo, co zajęty okres lunchu. Tak więc Pendletonowie zdecydowali się na próbne otwarcie w nocy i serwowanie premii hot-dogi i hamburgerów głodnym gościom udającym się do domu z pubu. Aby zdecydować, które produkty mają być oferowane w nocy, Aaron przeanalizował dane z trendów z Google Trends, aby zobaczyć, które produkty spożywcze były szczególnie popularne. Doprowadziło to do powstania ich hamburgera wieprzowego z chorizo. Idąc dalej, rzeźnicy mają nadzieję rozszerzyć wykorzystanie danych w celu jeszcze większego pogłębienia swoją wiedzę o klientach. Właśnie zaczęli pobierać dane pogodowe, aby jeszcze lepiej przewidywać zapotrzebowanie i planują wprowadzić aplikację lojalnościową dla klientów, która gromadzi informacje o tym, kim są ich klienci i co kupują. Dane te pozwolą rzeźnikom wysłać e-mail klienci o ukierunkowanych i sezonowych ofertach. Po zgromadzeniu niektórych danych klientów, ankiety pozwolą im jeszcze głębiej zagłębić się i zyskać wiedzę, która może ulepszyć ich produkty i usługi.
Jakie były wyniki?
W tym przypadku dane z czujnika pokazały, że sugestie posiłków na tablicy poza sklepem, poparte prostymi arkuszami receptur dostępnymi w środku, okazały się bardziej popularne niż wiadomości skupione wokół ceny; na przykład na bluźnierstwie jesiennego dnia na zewnątrz napis: "A co z kiełbasą z dziczyzny i gulaszem z fasoli? Wskakuj na nasze specjalne kiełbaski i przepis. "Krótko mówiąc, Pendletonowie odkryli, że lokalni klienci faworyzowali inspirację i pomysły na tanie oferty, które były dostępne codziennie w supermarkecie. Byli w stanie wykorzystać ten wgląd, aby poprawić komunikację i zwiększyć liczbę osób - a ci, którzy weszli do sklepu, z większym prawdopodobieństwem dokonali zakupu. Ponadto, otwarcie na późną noc okazały się niezwykle popularne i firma postanowiłem uczynić to stałym elementem w piątkowe i sobotnie wieczory. Zapewniło to nie tylko bardzo potrzebne dodatkowe przychody, ale także wprowadziło firmę i jej produkty do większej liczby klientów.
Jakie dane zostały użyte?
Pendletonowie pracowali z danymi z małego czujnika umieszczonego poza oknem sklepu, a także z innych wewnętrznych danych, takich jak dane dotyczące transakcji i zapasów. Korzystali również ze swobodnie dostępnych zewnętrznych danych pogodowych, aby pomóc im zaplanować sugestie posiłków i przepisy na nadchodzący tydzień.
Jakie są szczegóły techniczne?
Do wykrywania telefonów komórkowych, Pendleton & Sons zainstalował czujniki wykrywania telefonów komórkowych, które wykrywają obecność telefonów za pośrednictwem sygnałów Bluetooth i Wi-Fi emitowanych przez telefony komórkowe. Czujniki działają na urządzenia iPhone i Android i podnoszą adres MAC telefonu, siłę sygnału (który pomaga zrozumieć odległość od czujnika), producenta smartfonu (np. Apple, Samsung) i typ urządzenia. Do analizy Aaron wykorzystał opartą na chmurze platformę wywiadu gospodarczego, sprzedawcę czujników opatrzony.
Wszelkie wyzwania, które trzeba pokonać?
Dla Aarona pierwszym wyzwaniem było przekonanie ojca, że warto zainwestować w dane. Ważne było, aby przedstawić uzasadnienie biznesowe wskazujące, w jaki sposób dane mogłyby pomóc takiej małej firmie jak ona. Zwalczanie danych z wyzwaniami i celami firmy ogromnie nam pomogło. Aaron określił to, co firma chciała osiągnąć (tj. zwiększenie świadomości klientów i dochodów), co ich powstrzymało (konkurencja ze strony supermarketu i brak informacji na temat tego, czego klienci chcieli) oraz w jaki sposób dane mogą pomóc im w przezwyciężeniu bieżących wyzwań (poprzez zgromadzenie informacje potrzebne do przyciągnięcia większej liczby klientów). Uzbrojeni w silny biznesplan, łatwiej było argumentować za wprowadzeniem danych do procesu decyzyjnego. Kolejnym wyzwaniem, często spotykanym w małych firmach, była wiedza, od czego zacząć. Dysponując ograniczonymi zasobami i siłą roboczą, Pendletonowie zawsze będą potrzebować kogoś, kto poradzi sobie z danymi. Zwrócili się
do dostawcy usług Big-Data-as-a-service (BDAAS), który miał doświadczenie w pracy z mniejszymi firmami, a ponieważ płacili tylko za potrzebną pracę (w przeciwieństwie do inwestowania w nowe systemy i personel z doświadczeniem związanym z danymi), początkowe nakłady były minimalne. Okazało się, że same czujniki są zaskakująco tanie (i przez cały czas są coraz tańsze) i nie było potrzeby inwestowania w dodatkowe oprogramowanie jako dostawca BDaaS wykonało dla nich całą analizę.
To studium przypadku pokazuje, że Big Data nie jest wyłączną domeną dużych korporacji, ale ma wpływ na firmy o różnych kształtach i rozmiarach. Podczas gdy tego typu projekt danych niekoniecznie jest zawsze postrzegany jako Big Data, jest to z pewnością możliwe dzięki światowi Big Data. Czasami oznacza to po prostu uzyskanie dostępu do Big Data i korzystanie z niego w celu poinformowania o podejmowanych decyzjach. W końcu nie ma znaczenia, ile zbierasz i analizujesz danych: liczy się to, co z nimi robisz.
W jaki sposób wykorzystuje się Big Data Analytics do optymalizacji wydajności sportowców
TŁO
Jak zobaczymy w różnych punktach, analityka sportu i danych szybko staje się przyjacielem. Tu przyjrzymy się, w jaki sposób drużyna kolarska kobiet w USA przeszła od słabszych zawodników do srebrnych medali podczas Olimpiady w Londynie w 2012 roku - po części dzięki sile analizy danych. Zespół walczył, kiedy zwrócili się o pomoc do przyjaciół, rodziny i społeczności. Powstała zróżnicowana grupa wolontariuszy, złożona z osób w społecznościach sportowych i zdrowia cyfrowego, prowadzonych przez Sky'a Christopherson. Christopherson był kolarzem olimpijskim i rekordzistą świata w biegu na 200 metrów w kategorii wiekowej 35+. Osiągnął to dzięki reżimowi szkoleniowemu, który sam zaprojektował, opartemu na analizie danych i zainspirowanym początkowo pracami kardiologa dr Erica Topola.
Jaki problem pomaga rozwiązać Big Data?
Christopherson założył swój projekt OAthlete (jak w Zoptymalizowanym sportowcu) po tym, jak został rozczarowany dopingiem w sporcie. Było to w następstwie skandalu związanego z narkotykami Lance′a Armstronga, nazwanego "największym oszustem w sportach amerykańskich". Ideą OAthlete była pomoc sportowcom w optymalizacji ich osiągów i zdrowia w zrównoważony sposób, bez stosowania leków zwiększających wydajność. W rezultacie narodziła się filozofia "dane nie narkotyki".
W jaki sposób wykorzystywane są Big Data w praktyce?
Współpracując z kobiecym zespołem kolarskim, Christopherson opracował zestaw wyrafinowanych technik zbierania danych i monitorowania, które rejestrują każdy aspekt wpływający na wyniki sportowców, w tym dietę, wzorce snu, środowisko i intensywność treningu. Były one monitorowane w celu wykrycia wzorców związanych z wydajnością sportowców, aby można było wprowadzić zmiany w ich programach szkoleniowych.
Jakie były wyniki?
Jak mówi Christopherson, mierząc różne aspekty (takie jak sen i dieta) i rozumiejąc, jak są one powiązane, możesz stworzyć "przełom w wydajności". W tym przypadku głębia analityczna oznaczała, że Christopherson był w stanie odwiercić w dół do tego, co nazywa "indywidualnymi strefami
optymalnymi". Dzięki tym informacjom, dostosowane programy mogą być modyfikowane dla każdego sportowca, aby uzyskać najlepsze dla każdego członka zespołu. Na przykład, jedna z wnikliwości wynikała z tego, że kolarz Jenny Reed wykonała znacznie lepsze treningi, jeśli poprzedniego wieczora spała w niższej temperaturze. Została więc wyposażona w chłodzony wodą materac, który utrzymywał jej ciało w odpowiedniej temperaturze przez całą noc. "To spowodowało, że jej sen jest głębszy, kiedy organizm w naturalny sposób uwalnia ludzki hormon wzrostu i testosteron" - mówi Christopherson. W przypadku Sarah Hammer, dane ujawniły niedobór witaminy D, więc dokonali zmian w jej diecie i codziennej rutynie (w tym zwiększeniu nasłonecznienia). To spowodowało mierzalną różnicę w jej wydajności. Jest jeszcze jedna korzyść: pomagając sportowcom unikać kontuzji. Według Christophersona, wiodącą pokusą dla sportowców, aby stosowali leki poprawiające wydajność, które niszczyły jazdę na rowerze, jest potrzeba ciężkiego treningu, unikając niebezpieczeństwa urazu i choroby. Big Data umożliwia wysokiej jakości zespołom sportowym oszacowanie wielu czynników wpływających na wydajność, takich jak obciążenie treningowe, regeneracja i regeneracja ludzkiego ciała. Oznacza to, że zespoły mogą w końcu zmierzyć wszystkie te elementy i ustalić sygnały wczesnego ostrzegania, które na przykład powstrzymaj ich przed popychaniem sportowców do przetrenowania, co często powoduje urazy i choroby. Według Christophersona kluczem jest znalezienie równowagi podczas treningu: "Manipuluje treningiem w oparciu o zarejestrowane dane, dzięki czemu nigdy nie wpychasz się w strefę zagrożenia, ale także nigdy nie wycofujesz się i nie wykorzystujesz swojego talentu. To bardzo cienka linia i właśnie to umożliwia nam Big Data. "Gdy jest używana dokładnie i wydajnie, uważa się, że Big Data może znacznie rozszerzyć karierę zawodowych sportowców i sportowców poza typowy wiek emerytalny 30 lat, z właściwą równowagą diety i ćwiczeń fizycznych oraz unikaniem obrażeń poprzez nadmierne wysiłki. System Christophersona nie został poddany rygorystycznym testom naukowym, ale działał dobrze pod względem jego osobistego sukcesu i amerykańskiej kolarskiej drużyny kobiet - czego dowodzi niewiarygodna wygrana srebrnego medalu
Jakie dane zostały użyte?
Christopherson pracował z danymi wewnętrznymi i zewnętrznymi oraz strukturalnymi i niestrukturalnymi; na przykład dane z szeregów czasowych - takie jak pomiary fizycznych parametrów cukru we krwi, parametrów skóry i tętna - zostały wykonane przy użyciu czujników przymocowanych do ciała. Te także uchwyciły dane dotyczące ekspozycji na hałas i światło słoneczne. Uwzględniono również dane dotyczące środowiska, takie jak temperatura, pora dnia i pogoda, wykorzystując publicznie dostępne informacje. Przeprowadzono także analizę wideo, a wzorce spania sportowców zmierzono za pomocą bezpośredniego EEG.
Jakie są szczegóły techniczne?
Aby zrealizować ten program, Christopherson nawiązał współpracę ze specjalistą ds. analiz i wizualizacji danych firmy San Francis, Datameer. Dane były przechowywane w chmurze w środowisku Hadoop (HDFS), z danymi analizującymi dane. Infografiki Datameer wizualizowały wyniki.
Wszelkie wyzwania, które trzeba pokonać?
Wyzwanie związane z eksploracją danych polega na tym, że często nie ma w nich konkretnych hipotez. Ale jako sportowcy olimpijscy zespół był w stanie wykorzystać doświadczenie i ciągłe eksperymenty, aby poprowadzić eksplorację danych. To doświadczenie, w połączeniu z arkuszem kalkulacyjnym Datameer pomógł zespołowi poradzić sobie z ogromną ilością danych. Schemat arkusza danych Datameer łatwo integruje różne typy, rozmiary i źródła danych, co znacznie ułatwia ich ekstrakcję .
Jakie są kluczowe punkty nauki i wnioski?
Dla mnie ta analiza przypadku podkreśla znaczenie znalezienia partnera, który rozumie wyjątkowe wyzwania związane z Twoją dziedziną. W tym przypadku Stefan Groschupf, dyrektor generalny Datameer, był byłym zawodnikiem pływackim na poziomie krajowym w Niemczech. Na tym tle i wcześniejszej wiedzy Groschupf natychmiast dostrzegł potencjał projektu. Christopherson był zachwycony ich wkładem:
"Wrócili z naprawdę ekscytującymi rezultatami - niektórymi kontaktami, których wcześniej nie widzieliśmy. Jak dieta, trening i środowisko wpływają na siebie nawzajem. Wszystko jest ze sobą połączone i naprawdę można to zobaczyć w danych"
Podkreśla również znaczenie wykrywania wzorców w danych. A więc nie chodzi tylko o ilość danych, które zbieracie, ani o sposób ich analizy; chodzi o poszukiwanie wzorców w różnych zestawach danych i łączenie tej wiedzy w celu poprawy wydajności - dotyczy to zarówno drużyn sportowych, jak i firm
Big Data W Zoo I Aby Chronić Zwierzęta
TŁO
Oprócz prowadzenia słynnego na całym świecie londyńskiego zoo ZSL jest odpowiedzialne za podejmowane na całym świecie działania związane z ochroną przyrody, mające na celu walkę z zagrożeniami wyginięcia, z którymi boryka się wiele gatunków. Tradycyjnie większość prac konserwatorskich była prowadzona w terenie przez zoologów i innych naukowców, ręcznie śledząc ruch populacji zwierząt lub rozprzestrzenianie się roślinności za pomocą urządzeń śledzących lub własnych oczu. Jednak wraz z rosnącą złożonością technologii gromadzenia danych i analiz, wraz z coraz pilniejszą potrzebą podjęcia działań w celu ratowania coraz większej liczby gatunków przed wyginięciem, nowe metody są stosowane, stale rozwijane, aby pomóc w monitorowaniu i śledzeniu dzikich zwierząt. W ubiegłym roku ZSL wraz z innymi organizacjami badawczymi, w tym NASA i Wspólną Radą Badawczą Komisji Europejskiej, przeprowadziło pierwsze międzynarodowe sympozjum na temat "teledetekcji" w zakresie ochrony. Zasadniczo teledetekcja polega na łączeniu najnowszych zdjęć satelitarnych o wysokiej rozdzielczości z danymi zoologicznymi, demograficznymi i geograficznymi oraz zaawansowanym modelowaniem komputerowym i analizą predykcyjną, aby lepiej zrozumieć wpływ, jaki ludzka aktywność ma na populacje zwierząt i roślin.
Jaki problem pomaga rozwiązać Big Data?
Zagrożenie różnorodnością biologiczną wynikającą z działalności człowieka jest jednym z największych wyzwań stojących przed nami jako gatunkiem. Ekosystem, na którym wszyscy polegamy, jest zależny od złożonej równowagi organizmów, która rozwinęła się przez miliony lat i czyni planetę odpowiednią do podtrzymywania życia. Wzrost człowieka jako dominującego gatunku na ziemi miał katastrofalny wpływ na wskaźnik wyginięcia innych gatunków. Ponieważ uważa się, że zaledwie 15% roślin, ssaków, gadów, ryb i gatunków owadów na Ziemi zostało zidentyfikowanych, ogromna większość tych wymierań pozostaje niezauważona - szacuje się, że planeta traci aż 140 000 gatunków rocznie. Nie ma sposobu, aby wiedzieć na pewno, jaki będzie długotrwały wpływ tego spadku różnorodności biologicznej. Ekosystemy roślinne i zwierzęce współdziałają ze sobą i z życiem człowieka w niesamowicie złożonym zakresie, od łańcucha pokarmowego do cyklu azotu, który utrzymuje powietrze w powietrzu. Tworząc w nich nierównowagę procesy mogą mieć potencjalnie katastrofalne skutki dla nas jako gatunku, a także dla całego życia na planecie. Działania ochronne, takie jak te
ustanowione przez ZSL za pośrednictwem ich Instytutu Zoologii jest niezbędna do zrozumienia skutków zniszczeń, które już zostały zrobione, oraz do działania na rzecz jej złagodzenia.
W jaki sposób wykorzystywane są Big Data w praktyce?
W ostatnich latach, dzięki ogromnemu postępowi w technologii, mocy obliczeniowej komputerów i naukach analitycznych, nacisk został położony na opracowanie metod śledzenia, kwantyfikacji i rozumienia populacji zwierząt poprzez teledetekcję. Prowadzenie prac konserwatorskich jest niezwykle kosztowne i niezupełnie niedofinansowane, biorąc pod uwagę skalę problem. Aby znaleźć sposoby na pokonanie tego problemu, w zeszłym roku ZSL zgromadził ekspertów z wielu instytucji naukowych, organizacji pozarządowych i organizacji charytatywnych. Graeme Buchanan z Królewskiego Towarzystwa Ochrony Ptaków (RSPB) powiedział podczas sympozjum: "Ustalono, że środki dostępne na konserwację są znacznie niższe od kwoty potrzebnej na zaradzenie obecnemu kryzysowi wyginięcia".W związku z tym działacze zajmujący się ochroną przyrody powinni kierować finansowanie tam, gdzie jest to najbardziej potrzebne. Aby ustalić priorytety, społeczność zajmująca się ochroną przyrody potrzebuje informacji na temat tego, co i gdzie jest lub może się zmieniać. Podczas gdy dane z pola in situ są nieocenione, teledetekcja może stanowić cenne narzędzie do dostarczania tych informacji. "Plany omawiane w ramach programu obejmują wykorzystanie zdjęć satelitarnych do śledzenia populacji z kosmosu w celu śledzenia ruchu zwierząt i wpływu działalności człowieka, takich jak wylesianie i urbanizacja. Dane te można następnie wykorzystać do przewidywania algorytmów przewidywania przyszłe ruchy, a także obszary geograficzne, w których szczególnie zagrożone są populacje zwierząt lub gdzie pilna interwencja człowieka mogłaby zapobiec utracie nieocenionej bioróżnorodności z planety poprzez wyginięcie. Uważa się, że ruch populacji i jej dynamika są kluczowe dla przewidywania skutków że ludzka aktywność będzie miała na gatunkach, z którymi dzielimy planetę, a analiza danych okazuje się być skutecznym narzędziem do rozwijania tego zrozumienia.
Jakie były wyniki?
Dzięki zastosowaniu tych pomysłów opracowano wiele nowych ram, które mogą być wykorzystywane przez naukowców na całym świecie do badania i przewidywania ruchu zwierząt, a wpływ, jaki wywołane przez człowieka zmiany w ich środowisku prawdopodobnie wystąpią. Dzięki temu grupy konserwatorskie, organizacje charytatywne i lobbyści polityczni mogą skoncentrować wysiłki na wprowadzaniu zmian tam, gdzie będą najbardziej skuteczne w powstrzymywaniu trwającego wyginięcia życia na ziemi.
Jakie dane zostały użyte?
Technologia obrazowania satelitarnego o bardzo wysokiej rozdzielczości (VHR) osiągnęła etap, w którym obrazy są wystarczająco szczegółowe, aby pokazać pojedyncze zwierzęta (i ludzi). Dane te można następnie wprowadzić do algorytmów liczenia, które określają wielkość określonej populacji na określonym obszarze. Podobnie jak ilości, można uchwycić i ocenić wzorce migracji. Pozwala to na modelowanie prawdopodobnych ścieżek migracji w innych lokalizacjach, w oparciu o dane ekstrapolowane z obserwowanych populacji. Oprócz tego, bardziej przyziemne dane są również zbierane z pułapek-kamer, obserwatorów w terenie i coraz częściej samolotów bezzałogowych wyposażonych w sprzęt fotograficzny. Jeden program obejmuje monitorowanie zdjęć publikowanych przez turystów i szerszą publiczność w mediach społecznościowych, które można skanować z oprogramowania rozpoznawania obrazu. Oprogramowanie to można zaprogramować w celu rozpoznawania życia zwierząt lub roślin, określenia położenia za pomocą metadanych zdjęcia i wykorzystania go do zbudowania innej referencyjnej bazy danych różnorodności biologicznej w danym obszarze. Informacje biologiczne, istniejące dane dotyczące rozmieszczenia gatunków i danych
demograficznych o człowieku są również wykorzystywane do przewidywania i oceny populacji zwierząt oraz tego, w jaki sposób wpływają na nie wpływy zewnętrzne. Dane satelitarne z systemów wykorzystywanych przez NASA do monitorowania pożarów lasów można również włączyć do tych programów , aby monitorować skutki wylesiania przez pożar. Technologia LiDAR, która zastępuje fale radiowe radaru falami świetlnymi, służy do określania wysokości i gęstości biomasy roślinnej na danym obszarze, umożliwiając dokładniejsze przewidywanie różnorodności i objętości zamieszkujących je gatunków zwierząt.
Jakie są szczegóły techniczne?
Zbiory danych zbierane przez programy śledzące migracje ZSL i wykorzystywane do informowania o międzynarodowych indeksach populacyjnych są hostowane w ramach usług Amazon Web Services (AWS) i Microsoft Azure. Analitycy tego społeczeństwa również korzystają w dużej mierze z platformy analitycznej Open Source H20, która pozwala na uruchamianie złożonych analiz na rozproszonych zbiorach danych i uzyskiwanie wyników za pośrednictwem interfejsu przeglądarki internetowej. Dr Robin Freeman, kierujący wskaźnikami i ocenami w społeczeństwie, mówi mi: "Prawie wszyscy, z którymi pracuję, w pewnym stopniu używają R [programu statystycznego]." Rzeczy, których powinieneś się uczyć jako absolwent lub badacz w zoo przesunięcie bardziej w kierunku zrozumienia metod statystycznych i programowania uczenia maszynowego, ponieważ staje się coraz bardziej pewne, że w swoich badaniach pojawi się Big Data. "
Wszelkie wyzwania, które trzeba pokonać?
W pracach konserwatorskich największym wyzwaniem jest ustalanie priorytetów. Ponieważ tak wiele gatunków znika w tak szybkim tempie, niezbędne jest opracowanie metod identyfikacji osób najbardziej zagrożonych. Pozwala to na wydajne i skuteczne rozmieszczanie zasobów, a także na możliwość zainicjowania lub prowadzenia kampanii na rzecz zmian społecznych, takich jak regulacje, niezbędne do zapobiegania utracie różnorodności biologicznej. Wykorzystując dane zebrane za pomocą metod teledetekcyjnych, Wildlife Conservation Society utworzyło grupę naukowców z instytucji naukowych, rządów i organizacji pozarządowych zaangażowanych w identyfikację 10 najbardziej palących problemów, z jakimi obecnie borykają się działacze ochrony przyrody. Należą do nich przewidywanie przyszłych wylesień, identyfikowanie hotspotów, w których zmiana siedlisk prowadzi do wysokiego poziomu wyginięcia i kosztów dostępu do dokładnych danych. Priorytety te są wykorzystywane do informowania o globalnych wysiłkach na rzecz ochrony, takich jak działania podejmowane przez ZSL, aby pomóc w podjęciu najskuteczniejszych kroków.
Jakie są kluczowe punkty nauki i wyniki?
Prace konserwatorskie mają zasadnicze znaczenie dla przyszłości życia na Ziemi, a analizy Big Data są niezbędnym składnikiem. Dostęp do bardziej dokładnych i aktualnych danych poprawia naszą zdolność do zrozumienia i przewidywania skutków, jakie działalność ludzka wywiera na globalną populację dzikich zwierząt oraz w jaki sposób te zmiany nieuchronnie powrócą, aby nas ugryźć. Dane zebrane za pomocą teledetekcji ograniczają potrzebę ekspansywnych, czasochłonnych i czasami niebezpiecznych prac terenowych, które zoologowie muszą wykonywać na zewnątrz. Podczas gdy czujniki naziemne i obserwacje stworzone przez człowieka będą nadal dostarczać wiarygodnych danych, coraz częściej można wnioskować na podstawie zdjęć satelitarnych w połączeniu z danymi geograficznymi, biologicznymi i demograficznymi, aby uzyskać dokładne modele i prognozy. W miarę, jak technologia analityczna stanie się bardziej zaawansowana, będziemy w stanie uzyskać coraz wyraźniejszy obraz tego, gdzie powinny leżeć nasze priorytety, jeśli chcemy
złagodzić szkody, które już wyrządziliśmy ekosystemowi.
Jak Facebook wykorzystuje duże dane do zrozumienia klientów
TŁO
Facebook, z pewnym znacznym marginesem, jest wciąż największą na świecie siecią społecznościową. Jest używany przez wszystkich, aby pozostać w kontakcie z przyjaciółmi, dzielić się specjalnymi okazjami i organizować imprezy towarzyskie. Miliony ludzi każdego dnia używają go również do czytania wiadomości, interakcji z markami i podejmowania decyzji o zakupie. Podobnie jak wszystkie wielkie sieci społecznościowe i wyszukiwarki, jest w zasadzie bezpłatny dla użytkownika końcowego. Firma zarabia pieniądze, które wykorzystują na opłacenie swoich 10 000 pracowników i utrzymywanie usług online od firm, które płacą za dostęp do danych zbieranych przez nas na Facebooku, kiedy korzystamy z ich usług. W tym roku firma ogłosiła, że przyciągnęła dwa miliony aktywnych reklamodawców, głównie małe i średnie firmy, które płacą za wyświetlanie reklam w kanałach osób, które mogą być nimi zainteresowane.
Jaki problem pomaga rozwiązać Big Data?
Firmy muszą sprzedawać produkty i usługi, aby przetrwać. Aby to zrobić, muszą znaleźć klientów do sprzedaży. Tradycyjnie odbywało się to poprzez reklamę w formie "emisji": praca w prasie, telewizji, radiu i reklamie displayowej , zasada, że jeśli umieścisz reklamę w najbardziej widocznym miejscu, na którą możesz sobie pozwolić, zobaczy ją duża liczba osób, a niektóre z nich będą prawdopodobnie zainteresowane tym, co oferujesz. Jednak jest to oczywiście hit-and- miss podejście. Dla dużej międzynarodowej firmy może być jasne, że spot telewizyjny podczas Super Bowl zwiększy ich ekspozycję i postawi ich markę przed potencjalnymi klientami. Jednak mała firma, która właśnie zaczyna działalność, musi dużo ostrożniej myśleć o najbardziej efektywnym sposobie wydawania ograniczonego budżetu marketingowego. Firmy te nie mogą sobie pozwolić na pokrycie wszystkich baz, więc narzędzia, które pomogą im ustalić, kim są ich klienci i gdzie je znaleźć, mogą być niezwykle korzystne.
W jaki sposób wykorzystywane są Big Data w praktyce?
Szybka ekspansja świata online w ciągu ostatnich dwóch dekad zapewniła reklamodawcom prosty sposób, aby to osiągnąć. Ponieważ strony internetowe hostowane są na komputerach, a nie na gazetach czy billboardach, każdy odwiedzający może być niezależnie identyfikowane przez oprogramowanie działające na stronie internetowej. A Facebook, z 1,5 miliarda aktywnych użytkowników miesięcznie, ma dostęp do znacznie większej liczby danych użytkowników niż ktokolwiek inny. Dane są bardziej osobiste - podczas gdy usługi takie jak Google mogą śledzić naszą sieć . Odwiedziny stron (które przypadkowo Facebook może teraz zrobić) i wnioskowanie o nas z naszych nawyków przeglądania, Facebook często ma pełny dostęp do prostych danych demograficznych o nas takich jak miejsce zamieszkania, pracy, zabawy, ilu mamy przyjaciół, co robimy w wolnym czasie i poszczególnych filmach, książkach i muzycy, których lubimy. Na przykład wydawca książek może następnie zapłacić Facebookowi za umieszczenie swoich reklam przed milionem osób, które lubią podobne książki i dopasować profile demograficzne swoich klientów. Dane zbierane przez użytkowników podczas przeglądania Facebooka są wykorzystywane do łączenia ich z firmami, które oferują produkty i usługi, które statystycznie mogą być zainteresowane. Facebook niewątpliwie posiada jedną z największych i najbardziej kompleksowe bazy danych osobowych, zebrane w każdym sekundzie każdego dnia. Oprócz platformy do udostępniania wiadomości, Facebook jest również
platformą do uruchamiania oprogramowania. Do tej pory na Facebooku utworzono ponad pół miliona aplikacji, z których większość korzysta z dostępu do nich, poprzez obszerne interfejsy API (interfejsy aplikacji), do danych użytkowników Facebooka. Te aplikacje z kolei zbierają dane o tym, w jaki sposób są wykorzystywane przez swoich programistów do kierowania reklam na własnych klientów. Facebook rozszerza się także poprzez wykupywanie innych firm i usług oraz dodawanie ich danych do własnych. W ostatnich latach firma przejęła usługi Instagram i WhatsApp, udostępniając więcej danych o tym, jak udostępniamy zdjęcia i wiadomości błyskawiczne. Bardziej intrygująco zdobyli także producenci okularów wirtualnych - Oculus. Niektórzy komentatorzy twierdzą, że to pokazuje, że Facebook jest zainteresowany tworzeniem usług pozwalających nam na interakcję ze sobą w wirtualnej rzeczywistości, a nie tylko na płaskich ekranach. Monitorowanie naszego zachowania w tych nowych, wciągających wirtualnych światach niewątpliwie będzie bardzo cennym źródłem
Jakie były wyniki?
Taktyka Facebooka polegająca na wykorzystaniu ogromnego bogactwa danych konsumenckich do sprzedaży przestrzeni reklamowej doprowadziła do objęcia 24% udziału w amerykańskim rynku reklam displayowych w USA w 2014 r. I wygenerowania 5,3 mld USD przychodów ze sprzedaży reklam. Do 2020 r. Prognozuje się, że będzie to 37% udział, o wartości ponad 20 mld USD
Jakie dane zostały użyte?
Facebook wraz z użytkownikami generuje własne dane. Użytkownicy co minutę przesyłają 2,5 miliona treści. Ta treść jest analizowana pod kątem wskazówek dotyczących nas, które mogą zostać wykorzystane do podziału na segmenty reklamodawców. Dodatkowo wchodzą w interakcje z treści innych osób oraz dane przechowywane w bazach danych Facebooka, w tym wykazy firm oraz bazy danych filmów, muzyki, książek i programów telewizyjnych. Ilekroć "polubimy" i udostępnimy te treści, dowie się o nas trochę więcej. Aby zapewnić prywatność, wszystkie te dane są anonimizowane, gdy są wprowadzane do systemów, które pasują do firm z potencjalnymi klientami. Wszystko to naprawdę oznacza, że twoje imię i nazwisko zostało usunięte i zastąpione unikalnym kodem identyfikacyjnym, którego nie można przypisać do ciebie.
Jakie są szczegóły techniczne?
Facebook jest najczęściej odwiedzaną stroną internetową na świecie po wyszukiwarce Google - a najczęściej wyszukiwaną przez Google wyszukiwarką jest Facebook. Mówi się, że stanowi około 10% całego ruchu online. Oczywiście usługa sieciowa o tej wielkości wymaga ogromnej ilości infrastruktury. Jego centra danych są wypełnione specjalnie zaprojektowanymi serwerami, zbudowanymi przy użyciu technologii Intel i chipy AMD i energooszczędna technologia pomagają obniżyć koszty utrzymania tak wielu maszyn działających 24 godziny na dobę, 7 dni w tygodniu. Projekty systemów serwerowych zostały udostępnione jako dokumentacja open source. Facebook opiera się również na technologii open-source dla swojego oprogramowania, które jest napisane w PHP i uruchamia bazy danych MySQL. Jego programiści stworzyli HipHop dla kompilatora MySQL, który tłumaczy kod PHP na C ++ w środowisku wykonawczym, umożliwiając wykonywanie kodu znacznie szybciej i zmniejszenie obciążenia procesora. Korzysta z własnego rozproszonego systemu pamięci masowej w oparciu o platformę HBase firmy Hadoop do zarządzania pamięcią masową. Wiadomo również, że Facebook wykorzystuje Apache Hive do analityki danych użytkownika w czasie rzeczywistym.
Wszelkie wyzwania, które trzeba pokonać?
Zgodnie z większością dużych dostawców usług internetowych największym wyzwaniem na Facebooku jest zdobywanie naszego zaufania. Na początku nierzadko znajdowano ludzi, którzy byli wysoce
sceptycznie nastawieni do wprowadzania danych osobowych do dowolnego systemu online, ponieważ nie można było z całą pewnością stwierdzić, co z nimi zrobimy. Nawet jeśli każda firma na świecie sztywno przestrzega zasad prywatności i udostępniania danych, najbardziej szczelna polityka na świecie jest bezsilna wobec utraty lub kradzieży danych, takich jak ataki hakerskie. Od samego początku Facebook próbował zdobyć nasze zaufanie, pokazując nam, że zrobił prywatność. Pełne dziur i odniesienia do tajemniczych i nieokreślonych "stron trzecich", jak mogły być, ich funkcje prywatności były o lata świetlne lepsze od tych oferowanych przez współczesnych, takich jak Myspace. Fakt, że istniała co najmniej iluzja prywatności, wystarczył, aby wielu ludzi znalazło się w rewolucji mediów społecznościowych. Domyślnie wszystko, co użytkownik udostępnił, zostało udostępnione tylko zaufanej grupie znajomych, w przeciwieństwie do Myspace, gdzie początkowo posty były domyślnie udostępniane światu. Oferowano również przełączniki umożliwiające udostępnianie indywidualnych aspektów danych osobowych lub prywatnych. Jednak zawsze istniały skargi, że te opcje są mylące lub trudne do znalezienia.
Jakie są kluczowe punkty nauki i wnioski?
Facebook zrewolucjonizował sposób, w jaki komunikujemy się ze sobą przez Internet, umożliwiając nam zbudowanie własnej sieci i wybór, z kim dzielimy się informacjami o naszym życiu. Dane te mają ogromną wartość dla reklamodawców, którzy mogą z nich korzystać, aby precyzyjnie kierować swoje produkty i usługi do ludzie, którzy według statystyk mogą ich chcieć lub potrzebować. Ukierunkowane reklamy są szczególnie przydatne dla małych firm, które nie mogą zmarnować swojego ograniczonego budżetu marketingowego, płacąc za ekspozycję na niewłaściwy segment odbiorców. Niezbędne jest zdobycie zaufania użytkowników. Oprócz kradzieży danych i takich nielegalnych działań, użytkownicy mogą się denerwować po prostu przez zbyt częste poddawanie ich reklamom, którymi nie są zainteresowani. Tak więc w interesach Facebooka, a także reklamodawców, jest skuteczne ich łączenie.
Jak Big Data mogą być stosowane w gospodarstwach rolnych
TŁO
Producent rolny John Deere zawsze był pionierską firmą. Ich tytułowy twórca osobiście zaprojektował, zbudował i sprzedał niektóre z pierwszych komercyjnych pługów stalowych. To ułatwiło życie osadnikom na Środkowym Zachodzie w połowie XIX wieku i uczyniło firmę amerykańską legendą. Często w czołówce innowacji, nie jest zaskoczeniem, że przyjęli Big Data entuzjastycznie - pomagając pionierom w oswajanie wirtualnej dzikiej granicy, tak jak to było w przypadku prawdziwej.
Jaki problem pomaga rozwiązać Big Data?
Liczba ludności na świecie gwałtownie rośnie, co oznacza, że zawsze pojawi się rosnące zapotrzebowanie na więcej żywności. W związku z tym, że żywność modyfikowana genetycznie wciąż nie jest atrakcyjna dla apetytów publicznych, zwiększenie wydajności produkcji standardowych upraw jest kluczem do zaspokojenia rosnącego popytu. W tym celu John Deere uruchomił kilka usług opartych na Big Data, które pozwalają rolnikom korzystać z crowdsourcingu, monitorowania w czasie rzeczywistym danych zebranych od tysięcy użytkowników. Dane te umożliwiają rolnikom podejmowanie świadomych decyzji dotyczących wszystkiego, od czego rośliny do roślin, do ilości nawozu do użycia.
W jaki sposób wykorzystywane są Big Data w praktyce?
Myjohndeere.com to portal internetowy, który umożliwia rolnikom dostęp do danych zebranych z czujników podłączonych do ich własnych maszyn pracujących w terenie, a także zagregowanych danych od innych użytkowników na całym świecie. Jest również połączony z zewnętrznymi zbiorami danych, w tym danymi pogodowymi i finansowymi. Usługi te pozwalają rolnikom na podejmowanie bardziej świadomych decyzji dotyczących korzystania z ich urządzeń, gdzie będą oni uzyskiwać najlepsze wyniki i jaki zwrot z inwestycji przez nich dostarczają. Na przykład zużycie paliwa w różnych kombajnach może być monitorowane i skorelowane z poziomem produktywności. Analizując dane z tysięcy gospodarstw, pracujących z wieloma różnymi uprawami w różnych warunkach, możliwe jest dostrajanie operacji w celu uzyskania optymalnych poziomów produkcji. System pomaga również zminimalizować przestoje poprzez przewidywanie, w oparciu o dane crowdsourcingu, kiedy i gdzie sprzęt może zawieść. Te dane mogą być udostępniane inżynierom, którzy będą stać gotowy do dostarczania nowych części i maszyn serwisowych, kiedy jest to potrzebne - ograniczania odpadów powodowanych przez nieużywane maszyny. Inną usługą jest Farmsight, którą firma uruchomiła w 2011
r. Umożliwia ona rolnikom podejmowanie proaktywnych decyzji o tym, jakie rośliny uprawiane są na miejscu, w oparciu o informacje zebrane w ich własnych dziedzinach i innych użytkowników. W tym miejscu pewne "recepty" można przypisać do poszczególnych pól lub sekcji pól i zdalnie przeprogramować maszyny, aby zmienić ich zachowanie zgodnie z "najlepszą praktyką" sugerowaną przez analitykę. Idąc dalej, wizją firmy jest to, że pewnego dnia będą nawet duże farmy możliwe do kontrolowania przez niewielki zespół ludzi pracujących razem z całą gamą automatycznych narzędzi, połączonych ze sobą i komunikujących się ze sobą
Jakie były wyniki?
Poza zwiększeniem zysków rolników i, miejmy nadzieję, tworzeniem tańszych i obfitszych posiłków dla świata, istnieją potencjalne korzyści dla środowiska. Pestycydy i nawozy mogą powodować zanieczyszczenie powietrza i dróg wodnych, dzięki czemu można uzyskać więcej informacji na temat dokładnych poziomów potrzebnych do uzyskania optymalnych środków produkcji że nie będzie więcej niż potrzeba. Potencjał do ogromnych pozytywnych zmian - w świecie, w którym dochodzi do przeludnienia i niewystarczająca produkcja żywności - szczególnie w krajach rozwijających się, jest czymś, co może przynieść korzyści wszystkim na świecie.
Jakie dane zostały użyte?
Wykorzystywane dane to w dużej mierze uporządkowane, wewnętrzne dane, głównie z czujników na maszynach John Deere i sond w glebie, które są następnie agregowane i udostępniane użytkownikom myjohndeere.com. Dostarczane są również pewne zewnętrzne dane, w tym dane pogodowe i dane finansowe .
Jakie są szczegóły techniczne?
John Deere korzysta z systemu HANA firmy SAP - opartego na kolumnach, relacyjnego systemu zarządzania bazami danych w celu zlikwidowania dużych zbiorów danych. Do HANA załadowano setki milionów punktów danych firmy John Deere, a ich inżynierowie mogą przewiercić dane za pomocą analiz i modeli matematycznych.
Wszelkie wyzwania, które trzeba pokonać?
Ponieważ wszystkie te dane są generowane i udostępniane, rośnie dyskusja na temat tego, kto jest ich właścicielem. Platforma MyJohnDeere umożliwia rolnikom współdzielenie danych ze sobą (lub nie, jeśli chcą), a także z twórcami aplikacji innych firm, którzy mogą korzystać z interfejsów API w celu
podłączania sprzętu innych producentów lub oferować własne usługi analizy danych. Ale to nie powstrzymało wielu rolników od pytania, dlaczego powinni efektywnie płacić za swoje własne dane i pytając, dlaczego John Deere i inne firmy świadczące podobne usługi nie powinny im płacić - informuje American Farm Bureau Federation (AFBF) reżyser Mary Kay Thatcher. Obecnie trwają rozmowy między AFBF a firmami, w tym John Deere, Monsanto i DuPont, dotyczące sposobu rozwiązania tych problemów. Oprócz problemów związanych z prywatnością istnieją obawy, że posiadanie zbyt dużej ilości informacji może pozwolić handlowcom na rynkach finansowych manipulować cenami. Istnieje również kwestia mniejszej liczby możliwości zatrudnienia w rolnictwie, będąca bezpośrednim wynikiem automatyzacji i Big Data. Zaczynamy delegować więcej i więcej odpowiedzialności wobec robotów - nie dlatego, że rolnicy są leniwi (jak każdy, kto mieszka w rolnictwie, będą wiedzieć, to zdecydowanie nie są!), ale ponieważ roboty często mogą to robić lepiej. Jasne, wizja John Deere na rozległych obszarach użytków rolnych zarządzane przez człowieka siedzącego przy terminalu komputerowym z małym zespołem pomocników doprowadzi do zmniejszenia możliwości zatrudnienia dla ludzi pracujących na roli, ale to była tendencja przynajmniej przez ostatnie stulecie, niezależnie. Jest to trend, który rozpoczął się na długo przed pojawieniem się Big Data.
Jakie są kluczowe punkty nauki i wnioski?
W Big Data istnieje wspólny mit, że jest to coś, co robią tylko firmy z Doliny Krzemowej. Jednak ta sprawa pokazuje, jak każda branża może czerpać korzyści z danych, a nawet najbardziej tradycyjne firmy zwracają się do Big Data. Inne firmy zaczynają robić to samo, np. Firmy transportowe używające danych do planowania bardziej wydajnych tras, firmy zajmujące się nieruchomościami wykorzystują dane do przewidywania boomów i załamań na rynku, a firmy ubezpieczeniowe wykorzystują smartfony swoich klientów do śledzenia, jak dobrze jeżdżą . Obecnie, jak John Deere, każda firma może stać się firmą Big Data.
Korzystanie z Big Data, aby obsługa klienta była bardziej osobista
TŁO
Przed kryzysem finansowym w 2008 r. Royal Bank of Scotland (RBS) był w pewnym momencie największym bankiem na świecie. Kiedy ekspozycja na rynek kredytów hipotecznych typu subprime zagroziła upadkiem biznesu, rząd brytyjski wkroczył, jednocześnie posiadając 84% akcji spółki. Obecnie przeprowadzany jest proces ponownej prywatyzacji, wybrany przez bank doskonalenie obsługi klienta jako strategii walki o swój udział w rynku bankowości detalicznej. Analiza Big Data ma kluczową rolę do odegrania w tym planie. Niedawno bank ogłosił zainwestowanie 100 milionów funtów w technologię analizy danych nazwał jedną z ich pierwszych inicjatyw "personologią" - kładąc nacisk raczej na klientów niż na produkty finansowe.
Jaki problem pomaga rozwiązać Big Data?
W latach siedemdziesiątych i osiemdziesiątych, mówi szef działu analitycznego RBS Christian Nelissen, banki odłączyły się od swoich klientów. Nacisk kładziono na popychanie produktów i osiąganie celów sprzedażowych, bez względu na to, czy dostarczali swoim klientom potrzebne usługi. "W latach siedemdziesiątych", mówi Nelissen, "banki, za pośrednictwem swoich pracowników i menedżerów oddziałów, znały swoich klientów indywidualnie. Wiedzieli, kim są i jak się do nich dopasowali - kim jest ich rodzina i co próbowali zrobić. "W pewnym momencie lat osiemdziesiątych, jak mówi, ten osobisty związek został utracony Bankowość detaliczna przeszła od pomagania klientom dbać o swoje
finanse, aby popychać wszystkie rodzaje usług finansowych i ubezpieczeniowych w poszukiwaniu nowych strumieni dochodów. Podczas gdy wcześniej skoncentrowali się na spotkaniu z klientem oczekiwania, koncentracja przesunęła się w kierunku "wyprowadzania produktów z drzwi" - w słowach Nelissena. Banki miałyby na celu sprzedaż określonej liczby transferów salda lub kart kredytowych, i to oni próbowaliby sprzedać klientom, którzy wyszli przez drzwi, niezależnie od tego, czy tego chcieli, czy nie.
W jaki sposób wykorzystywane są Big Data w praktyce?
RBS próbuje korzystać z narzędzi analitycznych i maszyn w celu przywrócenia poziomu osobistej obsługi - co z początku może wydawać się sprzeczne z intuicją. Ale ich zespół analityczny opracował filozofię, którą nazywają "personologią" w celu lepszego zrozumienia ich klientów i ich potrzeb. Nasze banki dysponują ogromną ilością informacji na nasz temat. Zapisy o tym, jak wydawać pieniądze i zarządzać naszymi finansami, mogą dać niesamowicie szczegółowy obraz tego, jak przeżywamy nasze życie - kiedy i gdzie wyjeżdżamy, się żenimy, źle się czujemy, a jeśli mamy szczęście mieć jakikolwiek, jaki rodzaj na co wydajemy nasze nadwyżki dochodu. Nelissen mówi: "Jeśli spojrzysz na kogoś takiego jak Amazon, oni stosunkowo mało wiedzą o swoim kliencie w porównaniu do nas, ale bardzo dobrze wykorzystują dane, które mają. "Tradycyjnie byliśmy w przeciwnej sytuacji - mamy ogromną ilość danych o naszych klientach, ale dopiero zaczynamy z nich korzystać. W tym, co mamy, jest ogromne bogactwo i dopiero zaczynamy czerpać z tego potencjał. "Bardzo prostym i prostym przykładem, który stanowi dobry punkt wyjścia, jest gratulowanie klientom osobiście kontaktu z oddziałem na ich temat. To nie jest analityka Big Data, ale jest zgodna z koncepcją personologii. Opracowano również systemy, które pozwalają klientom indywidualnie poznać, w jaki sposób skorzystają z oferowanych ofert i promocji. O ile w przeszłości logowanie do konta online lub dzwonienie do obsługi klienta było dla banku okazją do zaoferowania usług, które najkorzystniej byłoby odciążyć, teraz klienci otrzymają spersonalizowane rekomendacje pokazujące dokładnie, ile zaoszczędziliby dzięki podjęciu konkretna oferta. Dodatkowo dane transakcyjne są analizowane w celu wskazania zdarzeń klientów płacących dwukrotnie za produkty finansowe, na przykład za ubezpieczenie lub pomoc w razie awarii, która jest już dostarczana jako część pakietu bankowego. konto.
Jakie były wyniki?
Mimo, że jest to wczesny dzień, Nelissen może zgłosić pewne wstępne wyniki. Na przykład każdy klient, z którym się skontaktowaliśmy, w związku z duplikowaniem produktów finansowych, za które płacił, zdecydował się anulować produkt innej firmy niż produkt RBS. Nelissen mówi: "Jesteśmy bardzo podekscytowani tym, co robimy. Obserwujemy znacznie lepsze wskaźniki odpowiedzi i większe zaangażowanie". Patrząc na pojedyncze przykłady mogą wydawać się sprzeczne z filozofią Big Data, niezwykle ważne jest, aby pamiętać, że ostatecznie jest to sposób, w jaki strategie takie jak te wpływają na ludzi na indywidualne podstawy.
Jakie dane zostały użyte?
RBS wykorzystuje dane o swoich klientach, w tym historię transakcji i dane osobowe kont, aby określić, które produkty lub usługi będą najbardziej przydatne.
Jakie są szczegóły techniczne?
Bank wykorzystuje oparte na analizie oprogramowanie CRM opracowane przez Pegasystems, aby w czasie rzeczywistym wydawać pracownikom oddziałów i centrów obsługi telefonicznej rekomendacje
dotyczące pomocy określonym klientom. Zbudowali oni także własne kokpity menedżerskie z wykorzystaniem SAS i stosowali technologię open-source, w tym Hadoop ( dostarczone przez Clouderę) i Cassandrę.
Wszelkie wyzwania, które trzeba pokonać?
Według Nelissena zdobycie personelu na pokładzie było jednym z głównych wyzwań, z jakimi borykało się na starcie. "Jesteśmy w punkcie, w którym pracownicy mają wrażenie, że prowadzą cenną rozmowę z klientami. "Znajdują się w punkcie, w którym rozumieją, co dane próbują zrobić, i czują, że pomaga im to w dobrej rozmowie - i to jest duża zmiana w stosunku do miejsca, w którym byliśmy wcześniej. "Zaangażowanie personelu ma kluczowe znaczenie - pomysły, które działają najlepiej i mają najlepszy rezonans z klientami, to te, które otrzymaliśmy od linii frontu lub ściśle współpracowaliśmy z frontem, aby się rozwijać."
Jakie są kluczowe punkty nauki i dania na wynos?
W kategoriach sprzedaży i marketingu dane są bezużyteczne, jeśli nie mówią nam czegoś, czego jeszcze nie wiemy o naszych klientach. Lepsze zrozumienie klientów pozwala organizacjom lepiej się dostosować do ich potrzeb. Konieczne jest zaangażowanie pracowników i innych interesariuszy. Muszą w pełni zrozumieć powód wykorzystywania analityki danych w kontaktach z klientami sytuacje, jeśli zamierzają najbardziej efektywnie wykorzystać odkryte spostrzeżenia.
Jak duże dane są wykorzystywane do napędzania sukcesu mediów społecznościowych
TŁO
LinkedIn to największa na świecie profesjonalna sieć internetowa z ponad 410 milionami członków w ponad 200 krajach. LinkedIn łączy profesjonalistów, umożliwiając im budowanie sieci ich połączeń i połączeń ich połączeń. Witryna została uruchomiona przez Reida Hoffmana w 2003 roku, co czyni ją jedną z najstarszych sieci społecznościowych na świecie.
Jaki problem pomaga rozwiązać Big Data?
Konkurencja w sieciach społecznościowych jest jeszcze ostrzejsza niż kiedykolwiek wcześniej, a gorący rok może nie być następny. LinkedIn musi zadbać o to, aby ich strona internetowa pozostała podstawowym narzędziem dla zapracowanych profesjonalistów, pomagając im stać się bardziej produktywnymi i skutecznymi, niezależnie od tego, czy korzystają z usługi premium (opłacanej) czy bezpłatnej usługi. W związku z tym Big Data znajduje się w centrum działań i procesów decyzyjnych w LinkedIn, pomagając im zapewnić najlepszą możliwą obsługę milionów użytkowników witryny.
W jaki sposób wykorzystywane są Big Data w praktyce?
LinkedIn śledzi każdy ruch użytkowników na stronie: każde kliknięcie, każdy widok strony, każda interakcja. Z 410 milionami członków jest to bardzo dużo wydarzeń do przetworzenia każdego dnia. Specjaliści ds. Danych i naukowcy z LinkedIn analizują tę górę danych, aby pomóc w podejmowaniu decyzji i projektowaniu danych produktów i funkcji. Mógłbym wypełnić całą książkę na temat sposobów, w jakie LinkedIn wykorzystuje Big Data, ale tutaj chcę tylko przyjrzeć się kilku kluczowym przykładom. Podobnie jak w innych sieciach mediów społecznościowych, LinkedIn wykorzystuje dane
do zgłaszania sugestii dla swoich użytkowników, takich jak "ludzie, których możesz znać". Sugestie te są oparte na wielu czynnikach, na przykład po kliknięciu na czyjś profil (w którym takim przypadku rozsądnie jest założyć, że możesz je znać, lub ktoś inny o tej nazwie), jeśli pracowałeś w tej samej firmie w tym samym okresie lub dzieliłeś się z innymi. Ponadto, ponieważ użytkownicy mogą przesyłać swoje kontakty e-mail, LinkedIn wykorzystuje te informacje do zgłaszania sugestii - nie tylko dla osób, które możesz znać na stronie, ale także dla osób, które znajomi mogą wiedzieć, kiedy dołączą do witryny.LinkedIn może również pobierać dane o użytkownikach z innych witryn, takich jak Twitter, w celu przedstawienia sugestii dotyczących osób, które możesz znać. LinkedIn korzysta z technik uczenia maszynowego, aby udoskonalić swoje algorytmy i przedstawić lepsze sugestie dla użytkowników. Załóżmy na przykład, że LinkedIn regularnie przedstawia sugestie dla osób, które możesz znać, pracując w firmie A (którą pracowałeś osiem lat temu) i firmie B (z którą pracowałeś dwa lata temu). Jeśli prawie nigdy nie klikniesz na profile osób z Firmy A, ale regularnie sprawdzasz sugestie Firmy B, LinkedIn będzie priorytetowo traktować Firmę B w ich sugestiach. To spersonalizowane podejście umożliwia użytkownikom tworzenie sieci, które najlepiej dla nich działają. Jedną z funkcji odróżniających LinkedIn od innych platform mediów społecznościowych, takich jak Facebook, jest sposób, dzięki któremu możesz zobaczyć, kto przeglądał Twój profil. Ta funkcja jest teraz bardziej szczegółowa: kiedy widziałeś, ile osób obejrzało Twój profil i kto był ostatnim widzem, możesz teraz zobaczyć, z jakich regionów i branż pochodzą te osoby, z jakich firm korzystają. za i jakie słowa kluczowe (jeśli w ogóle) doprowadziły je do twojego profilu. Te spostrzeżenia, które są możliwe dzięki Big Data, pomagają użytkownikom zwiększyć ich efektywność na stronie. LinkedIn wykorzystuje technologię przetwarzania strumieniowego, aby zapewnić wyświetlanie najbardziej aktualnych informacji, gdy użytkownicy znajdują się w witrynie - od informacji o tym, kto dołączył do witryny i kto dostał nową pracę do przydatnych artykułów, które kontakty lubiły lub udostępniły. W skrócie, strona stale zbiera i wyświetla nowe dane dla użytkowników. Nie tylko stała transmisja danych sprawia, że strona jest bardziej interesująca dla użytkowników, ale także przyspiesza proces analityczny. Tradycyjnie firma przechwytuje dane i przechowuje je w bazie danych lub hurtowni danych, które mają być analizowane w późniejszym czasie. Ale dzięki technologii przetwarzania strumieniowego w czasie rzeczywistym LinkedIn ma możliwość bezpośredniego przesyłania danych ze źródła (np. aktywności użytkownika) i analizowania go w locie. Wreszcie, nie zapominajmy, że LinkedIn musi czerpać dochody, a robią to poprzez usługi rekrutacyjne, płatne członkostwo i reklamy. Big Data ma rolę do odegrania w zwiększaniu przychodów, a także w zwiększaniu wygody użytkownika. Na przykład w reklamie - która stanowi 20-25% rocznego przychodu na LinkedIn - analitycy współpracują ze sprzedawcami LinkedIn, aby zrozumieć, dlaczego członkowie klikają określone reklamy, a nie inni. Informacje te są następnie przekazywane reklamodawcom w celu zwiększenia skuteczności reklam.
Jakie były wyniki?
Dane o sukcesie LinkedIn obejmują dochody i liczbę członków, z których oba wciąż rosną z roku na rok. W pierwszej połowie 2015 r. LinkedIn zyskał 40 milionów nowych członków, ostatnie kwartalne przychody spółki wyniosły ponad 700 milionów USD (wzrost z około 640 USD w poprzednim kwartale). Nie ma wątpliwości, że Big Data odgrywa dużą rolę w ciągłym sukcesie firmy.
Jakie dane zostały użyte?
LinkedIn śledzi każdy ruch, który robią ich użytkownicy na stronie, ze wszystkich rzeczy, które są lubiane i udostępniane każdemu kliknięciu, a każdy kontakt jest przesyłany w wiadomościach. Firma obsługuje dziesiątki tysięcy stron internetowych w każdej sekundzie każdego dnia. Wszystkie te żądania obejmują pobieranie danych z systemów zaplecza LinkedIn, które z kolei obsługują miliony zapytań na sekundę. Za zgodą LinkedIn zbiera również dane o kontaktach e-mail użytkowników.
Jakie są szczegóły techniczne?
Hadoop stanowi rdzeń infrastruktury Big Data LinkedIn i jest wykorzystywany zarówno w przypadku zapytań ad hoc, jak i wsadowych. Firma ma duże inwestycje w Hadoop, z tysiącami maszyn, które zarządzają mapami / redukują miejsca pracy. Inne kluczowe elementy wyrzynarki LinkedIn Big Data to Oracle, Pig, Hive, Kafka, Java i MySQL. Wielokrotne centra danych są niezwykle ważne dla LinkedIn, aby zapewnić wysoką dostępność i uniknąć pojedynczego punktu awarii. Dzisiaj w serwisie LinkedIn brakuje trzech głównych centrów danych. LinkedIn opracował także własne narzędzia open-source do dostępu i analizy Big Data. Kafka zaczęła życie w ten sposób, a inne rozwiązania obejmują Voldemort i Espresso (do przechowywania danych) i Pinot (do analityki). Technologia Open-Source, taka jak ta, jest ważna dla LinkedIn, ponieważ czuje, że tworzy się lepiej kod (i lepszy produkt) na dłuższą metę. Ponadto firma ma imponujący zespół wewnętrznych specjalistów ds. Danych - około 150 przy obecnych szacunkach. Zespół pracuje nie tylko nad ulepszeniem produktów LinkedIn i rozwiązywaniem problemów dla członków, publikuje także na dużych konferencjach i przyczynia się do rozwoju społeczności open source. W rzeczywistości, zespół jest zachęcany do aktywnego prowadzenia badań w wielu dziedzinach, w tym reklama obliczeniowa, uczenie maszynowe i infrastruktura, eksploracja tekstów i analiza sentymentów, bezpieczeństwo i SPAM.
Wszelkie wyzwania, które trzeba pokonać?
Kiedy myślisz, że LinkedIn zaczął się od zaledwie 2700 członków w pierwszym tygodniu, ogromny wzrost ilości danych jest jednoznacznym wyzwaniem, które LinkedIn musi pokonać - firma musi teraz być w stanie poradzić sobie i zrozumieć ogromną ilość danych każdego dnia. Rozwiązaniem tego problemu jest inwestowanie w wysoce skalowalne systemy i zapewnienie, że dane są nadal wystarczająco szczegółowe, aby dostarczyć przydatnych informacji. Hadoop zapewnia wymaganą moc obliczeniową i skalowalność, aby poradzić sobie z ilością danych, a interfejs użytkownika LinkedIn pozwala pracownikom na dzielenie i dzielenie danych na wiele różnych sposobów. Od firmy, która pięć lat temu zatrudniała mniej niż 1000 pracowników, LinkedIn powiększył się, zatrudniając prawie 9000 osób. Stawia to ogromny popyt na zespół analityczny. Być może w odpowiedzi na to, LinkedIn niedawno zreorganizował swój zespół zajmujący się naukami o danych, tak aby część nauk decyzyjnych (która analizuje wykorzystanie danych i kluczowe wskaźniki produktu) jest teraz objęta dyrektorem finansowym firmy, a część dotycząca danych o produkcie (która opracowuje funkcje LinkedIn, które generują masę danych do analizy) jest teraz częścią inżynierii. Jako takie, dane naukowe są teraz bardziej zintegrowane niż kiedykolwiek na LinkedIn, a analitycy stają się coraz bardziej zgodni z funkcjami firmy. Może dziwić fakt, że zatrudnianie pracowników jest również wyzwaniem, nawet dla takiego giganta jak LinkedIn. W rozmowie z CNBC.com szef rekrutacji LinkedIn, Sherry Shah, potwierdził, że w 2015 r. Zamierza zatrudnić ponad 100 naukowców zajmujących się danymi (wzrost o 50% w porównaniu z 2014 r.). Jednak rywalizacja o najlepszych naukowców zajmujących się danymi jest trudna, szczególnie w Kalifornii, a Szah przyznał, że "zawsze trwa wojna licytacyjna". Chociaż coraz więcej osób wchodzi na rynek, prawdopodobnie luka w zakresie umiejętności - gdzie popyt na dane przez naukowców przewyższa podaż - potrwa jeszcze kilka lat. Co więcej, LinkedIn nie uciekł od reakcji na prywatność. W czerwcu 2015 r. Firma zgodziła się zapłacić 13 milionów dolarów na rozstrzygnięcie pozwu zbiorowego, wynikającego z wysyłania wielu e-maili z zaproszeniami na listy kontaktów użytkowników. W wyniku ugody LinkedIn jednoznacznie określi, że ich narzędzie "Dodaj połączenia" importuje książki adresowe, a strona umożliwia tym, którzy używają tego narzędzia, wybieranie kontaktów, które otrzymają automatyczne zaproszenia i e-maile uzupełniające.
Jakie są kluczowe punkty nauki i wnioski?
Jako jedna z najstarszych sieci społecznościowych która i wciąż się rozwija, LinkedIn dostarcza lekcji dla wszystkich firm, w jaki sposób Big Data może prowadzić do dużego wzrostu. Ich zdolność do zgłaszania sugestii i zaleceń użytkownikom jest szczególnie godna pozazdroszczenia. Ale LinkedIn również stanowi przykład potrzeby przejrzystości przy korzystaniu z danych osób - i reakcji, które mogą wystąpić kiedy ludzie czują, że firma nie jest całkowicie przejrzysta. Myślę, że możemy spodziewać się kolejnych podobnych procesów przeciwko firmom w przyszłości, dlatego ważne jest, aby z klientami wiedzieć dokładnie, jakie dane gromadzisz i jak zamierzam go użyć.
Wprowadzanie Big Data do mas
TŁO
Microsoft ma mocne osiągnięcia w zakresie prawidłowego przewidywania trendów głównego nurtu w informatyce. Tak jak przewidzieli i zarabiali na rozwoju komputera osobistego, graficznego systemu operacyjnego i Internetu, od wielu lat przewidują rosnące znaczenie analityki Big Data. Krytycy mogą twierdzić, że innowacja nie jest mocną stroną Microsoftu, ale nie mogą zaprzeczyć, że na pewno jest opakowanie i sprzedawanie go do głównego nurtu. Obecna CEO, Satya Nadella, okazała się tak samo przenikliwa jak jego poprzednicy pod tym względem, kierując firmą w kierunku zostania dostawcą infrastruktury usług danych.
Jaki problem pomaga rozwiązać Big Data?
Big Data to naprawdę nic nowego: dane i analizy istnieją od dawna i zawsze je łączyliśmy. Co się zmieniło, dzięki technologii i stale rosnącym połączeniom, jest rozmiar i szybkość danych, a wyrafinowanie analityki. Jednak jeden problem wciąż jest duży dla każdego, kto wpada na pomysł użycia dane i analizy w celu rozwiązania problemów. Analiza danych, w szczególności analiza danych Big Data - która wymaga pracy z ogromnymi, ciągle zmieniającymi się i bardzo złożonymi zestawami danych - jest trudna. Jeśli nie jesteś utalentowanym programistą i programistą komputerowym, najprawdopodobniej, jeśli opracowałeś cenną aplikację do analityki danych w swojej firmie, będziesz potrzebować pomocy w jej zastosowaniu. Konieczne jest napisanie algorytmów i zbudowanie szkieletu sprzętowego do przechowywania danych, przeprowadzenia analizy i zgłoszenia wyników. Ta rozziewana przepaść pomiędzy tym, co ludzie są w stanie sobie wyobrazić, a tym, co są w stanie zbudować, doprowadziła do pojawienia się wielu firm oferujących "dane jako usługa" (DAAS) lub "oprogramowanie jako usługę" (SAAS ) rozwiązania. Tutaj firma Microsoft po raz kolejny znajduje się w czołówce, podobnie jak oferowanie systemów operacyjnych, takich jak MS-DOS, a następnie Windows, komercyjnych oprogramowanie produktywne, takie jak pakiet Office i przeglądarki internetowe. Dodatkowo Microsoft pokazał, że ma na uwadze coraz bardziej konkurencyjny i lukratywny rynek reklamy internetowej. Microsoft widział, jak ich konkurenci, tacy jak Google, Apple i Amazon, wykroili własne, bardzo dochodowe segmenty i od jakiegoś czasu są po własnych. Wyszukiwarka Microsoftu, Bing, choć wciąż pozostaje w tyle, zyskuje popularność na lidze rynkowej Google. Chociaż wielu z nich cieszyło się, że firma zdecydowała się udostępnić najnowszą wersję systemu operacyjnego Windows jako bezpłatną aktualizację dla obecnych użytkowników, to z pewnością mieli mniej niż altruistyczne, biznesowe przyczyny. System Windows 10 zwiastuje wdrożenie protokołu identyfikatora reklamodawcy w ich macierzystej firmie OS, co oznacza, że każdemu użytkownikowi przypisano indywidualny, anonimowy identyfikator w celu zbierania danych,
które można sprzedać, aby pomóc reklamodawcom w ich ukierunkowanych strategiach marketingowych.
W jaki sposób wykorzystywane są Big Data w praktyce?
Oprogramowanie korporacyjne Microsoftu i pakiety DAAS oferują wszystko do chmurowych wersji odwiecznych ulubionych programów, takich jak Word i Excel, do platform analitycznych Hadoop i własnych algorytmów uczenia maszynowego, których celem są poważne projekty Big Data. Ich platforma Analytics jest sprzedawana jako rozwiązanie "Big Data in a box", które łączy ich system baz danych SQL Server z ich dystrybucją HDInsight Hadoop. Podobne do usług oferowanych przez Amazon, IBM i Google dostarczają platformy oparte na chmurze, co oznacza, że mniejsze firmy nie muszą inwestować w swój własny sprzęt do hurtowni danych, a także komputerową moc obliczeniową w chmurze, dzięki której można przechytrzyć dane. Oferują również usługi konsultingowe, które pomagają firmom w odpowiednim wykorzystaniu ich. Microsoft Azure to kolejna platforma usług typu "a-service", sprzedawana specjalnie pod projekty Internet of Things (IoT). Platforma Azure została zaprojektowana do obsługi "inteligentnych" łączność maszyna-maszyna, dzięki której codzienne artykuły przemysłowe i konsumenckie mogą stać się mądrzejsze poprzez komunikowanie się, a nawet uczenie się od siebie nawzajem. Kierownicy, w tym Nadella, jasno powiedzieli, że wierzą, iż Internet Rzeczy to przyszłość, a najnowsza wersja Windows jest w specjalnie sformułowanej wersji, stworzonej specjalnie do pracy z urządzeniami IoT. Dlatego spodziewaj się, że system Windows będzie działał na wszystkich urządzeniach codziennego użytku w najbliższej przyszłości. Być może jednak przysłonięcie tego wszystkiego, jeśli chodzi o to, jak przyspieszy to wkroczenie w analitykę we wszystkie dziedziny życia, to zestaw narzędzi Power BI Microsoftu. Dzięki temu Microsoft przenosi zaawansowane narzędzia analityczne oparte na Big Data do rąk milionów użytkowników swoich produktów Office, integrując zaawansowane funkcje analityczne z Excelem, najbardziej rozpowszechnionym na świecie arkuszem kalkulacyjnym i oprogramowaniem do analizy danych. Czemu nie? W końcu Excel wprowadził podstawowe zapytania danych i raportowanie do zestawu umiejętności pracowników biurowych na poziomie świata administratora , więc wprowadzenie ich do Big Data jest logicznym kolejnym krokiem. W domu, Microsoft, zgodnie ze swoimi konkurentami, koncentruje swoją strategię na zbieraniu jak największej ilości danych o swoich użytkownikach. Odbywa się to w dwóch celach: udoskonalanie produktów i usług na podstawie użytkownika informacje zwrotne i zbieranie danych do sprzedania reklamodawcom. Wydanie systemu Windows 10 spowodowało powszechne obawy dotyczące ilości danych, które system operacyjny wydaje się gromadzić i odsyłać do firmy Microsoft. Ustawienia domyślne pozwalają na monitorowanie danych dotyczących działań online, takich jak odwiedzane strony internetowe, a także w trybie offline, na przykład z plików przechowywanych na dysku twardym komputera. Eksperci ds. Bezpieczeństwa online szybko nakłaniali użytkowników do zmiany tych ustawień tak szybko, jak to możliwe. Jeśli chodzi o udoskonalanie swoich produktów, Microsoft może wykorzystywać zebrane w ten sposób dane, aby zrozumieć, co użytkownicy robią z ich oprogramowaniem i jak można je wykorzystać. Rozwój funkcji i opcji, które są rzadko używane, można zmniejszyć, aby skoncentrować zasoby na tych, które zapewniają użytkownikom największą wartość. W dniach poprzedzających Big Data dostawcy oprogramowania często mieli tylko jeden sposób sprawdzenia zadowolenia użytkowników: niezależnie od tego, czy dokonali aktualizacji do nowej wersji produktu. Dzisiaj informacje zwrotne na temat zastosowania aplikacji lub systemu operacyjnego są dostępne natychmiast w czasie rzeczywistym.
Jakie były wyniki?
Microsoft szybko stał się jednym z najbardziej znanych i odnoszących sukcesy sprzedawców opartych na chmurze, oprogramowaniu i platformach DAAS oraz infrastrukturze. W ubiegłym roku wygenerowali oni przychody w wysokości 6,3 miliarda USD z usług biznesowych opartych na chmurze,
które według prognoz mają wzrosnąć do 20 miliardów dolarów do 2018 roku. Wydaje się, że obawy o prywatność i szpiegowanie przez nasze własne komputery nie zniechęciły nas do darmowej aktualizacji systemu Windows 10. Trzy tygodnie po wydaniu systemu operacyjnego w lipcu 2015 r. Pobrano go 53 miliony razy.
Jakie dane zostały użyte?
W ramach własnych produktów Microsoft gromadzi dane dotyczące tego, kim jesteśmy, w oparciu o nasze nawyki związane z przeglądaniem stron internetowych i "polubienia" mediów społecznościowych, a także o tym, w jaki sposób korzystamy z ich oprogramowania. System Windows 10 może monitorować, ile czasu spędzamy na słuchaniu muzyki lub oglądaniu filmów za pomocą wbudowanych aplikacji w systemie operacyjnym, a także na jakim sprzęcie, na którym je uruchamiamy i na jakim innym oprogramowaniu jest zainstalowane. Jeśli używasz funkcji sterowania głosowego Cortana, nagrywa ona również i przechowuje to, co zostało powiedziane do analizy, aby umożliwić mu poprawę własnych umiejętności językowych. Gromadzi także "dane dotyczące doświadczenia" związane z tym, jak korzystasz z komputera i jak reaguje. Obejmuje to częstotliwość wystąpienia awarii oprogramowania lub czas reakcji od kliknięcia konkretnego przycisku do wykonania zadania, które ma wykonać. Firma Microsoft jest otwarta w swoich warunkach dotyczących gromadzonych danych w systemie Windows 10.2. Rozróżnienie, jakie dane są używane do wewnętrznej poprawy wydajności oprogramowania i jakie dane są sprzedawane reklamodawcom, jest bardzo niewyraźne, ponieważ dokument dotyczący polityki znajduje się w czas pisania.
Jakie są szczegóły techniczne?
Microsoft twierdzi, że ponad 10 bilionów obiektów (plików) jest teraz przechowywanych w ich sieci w chmurze Azure, w porównaniu z 4 trylionami w 2012 r. W 2013 r. Ogłosili, że osiągnęli milion serwerów rozłożonych na ponad 100 światowych centr danych, z największym, w Chicago, zawierającym ćwierć miliona serwerów. Oprócz infrastruktury chmury Azure, te centra danych zapewniają przechowywanie i dostęp do danych utworzonych przez 200 usług internetowych firmy Microsoft, w tym Bing, Outlook, Office365, a także sieć gier Xbox Live.
Wszelkie wyzwania, które trzeba pokonać?
Brak własnej platformy na smartfony stawia Microsoft w niekorzystnej sytuacji obok swoich głównych konkurentów: Google i Apple. Firma starała się przezwyciężyć to poprzez zakup Nokii w 2014 r., Ale jak dotąd nie udało się uzyskać znaczącej obecności na tym rynku. Będą mieć nadzieję, że tegoroczne uruchomienie systemu Windows 10 jako wieloplatformowego systemu operacyjnego - integrującego wrażenia użytkownika na komputerze, tablecie i telefonie - spowoduje skorygowanie tego czasu.
Jakie są kluczowe punkty nauki i wnioski?
Firma Microsoft najwyraźniej rozumie, że ważne jest, aby wiele firm o różnych kształtach i rozmiarach na całym świecie, korzystających z ich produktów, widziało wartość swoich najnowszych usług opartych na dużych danych. Podczas gdy wielki biznes i przemysł entuzjastycznie przyjęły analitykę we wszystkich dziedzinach, mniejsze przedsiębiorstwa, dysponujące mniejszą ilością zasobów, były bardziej ostrożne. Firma Microsoft wygenerowała ogromne przychody ze sprzedaży oprogramowania dla firm i oprogramowania biurowego dla małych i średnich firm. Wyraźnie widzieli, że musieli osiągnąć taką samą penetrację dzięki usługom Big Data, aby utrzymać swoją pozycję głównego gracza technicznego. Należy zachować ostrożność między gromadzeniem danych w celu poprawy doświadczenia użytkownika i szpiegowania. Microsoft wygenerował sporo negatywnego zasięgu w porównaniu z domyślnymi ustawieniami prywatności w Windows 10, ale to nie powstrzymało więcej
niż 50 milionów ludzi instalujących go w ciągu zaledwie kilku tygodni. Punkt, w którym ta równowaga między kwestią prywatności i użyteczności nie można jeszcze ustalić - firmy wykorzystują to do swojej ogromnej przewagi w tej chwili, ale może to być strategia ryzykowna w dłuższej perspektywie. Potencjalne opadanie złego może być katastrofalne, nawet dla giganta takiego jak Microsoft.
Zasilanie marketingu Big Data
TŁO
Acxiom jest czasami określany jako "największa firma, o której nigdy nie słyszałeś". Byli odpowiedzialni za zrewolucjonizowanie amerykańskiego marketingu bezpośredniego w latach 80-tych dzięki zastosowaniu zaawansowanej analityki komputerowej w ogromnych zbiorach danych - dzięki czemu stali się prawdziwymi pionierami Big Data na długo przed tym, jak modne stało się określenie "Big Data". Na stronie internetowej firmy znajdują się dane na temat "niewielkiego odsetka" amerykańskich gospodarstw domowych. Charles Morgan, był odpowiedzialny za przekształcenie małej firmy złożonej z analityków świadczących usługi lokalne w wielonarodową potęgę Big Data o obrotach rzędu miliardów dolarów. Początkowo o nazwie Demographic, firma została założona w 1969 roku przez Charles D. Warda. Pierwszym pomysłem Warda było zbieranie danych i zarządzanie listą mailingową dla lokalnej partii Demokratów. Kiedy firma przeżywała trudności finansowe, a Ward był zagrożony bankructwem, sprzedał swoje udziały Charlesowi Morganowi, jego pracownikowi i absolwentowi University of Arkansas, który wcześniej pracował jako inżynier systemowy IBM.
Jaki problem pomaga rozwiązać Big Data?
W latach osiemdziesiątych banki znacznie przeniosły swoją działalność na rynek detaliczny. Zaczęli próbować sprzedać jak największą liczbę kart kredytowych, pakietów ubezpieczeniowych, rachunków bankowych i usług finansowych tak wielu osobom, jak to tylko możliwe. Firmy od dawna kontaktowały się bezpośrednio z klientami w celu zaoferowania produkty, które ich zdaniem mogłyby się spodobać, a termin "marketing bezpośredni" został ukuty w 1967 roku. Ale to, co banki amerykańskie, takie jak Citibank, który stał się największym klientem Acxiom, było bardziej skomplikowane niż wszystko, co wcześniej zrobiono. Wszystkie większe banki mniej więcej jednocześnie decydując się na ten sam rynek, nawet przy budżetach marketingu bezpośredniego w setkach milionów dolarów, nie było żadnego marginesu na błędy, a każdy cent musiałby być wydawany wydajnie. Morgan mówi mi: "Było wiele problemów z zarządzaniem danymi na dużą skalę. Udało nam się zaobserwować listy osób w branży danych i wszystko było bardzo ręczne. "Nie było prawdziwej analizy na żadnym wyrafinowanym poziomie. Przyjrzałem się problemowi i pomyślałem, że jest to świetna okazja, aby wdrożyć nowoczesną informatykę w problem, który będzie coraz większy, gdy ludzie będą wymyślać, jak zrobić bardziej wydajna praca marketingu bezpośredniego. "Aby poradzić sobie z ogromną ilością danych, które zawierały informacje na temat praktycznie każdego obywatela USA zebrane z trzech głównych agencji kredytowych, Acxiom znacznie zaktualizował swoje możliwości w zakresie analizy i zarządzania danymi i skupił się na rozwijaniu więcej - wydajne algorytmy efektywnego segmentowania populacji. Morgan mówi: "Wzrosły stosunki z Citibank i zajmowaliśmy się marketingiem bezpośrednim wszystkich produktów z kart kredytowych. Wykonaliśmy różnego rodzaju analizy, zarówno dla ich aktualnych projektów, jak i tych, nad którymi pracowali w przyszłości, i tak właśnie dostaliśmy się do biznesu Big Data: wciąż chcieli mieć coraz więcej danych i coraz więcej analiz, i musieliśmy opracuj, jak zaspokoić ich potrzeby. "
W jaki sposób wykorzystywane są Big Data w praktyce?
Firma Acxiom stworzyła swój własny system realizacji zamówień listowych, który pobrał dane od agencji kredytowych i połączył je w pierwszy generator listy mailingowej online. Zapewniło to firmom miliony unikatowych, nazwanych potencjalnych klientów, podzielonych według wieku, lokalizacji, zawodu, branży lub innych znanych informacji. Morgan mówi: "Musieliśmy zbudować bardzo duże hurtownie danych. Otrzymywaliśmy dane o całej populacji od biur kredytowych i łączono je z historycznymi danymi i aktualnymi danymi o tym, gdzie mieszkali, ilu dzieci w rodzinie - jeśli byli 10- letnim klientem, ale niedawno przestaliśmy być klientem, wiedzieliśmy o tym. "Często wiedzieliśmy, jakie czasopisma subskrybują. Ilość danych, które zgromadziliśmy, była prawie niewyobrażalna. W jednej z tych baz będzie ponad 100 milionów ludzi i będziemy musieli budować całkowicie nowe wersje trzy razy w roku. Dysponując danymi na tylu ludzi z tak wielu źródeł, byłoby wiele sprzecznych danych i musielibyśmy ustalić, co było dokładne. Co więcej, utworzenie bazy kredytowej nie było zgodne z prawem: trzeba było ją zbudować dla konkretnego cel [np. marketing], dlatego też wynikało to z wymogów prawnych. Nie mieliśmy wtedy terminu "Big Data"; nazwaliśmy je "bardzo dużymi bazami danych". "Odkąd pionierski marketing oparty na Big Data, Acxiom ruszył z duchem czasu. W 2010 r. Zaprezentowali swój system PersonicX, który analizuje publiczne działania mediów społecznościowych, aby dopasować je do konkretnych profili konsumentów, i łącząc je z innymi danymi, aby precyzyjniej dopasować je do produktów i usług, których mogą potrzebować. Firma Acxiom zleca te usługi firmom z całego świata, od globalnych gigantów finansowych po małe firmy.
Jakie były wyniki?
Charles Morgan zbudował Acxiom od 27-osobowej firmy do firmy zatrudniającej ponad 7000 osób, dzięki pionierskiemu marketingowi danych i marketingu opartemu na analizie. Mówi się, że dziś generują 12% przychodów całego amerykańskiego marketingu bezpośredniego, wynoszącego około 1,15 miliarda dolarów rocznie.
Jakie dane zostały użyte?
Acxiom pobiera dane od obywateli w USA i na całym świecie od agencji kredytowych, a także z rejestrów publicznych, takich jak listy wyborcze, rejestry małżeństw i urodzeń, ankiety konsumenckie oraz od tysięcy innych firm i organizacji, które zbierają dane o swoich klientach i usługobiorcach i przekazuje dalej (gdy klienci nie "zrezygnują" w odpowiednim momencie!). Mimo że nie zbierają informacji samodzielnie na temat zachowań osób surfujących po sieci, kupują oni informacje od innych organizacji, które tak robią - o ile obowiązują odpowiednie przepisy dotyczące prywatności i bezpieczeństwa. Oznacza to, że niewątpliwie mają również wiele informacji na temat naszej aktywności online. Jedną z dziedzin aktywności online, którą monitorują, są jednak media społecznościowe, które w coraz większym stopniu stają się bardzo płodnym źródłem wiedzy na temat nastrojów i zachowań konsumentów.
Jakie są szczegóły techniczne?
Jedną z pierwszych rzeczy, które zrobił Acxiom, kiedy uświadomili sobie skalę problemu z danymi, z jakim mieli do czynienia, było opracowanie własnego języka podobnego do języka SQL, aby umożliwić im zbieranie zapytań o gromadzone przez nich zbiory danych, które nazwali Select Language. Większość wczesnych pionierskich prac nad danymi była wykonywana za pomocą systemów opartych na taśmach, ale kiedy Citibank znacznie zwiększył wymagania dotyczące mocy obliczeniowej i pamięci masowej, Acxiom zainwestował znaczne środki w superkomputery DEC Alpha z Oracle, aby wdrożyć swoje pierwsze prawdziwie duże systemy zorientowane na dane. Morgan mówi: "To była dla nas transformacja. Oznaczało to, że moglibyśmy zacząć przeprowadzać analizę, którą chcieliśmy wykonać,
ale powstrzymywaliśmy ją od prędkości istniejącego sprzętu. "W pewnym momencie firma prowadziła farmy serwerów zajmujące łącznie sześć akrów ziemi, rozrzucone po Stanach Zjednoczonych i na całym świecie. Dziś ich siedziba w Arkansas ma zawierać 23 000 serwerów, przechowując około 1500 punktów danych na pół miliarda ludzi.
Wszelkie wyzwania, które trzeba pokonać?
Morgan twierdzi, że największym wyzwaniem w latach 80. było nadążenie za fenomenalnym wzrostem firmy po nawiązaniu współpracy z Citibank w 1983 roku i innymi ważnymi partnerstwami, które szybko nastąpiły. Mówi: "Naszym największym problemem przez większość naszej historii było zarządzanie naszym wzrostem. Kiedy zwiększysz rozmiar o rząd wielkości w ciągu ośmiu lub dziewięciu lat i nie masz modelu do naśladowania - to prawie jak" Oh my god, mamy innego klienta, nie mamy wystarczającej pojemności komputera, co mamy zamiar zrobić do zrobienia? W latach osiemdziesiątych i dziewięćdziesiątych większość naszych problemów wynikała z zarządzania naszym rozwojem. "Oczywiście z modelem biznesowym opartym na pionierskich nowych sposobach gromadzenia i sprzedaży danych osobowych na prywatnych obywateli, kontrowersje zawsze były zmuszone do wychylenia głowy z okazji. Firma została oskarżona o udostępnianie danych bez zgody Stanów Zjednoczonych Federalna Komisja ds. Handlu zakwestionowała możliwości "opt-out", które są prawnie zobowiązane dostarczyć i nominować do nagrody Big Brother Award jako "najgorszy korporacyjny najeźdźca dla tradycji pośrednictwa w handlu danymi". Odpowiedzieli na to, zwiększając w ostatnich latach ich politykę poufności i ochrony danych oraz tworząc stronę internetową aboutthedata.com, która wyjaśnia, jak, kiedy i gdzie gromadzą i wykorzystują dane osobowe.
Jakie są kluczowe punkty nauki i wnioski?
Coraz bardziej zaawansowane metody stosowania zaawansowanych danych analitycznych w danych demograficznych dają sprzedawcom coraz więcej możliwości, aby umieścić swoją markę przed najlepszymi potencjalnymi klientami we właściwym czasie. Technologia napędza ten wzrost siły analitycznej, co z kolei wynikało z potrzeby dużego biznesu, aby dokładniej kierować reklamy do klientów. Techniki analityczne Big Data, takie jak te opracowane przez Acxiom, przyniosły ogromny wzrost przedsiębiorstwom, które przyjęły je w ciągu ostatnich dziesięcioleci. Podnoszą również istotne obawy o prywatność. Chociaż wiele zostało zrobione przez marketingu bezpośredniego i tych, które zbierają i interpretują dane w jego imieniu, aby zdobyć zaufanie publiczne, w przyszłości będzie trzeba zrobić o wiele więcej, aby go utrzymać.
Jak duże są dane, aby zachować bezpieczeństwo pasażerów i zapobiegać terroryzmowi
TŁO
Ludzie przemieszczają się tam i z powrotem ponad granicami USA w tempie prawie 100 milionów przepraw rocznie. Departament Bezpieczeństwa Wewnętrznego (DHS) ma nie do pozazdroszczenia zadanie sprawdzenia każdego z tych przejść, aby upewnić się, że nie są popełnione w złych intencjach i nie stanowią zagrożenia dla bezpieczeństwa narodowego. Federalne agencje wydały wiele milionów dolarów od 11 września 2001 r., W nadziei, że mogą zapobiec wejściu terrorystów do kraju i przeprowadzaniu dalszych ataków na grunty krajowe. Podczas gdy wcześniej środki bezpieczeństwa na lotniskach koncentrowały się na wykrywaniu transportu niebezpiecznych przedmiotów, takich jak narkotyki lub bomby, nacisk został przesunięty w kierunku identyfikacji złych ludzi. Współpracując z
naukowcami z University of Arizona, DHS opracowali system, który nazywają automatycznym agentem wirtualnym do oceny praw w czasie rzeczywistym - AVATAR.1
Jaki problem pomaga rozwiązać Big Data?
Od 11 września Stany Zjednoczone coraz lepiej zdają sobie sprawę z tego, że wśród milionów osób przekraczających granice każdego roku są osoby podróżujące z zamiarem wyrządzenia szkody. Znaczna poprawa bezpieczeństwa na lotniskach i innych punktach wejścia oraz ogólnie polega to na indywidualnym badaniu przesiewowym przeprowadzanym przez ludzi, twarzą w twarz z podróżnymi. To oczywiście pozostawia system otwarty na ludzką fallibility. Urzędnicy ds. Imigracji i służby celnej są dobrze wyszkoleni, aby dostrzec niespójności i świadome oznaki, że dana osoba może nie być szczera co do powodu wjazdu do kraju i co zamierzają zrobić, kiedy tam dotrą. Jednak, oczywiście, jak przy wszystkim, co dotyczy ludzi, zdarzają się błędy. Badania wykazały, że nie ma niezawodny sposób, aby człowiek mógł stwierdzić, czy inny człowiek kłamie, po prostu rozmawiając i oglądając je, pomimo tego, co wielu wierzy w "znaki rozdawania". Łącząc ten problem, ludzie nieuchronnie stają się zmęczeni, znudzeni lub rozproszeni, co oznacza, że ich poziom czujności może upuszczać. Oczywiście żaden z tych problemów nie stanowi problemu dla komputera. Przeanalizuje ostatniego podróżnego dnia z taką samą czujnością i czujnością, jak podczas porannej pracy.
W jaki sposób wykorzystywane są Big Data w praktyce?
System AVATAR wykorzystuje czujniki, które skanują twarz i język ciała osoby, zbierając najdrobniejsze zmiany w ruchu lub wskazówki, które mogą sugerować, że dzieje się coś podejrzanego. Ponadto skomputeryzowany "agent" z wirtualną twarzą i głosem zadaje kilka pytań w języku angielskim. Przedmiot kontroli odpowiada, a ich reakcja jest monitorowana w celu wykrycia fluktuacji tonów głosu, a także treści tego, co zostało powiedziane. Dane te są następnie porównywane z ciągle rosnącą i stale aktualizowaną Big Database zbieraną przez AVATAR i porównywane z "podejrzanymi" profilami, co pokazało doświadczenie może wskazywać, że ktoś ma coś do ukrycia lub nie jest uczciwy w swoich zamiarach w podróżowaniu. Jeśli pasuje do "podejrzanego" profilu, temat jest podświetlony na dalszą inspekcję, tym razem przeprowadzonej przez człowieka. Dane są przekazywane agentom ludzkim za pośrednictwem tabletów i smartfonów, co daje im probabilistyczną ocenę, czy dany podmiot może być uczciwy - każdy aspekt ich profilu jest kodowany na czerwono, bursztynowy lub zielony - w zależności od prawdopodobieństwa AVATAR jest przekonany, że są one zgodne z prawdą. Jeśli pojawi się zbyt wiele czerwonych lub bursztynów, temat ten zostanie zbadany dokładniej. Podobnie jak na granicy amerykańsko-meksykańskiej, system AVATAR został przetestowany na europejskich granicach, w tym na głównym lotnisku w Bukareszcie, Henri Coandă International, Rumunia.
Jakie były wyniki?
Badania terenowe systemu AVATAR zostały przeprowadzone przez Narodowe Centrum Bezpieczeństwa Granic i Imigracji w Nogales w Arizonie, w którym stwierdzono, że maszyna była w stanie wykonać zadanie, do którego została zaprojektowana. W rezultacie w kilku jurysdykcjach w USA i Europie zostało ono zatwierdzone przez służby bezpieczeństwa.
Jakie dane zostały użyte?
System AVATAR opiera się na trzech czujnikach wbudowanych w szafkę, aby dokonać probabilistycznych ocen, czy dana osoba mówi prawdę. Pierwsza to kamera na podczerwień, która rejestruje dane dotyczące ruchów gałek ocznych i rozszerzenia źrenic 250 klatek na sekundę. Kamera wideo monitoruje mowę ciała w poszukiwaniu podejrzanych skurczów lub nawykowych ruchów ciała,
które pasują do profili, które ludzie mają tendencję do adoptowania, gdy coś ukrywają. Na koniec mikrofon rejestruje dane głosowe, aby słuchać subtelnych zmian tonacji i tonacji głosu.
Jakie są szczegóły techniczne?
System łączy urządzenia do przechwytywania danych audio i wideo z bazą danych ludzkich wskazówek, które mogą dać wgląd w to, czy rozmówca działa w podejrzany sposób. Jest to system oparty na kiosku, w którym wszystko, co potrzebne do działania, jest zawarte w jednej jednostce, co ułatwia konfigurowanie i przenoszenie do różnych punktów imigracyjnych na całym świecie, gdzie szybkie sieci danych mogą być niedostępne. Czujnik ruchu oka na podczerwień zbiera obrazy z prędkością 250 klatek na sekundę, aby uchwycić maleńkie ruchy, które nigdy nie byłyby widoczne dla drugiego człowieka.
Wszelkie wyzwania, które trzeba pokonać?
Ustalenie, czy ludzie kłamią, jest niezwykle trudne. Pomimo istnienia od początku XX wieku w jakiejś formie, żaden wykrywacz kłamstw (poligraf) nigdy nie okazał się w 100% wiarygodny, a sądy nigdy nie uznały, że są wystarczająco dokładne, aby ich wyniki mogły zostać przedstawione jako dowód w USA lub Europa. Celem AVATAR jest pokonanie tego poprzez proces podobny do technik modelowania predykcyjnego stosowanych w wielu projektach Big Data. Ponieważ bada więcej osób, uczy się więcej o prawdopodobnych wskaźnikach twarzy, głosu i kontekstu gdy ktoś jest nieuczciwy. Podczas gdy tradycyjny wykrywacz kłamstw polega na ludzkich interpretatorach, aby dopasować te sygnały do tego, co czują, w oparciu o ich doświadczenie i ograniczoną ilość danych referencyjnych, do których mają dostęp przez przeprowadzanie wywiady z milionami ludzi każdego roku, AVATAR powinien zgromadzić znacznie bardziej wiarygodny zestaw danych referencyjnych, które mogą wykorzystać do oznaczenia podejrzanych podróżnych.
Jakie są kluczowe punkty nauki i wnioski?
Poziomy migracji zarówno w Stanach Zjednoczonych, jak i poza nimi stale rosną, a systemy takie jak AVATAR mogą zmniejszyć obciążenie personelu wymagane do przeprowadzenia niezbędnych kontroli bezpieczeństwa podróżnych. Maszyny mają zdolność wykrywania, czy ludzie kłamią, czy działają oszukańczo, o wiele dokładniej niż ludzie, jeśli mają odpowiednie dane i algorytmy. Ludzie szanują autorytet - testy laboratoryjne systemu AVATAR wykazały, że respondenci częściej odpowiadali zgodnie z prawdą, gdy AVATAR otrzymał poważny, autorytatywny ton i twarz, niż gdy został zaprogramowany do mówienia i wyglądał przyjaźnie i nieformalnie. Zawsze będzie możliwe, aby człowiek oszukiwał system, skutecznie przyjmując oszukańcze strategie. Jednak szanse na to, że uda się to zrobić, zmniejszą się, ponieważ technologia taka jak AVATAR staje się bardziej wydajna i szeroko stosowana.
Wprowadzanie Internetu rzeczy do domu
TŁO
Internet rzeczy (IoT) to idea, która od jakiegoś czasu nabierała rozpędu, ale w ciągu ostatnich kilku lat w pełni zrealizowała się. Krótko mówiąc, jego nazwa pochodzi od tego, że pierwotny Internet, do którego wszyscy jesteśmy przyzwyczajeni, był oparty na komputerach, które rozmawiają ze sobą. Komputery stają się mniejsze, bardziej wydajne i zintegrowane z coraz bardziej codziennymi przedmiotami (telefony są tylko najbardziej powszechnym przykładem), prawie wszystko może ze sobą rozmawiać cyfrowo. Więc zamiast internetu złożonego z komputerów, mamy internet złożony z ...
rzeczy! Idea ta dotyczy w szczególności artykułów gospodarstwa domowego, dlatego coraz częściej na rynku pojawiają się "inteligentne" wersje codziennych narzędzi i gadżetów. Należą do nich inteligentne telewizory, waga łazienkowa, sprzęt sportowy, przybory kuchenne, a nawet żarówki. Nest to firma, która wyrobiła sobie markę podczas pierwszego wtargnięcia inteligentnych maszyn do naszych domów. Ich produkty - inteligentne termostaty, detektory dymu i tlenku węgla, a ostatnio także kamery bezpieczeństwa - są instalowane w tysiącach domów. W 2013 roku firma została przejęta przez Google'a, analityka ruchu interpretowanego jako sygnalizująca zainteresowanie giganta wyszukiwarek w tworzeniu "systemu operacyjnego dla domu"
Jaki problem pomaga rozwiązać Big Data?
Ogromna ilość energii marnuje się przez nieefektywne domowe systemy grzewcze. Przez większość czasu wynika to z błędu użytkownika, a nie błędów urządzenia. Nasze życie podąża za nieobliczalnymi wzorami, ale zawsze chcemy się obudzić w ciepłym domu w zimie. Jednak przez większość czasu programujemy nasze termostaty w oparciu o nic więcej niż zgadywanie. Termy "głupie" robią po prostu to, co im mówisz: włączanie o określonej godzinie i wyłączanie o ustalonej godzinie. Powoduje to nieefektywność, ponieważ nasze wzorce aktywności zmieniają się z dnia na dzień, a regularne harmonogramy są często luksusem, którego wielu z nas nie robi bez naszego gorączkowego życia w XXI wieku. Istnieją inne zagrożenia, których należy unikać, takie jak zamarzanie wody w rurach podczas niespodziewanych zimnych zaklęć, gdy domy są puste, co prowadzi do szkód i kosztownych rachunków za naprawę. Ponadto firmy energetyczne mają do odegrania rolę w zapobieganiu marnowaniu energii. Są one odpowiedzialne za zapewnienie wystarczającej podaży w okresach szczytowego użytkowania, przy jednoczesnym zminimalizowaniu energii rozprowadzanej z sieci do obszarów, w których nie jest ona potrzebna.
W jaki sposób wykorzystywane są Big Data w praktyce?
Termostat Nesta "uczy się" najskuteczniejszej strategii utrzymywania domu w komfortowej temperaturze, monitorując codzienną aktywność i ucząc się. Za każdym razem, gdy ustawiasz temperaturę (co odbywa się za pomocą prostego pokrętła), rejestruje ona twoje działanie i porę dnia. Wykorzystuje również czujniki ruchu do nagrywania, gdy jesteś w domu i kiedy jesteś poza domem. Stopniowo zaczyna rozumieć wzorce aktywności i opracowywać najlepsze rozwiązania dla swojego domowego systemu grzewczego. Może zintegrować się z dowolnym systemem ogrzewania w domu i jest w stanie dynamicznie dostosowywać temperaturę, utrzymując ją na wygodnym poziomie, w oparciu o jej zrozumienie tego, co robisz. Różnice w czasie potrzebny poszczególnym systemom grzewczym do ogrzania domu do wymaganej temperatury są również brane pod uwagę, w celu dalszego zmniejszenia zmarnowanej energii. Na przykład, jeśli wie, że regularnie wychodzisz z domu o 9 rano, a system grzewczy utrzymuje ciepło w domu przez godzinę później, może nauczyć się wyłączać go o 8 rano. Poza tym inteligentny termostat może być również zasilany energią firmy i kontrolowane zdalnie. Wielu dostawców oferuje oferty, takie jak bezpłatne termostaty dla właścicieli domów, pod warunkiem, że wyrażają one zgodę na przejęcie przez nie kontroli w określonych momentach, aby poradzić sobie ze szczytami i spadkami popytu na energię z sieci. Firmy energetyczne płacą Nest około 50 dolarów za każdego klienta, który zarejestruje się w tych umowach, ponieważ oszczędności, które są w stanie wygenerować poprzez regulację zużycia w godzinach szczytu, rekompensują straty.
Jakie były wyniki?
Według założyciela Nesta i dyrektora generalnego Tony′ego Fadella ich porozumienia z firmami energetycznymi, aby umożliwić im regulację dostaw, zmniejszają marnotrawstwo energii nawet o 50% w obszarach, w których działają. Na początku 2015 r. Trzy badania dotyczące oszczędności dokonanych przez klientów za pomocą termostatów Nest w ich domach wykazały, że urządzenia obniżają koszty ogrzewania o 10-12% i koszty chłodzenia w domach z klimatyzacją o około 15%
Jakie dane zostały użyte?
Termostat Nest zbiera informacje od użytkownika podczas konfiguracji, takie jak dane o lokalizacji i czy właściwość, w której jest zainstalowany, jest domem lub firmą. Czujniki w termostacie zbierają dane o temperaturze i wilgotności, a także o natężeniu światła, którego używa do wykrywania, czy niektóre pokoje są w użyciu. Monitoruje i przechowuje dane z czujników ruchu, które pozwalają sprawdzić, czy ktoś jest w domu. Następnie zbiera dane za każdym razem, gdy użytkownik bezpośrednio z nim współpracuje, dostosowując temperaturę. Termostat wykorzystuje tę wiedzę do budowania zrozumienia nawyków użytkowników, aby stworzyć harmonogram, który zapewni im komfort. Dodatkowo czujnik dymu i tlenku węgla Nest Protect wykrywa poziom dymu i CO2. Używa ich do podniesienia alarmu w razie potrzeby, a także może wchodzić w interakcje z termostatem, aby go wyłączyć w razie pożaru. Kamera Nest rejestruje i przechowuje (do 30 dni w zależności od poziomu subskrypcji użytkownika) dane wizualne i dźwiękowe, które analizuje w czasie rzeczywistym w celu zapewnienia bezpieczeństwa. Na przykład może wysłać ostrzeżenie o alarmie włamania do twojego telefonu, jeśli wykryje ruch, gdy dom powinien być pusty.
Jakie są szczegóły techniczne?
Różne urządzenia Nest są zbudowane wokół własnego, firmowego systemu operacyjnego, który wywodzi się z open-source OS Linux, a także z wielu innych technologii open-source. Urządzenia te wykorzystują również własne protokoły komunikacji bezprzewodowej, aby rozmawiać ze sobą niezależnie od istniejącej infrastruktury sieci bezprzewodowej domowej lub miejsca pracy. Nest opracował również protokół Works With Nest, który umożliwia urządzeniom IoT stron trzecich, w tym do tej pory pralki, inteligentne wtyczki ścienne, paski do monitorowania sprawności fizycznej i inteligentne zegarki, umożliwiające komunikację z urządzeniami.
Wszelkie wyzwania, które trzeba pokonać?
Prywatność jest ogromnym problemem, a szczególnie prywatność w domu. Dyrektor generalny Nesta w Europie, Lionel Paillet, podkreślił, jak ważne jest, aby jego model biznesowy zapewniał ochronę prywatności klientów. Mówi: "Zaufanie jest absolutnie fundamentalne dla wszystkiego, co robimy - szczególnie w domu, który jest święty, psychologiczny - prawdopodobnie jest to miejsce najbardziej prywatne dla ciebie na Ziemi. "Tak więc pojęcie zaufania użytkownika było wiodącą zasadą we wszystkim, co zrobiliśmy. Nasza polityka prywatności ma kluczowe znaczenie dla całego doświadczenia klienta - jest napisana na opakowaniu, napisanym w aplikacji. "Chodzi raczej o to, aby dać klientom więcej niż 30 stron warunków, o których wiemy, że nie będą czytać, i poprosić ich, aby przeszli na dół i zaznaczyli pole, które mówi, że akceptują." Przejęcie firmy Google przez Nesta wywołało początkowo lęk przed tym, co zrobiliby bardzo wrażliwe dane, takie jak zachowanie ludzi w ich własnych domach. W szczególności te dane, jak powiedziało wielu, byłyby niezwykle cenne dla ubezpieczycieli i firm energetycznych, które miałyby dostęp w czasie rzeczywistym do szczegółowych danych dotyczących naszych codziennych działań. Nest od tego czasu nie ma wątpliwości, że pod żadnym pozorem nie będą udostępniać danych osobowych z monitorów termostatów i czujników dymu nikomu, nawet swojej firmie macierzystej. Sceptycy zwrócili jednak z kolei uwagę, że ta decyzja może już nie być podjęta po ich nabyciu. Ponadto, ponieważ wielu klientów otrzymuje urządzenia za darmo lub po cenach subsydiowanych przez firmy energetyczne (jak wyjaśniono powyżej), pojawiają się pytania, czy te firmy (które mogą poprosić klientów o pozwolenie na samodzielne monitorowanie danych w ramach umowy z użytkownikiem ) zawsze będą chronić swoje dane z taką samą rygorystycznością.
Jakie są kluczowe punkty nauki i wnioski?
Automatyka domowa od jakiegoś czasu jest gejemicznym hobby, ale produkty takie jak termostat Nesta oznaczają pojawienie się tej technologii w głównym nurcie. Jednak, jak mówi mi Paillet, nie powinniśmy mieć na uwadze The Jetsons, kiedy wyobrażamy sobie dom najbliższej przyszłości - ta koncepcja jest nieaktualna, zanim jeszcze powstała. "Tym, co nas interesuje, jest" zamyślony dom ". Wczoraj użyłem przełącznika do obsługi urządzeń w moim domu. Dzisiaj mogę korzystać z mojego smartfona. Ale robi to naprawdę czynić moje życie lepszym? "Dom musi być przemyślany i zrozumieć twoje przyzwyczajenia." Google, firma macierzysta Nesta, od dawna chętnie zanurzają się w przemyśle energetycznym (np. Poprzednie produkty takie jak Google Energysense i PowerMeter), a także nasze domy. Idea posiadania "domowego komputera" już staje się zbyteczna: dlaczego potrzebowalibyśmy dedykowanego urządzenia do zgrywania danych i komunikacji cyfrowej, gdy wszystko jest w stanie to zrobić? Nadal będzie potrzebować platform, z których
będziemy mogli uruchamiać wyszukiwarki i systemy operacyjne (a także otrzymywać reklamy). Co ma więcej sensu niż "domowy system operacyjny", aby połączyć wszystkie te osobne elementy technologii? Paillet mówi mi: "Kiedy kupowaliśmy pierwszy raz, żartował, gdy ludzie mówili, że spodziewają się zobaczyć ogłoszenia na termostatach. Do tej pory myślę, że wszyscy zdali sobie sprawę, że to się nie wydarzy. "Cóż, może nie nasze termostaty - ale kiedy Google przejmie kontrolę nad ich domami, będzie wiele innych miejsc, w których mogliby je umieścić!
Jak Big Data napędzają przemysłowy Internet
TŁO
GE narodziło się z rewolucyjnych wynalazków Thomasa Edisona w drugiej połowie XIX wieku, które po raz pierwszy wprowadziły oświetlenie elektryczne i maszyny do domów i firm. Byli pierwszą firmą prywatną, która zainwestowała w sprzęt komputerowy i od ponad wieku pozostaje liderem innowacji. Dziś ich maszyny są wykorzystywane do generowania jednej czwartej światowego zaopatrzenia w energię elektryczną. W erze Big Data firma GE - kolos , który w 2014 roku osiągnęła przychody w wysokości prawie 150 miliardów USD i zatrudnia ponad 300 000 pracowników w wielu swoich filiach - ujawniła plany stworzenia tego, co nazywają internetem przemysłowym. Równolegle do wkraczania w nasze codzienne życie inteligentnej, cyfrowej technologii połączonej z Internetem (smartfony, urządzenia do noszenia, a nawet inteligentne żarówki, z których mógłby być dumny Edison!) Podobny ruch miał miejsce w przemyśle. W produkcji, transporcie, finansach i lotnictwie maszyny są programowane w taki sposób, aby ze sobą rozmawiać i komunikować się w imię zwiększonej produktywności i wydajności. Koncepcja GE Industrial Internet dostarczyła wielu podstaw do tej transformacji. W ramach tego planu w 2012 r. GE ogłosiło, że zainwestuje miliard dolarów w ciągu czterech lat w ich najnowocześniejszą centralę analityczną w San Ramon w Kalifornii. Maszyny i systemy GE są wykorzystywane w lotnictwie, produkcji, opiece zdrowotnej, produkcji i dystrybucji energii, wydobyciu, wodzie, transporcie i finansach.
Jaki problem stanowią Big Data , które pomagają rozwiązać?
Kiedy pracujesz w skali silników odrzutowych lub elektrowni, wszelkie niewielkie zmiany w wydajności operacyjnej mogą mieć dramatyczny wpływ na koszty eksploatacji, jak również wpływ na bezpieczeństwo. Przestój niezbędnej maszynerii może bezpośrednio prowadzić do utraty dochodów, a kosztowne zasoby ludzkie muszą zostać przypisane do utrzymania i konserwacji systemów.
W jaki sposób wykorzystywane są Big Data w praktyce?
Dane zebrane przez czujniki zainstalowane w maszynach w każdym sektorze, w którym mierzona i analizowana jest praca GE w celu uzyskania informacji o tym, jak działa. Oznacza to, że wpływ niewielkich zmian - na przykład temperatury pracy lub poziomu paliwa - może być ściśle monitorowany, a efekty zmiany są skorelowane z innymi gromadzonymi danymi. Turbiny GE, skanery szpitalne i silniki samolotów stale monitorują warunki, w jakich działają, w niektórych przypadkach udostępniają dane w czasie rzeczywistym lub w inny sposób przechowują je do późniejszej analizy. Na przykład w lotnictwie dane są wykorzystywane do automatycznego planowania konserwacji i zmniejszania opóźnień lub przeciążenia warsztatu spowodowanego nieoczekiwaną konserwacją. System jest w stanie przewidzieć, kiedy części ulegną uszkodzeniu i zarezerwować silniki do naprawy, a także upewnić się, że warsztat będzie zaopatrzony w niezbędne części zamienne. Etihad Airways w Abu Dhabi stał się ostatnio pierwszą linią lotniczą, która wdrożyła technologię GE Intelligent Operations, opracowaną we współpracy z konsultantami Accenture. Oczywiście, nie chodzi o spalenie zasobów Ziemi tak opłacalnie, jak to tylko możliwe. GE produkuje i prowadzi również działalność związaną z energią odnawialną. Każda z 22 000 turbin wiatrowych rozmieszczonych na całym świecie jest monitorowana i stale przesyła dane operacyjne do chmury, gdzie analitycy GE mogą precyzyjnie dostroić wysokość i kierunek ostrzy, aby zapewnić możliwie jak najwięcej energii. Inteligentne algorytmy uczenia się pozwalają każdej turbinie dostosować jej zachowanie, aby naśladować inne pobliskie turbiny, które działają bardziej wydajnie. Te internetowe możliwości są udostępniane klientom GE, którzy w ramach swojej działalności operują sprzętem i systemami: firmami energetycznymi, liniami lotniczymi, banki, szpitale i niezliczone inne. Mogą przesłać swoje własne dane o użytkowaniu do rozproszonej sieci chmury obliczeniowej Hadoop, gdzie można je analizować za pomocą własnych systemów analitycznych GE Predictivity, a także oprogramowania opracowanego wspólnie z innymi partnerami oraz rozwiązań open source.
Jakie były wyniki?
Chociaż GE nie opublikowało ogólnych danych liczbowych, powiedzieli, że ich klienci przemysłowi mogą oczekiwać oszczędności średnio 8 milionów dolarów rocznie dzięki ograniczeniu przestojów maszyn. Powiedzieli również, że jeśli ich systemy mogą poprawić efektywność operacyjną w pięciu kluczowych sektorach, firmy, które zdecydują się na technologię opartą na Big Data, mogą liczyć na łączne oszczędności w wysokości 300 miliardów dolarów. Analityka w GE, jak twierdzi Jeff Immelt, dyrektor generalny GE, może stworzyć w ciągu najbliższych 20 lat między 10 bilionów dolarów a 15 bilionów dolarów wartości światowej gospodarki.
Jakie dane zostały użyte?
GE generuje, przechwytuje i analizuje dane wewnętrzne z eksploatacji swoich maszyn, a także dane zewnętrzne pochodzące od szerokiej gamy dostawców zewnętrznych, w tym dane meteorologiczne, geopolityczne i demograficzne. Te dane zewnętrzne zawierają zdjęcia satelitarne. Jednym z zastosowań, które GE wyszukuje, jest opracowanie miejsc, w których należy zmniejszyć roślinność, aby uniknąć ryzyka przerw w dostawie prądu spowodowanych przez spadające drzewa podczas burz. Tylko jedna z ich turbin zasilanych gazem wytwarza około 500 gigabajtów na dzień, obejmujący wszystko, od temperatury otoczenia, w której pracuje, aż po sprawność w przekształcaniu spalania węgla w energię elektryczną.
Jakie są szczegóły techniczne?
W 2013 r. Firma Immelt stwierdziła, że przemysłowe czujniki internetowe zostały już zainstalowane w 250 000 maszyn rozmieszczonych na całym świecie. Wszystkie te dane są dostarczane do ich usługi
Industrial Data Lake opartej na Hadoop, którą klienci mogą "podłączać" i uzyskiwać dostęp do danych, które są istotne dla ich branży tak szybko, jak to możliwe, często w czasie rzeczywistym. Zapewnia szereg narzędzi do uzyskiwania dostępu i interpretowania tych danych, w tym własne predyspozycje i usługi Predix, a także narzędzia opracowane z partnerami, takimi jak Pivotal i Accenture.
Wszelkie wyzwania, które trzeba pokonać?
Największym wyzwaniem stojącym przed architektami i inżynierami GE w zakresie rozbudowy infrastruktury Internetu przemysłowego była skala. Ogromna liczba branż, w których działają ich maszyny, oraz rozpowszechnianie klientów w całym regionie świata, oznaczało, że tworzenie systemów, które byłyby cenne dla nich wszystkich, podczas centralizacji przechowywania i analizy danych było ogromnym zadaniem. GE sprostało temu wyzwaniu, znacznie zwiększając inwestycje w pracowników analitycznych i badania, aby móc sprostać zapotrzebowaniu na usługi zdolne do przeprowadzania szybkich analiz dużych ilości danych. Założyli swoje działania analityczne w Bay Area w San Francisco, aby wykorzystać tamtejsze talenty. Pozwoliło to także na ekspozycję firmy GE na start- upy pracujące nad technologią analityczną, z którą współpracowali, a czasem inwestowali lub nabywali. Ta szybka ekspansja zasobów i zdolności analitycznych była konieczna, aby sprostać rosnącemu zapotrzebowaniu ze strony klientów przemysłowych GE.
Jakie są kluczowe punkty nauki i wnioski?
GE zareagowało z niezwykłą szybkością i elastycznością na pojawienie się Big Data i IoT w świecie biznesu i przemysłu. Widząc wartość zastosowania zaawansowanej technologii analitycznej na wczesnym etapie gry, nadal działali w pionierski sposób, w jaki najpierw zbudowali swoją nazwę. Połączona technologia ma ogromny potencjał poprawy wydajności we wszystkich sektorach. Po co czekać, aż maszyny się zepsują lub ulegną awarii, gdy można je przewidzieć, a czas przestoju ograniczyć do minimum? Maszyny są zdolne do tworzenia takich przewidywania są o wiele bardziej wiarygodne niż ludzie, więc warto nauczyć ich, jak to robić. GE wykazało, że dane połączone z analizą są kluczem do zwiększenia wydajności
Jak Big Data są wykorzystywane w Crafty Way
TŁO
Etsy, internetowy portal, który łączy sprzedawców produktów rękodzieła i vintage z kupującymi z całego świata, został założony w 2005 roku w nowojorskim mieszkaniu. W ciągu ostatniej dekady stał się liderem na rynku handlu typu peer-to-peer, umożliwiając małym producentom i sprzedawcom detalicznym osiąganie miliona sprzedaży każdego miesiąca. Wszystko to zostało osiągnięte poprzez optymalizację i usprawnienie procesu zarówno zakupu, jak i sprzedaży, aby zapewnić użytkownikom, bez względu na to, jak są zaawansowani technicznie, najbardziej komfortowe doświadczenia.
Jaki problem stanowią Big Data , które pomagają rozwiązać?
Sprzedawcy obejmują zarówno rzemieślników, jak i hobbystów. Wielu z nich prowadzi swoją działalność jako dodatek do swoich dochodów w pełnym wymiarze godzin. Sukces przyciągnięcia tak wielu osób sprowadza się do prostoty - każdy może założyć konto i natychmiast rozpocząć sprzedaż. Ta forma handlu peer-to-peer również ma miejsce w witrynach nastawionych na bardziej komercyjny handel detaliczny, na przykład Amazon i eBay. Ale Etsy zbudował nazwę jako miejsce poszukiwania "indywidualnych" lub "unikatowych" przedmiotów, które często są prezentowane jako prezenty.
Ponad 32 miliony unikalnych elementów dostępnych na stronie, pomagając klientom znaleźć to, czego szukają - czy to ręcznie robiony koc niemowlęcy, czy wąsy - to duże wyzwanie. W rozmowie z Wall Street Journal, John Allspaw, wiceprezes Etsy ds. Infrastruktury i operacji wyjaśnił: "Ze względu na wyjątkowość wykonania znacznie więcej pracy, aby dowiedzieć się, czego szukasz … Budowanie personalizacji i zaleceń jest o wiele trudniejszym problemem, ponieważ musimy szukać głębszych sygnałów. "
W jaki sposób wykorzystywane są Big Data w praktyce?
Pomimo tradycyjnego charakteru wielu rzemiosł i przedmiotów, najnowocześniejsza technologia Big Data bije w sercu biznesu i była kluczem do sukcesu Etsy w ewolucji w globalną markę. Monitorując i analizując każde kliknięcie wykonane przez odwiedzających i klientów na swojej stronie, ich inżynierowie danych mogą analizować, jakie zachowania prowadzą do sprzedaży, a co prowadzi do tego, że klienci opuszczają witrynę, nie mogąc znaleźć tego, czego szukają. Monitorując zachowanie użytkowników w serwisie, Etsy może zapewnić spersonalizowane rekomendacje i wyniki wyszukiwania w czasie rzeczywistym. W innym przykładzie wglądu opartego na danych, firma zauważyła, że podczas gdy stosunkowo niewiele osób używa przycisku zakładki do oznaczania ulubionych produktów, osoby, które je zrobiły, częściej logowały się do konta na stronie. Po prostu zwiększając znaczenie tego przycisku na stronie, odnotowano natychmiastowy wzrost liczby rejestracji. Analytics jest wbudowany w każdy dział firmy - nie ogranicza się do marketingu, jak w przypadku wielu firm. Jest to możliwe dzięki wewnętrznym procesom firmy, które pozwalają każdemu z ich inżynierów wdrażać kod testowy w czasie rzeczywistym w celu przeprowadzania eksperymentów i rejestrowania ich wpływu na KPI. Według ich własnych słów jest to "zmiana opon bez zatrzymywania samochodu". Zgłoszono, że codziennie aktualizuje się w ten sposób od 20 do 30 aktualizacji strony. Każdego tygodnia 80% wszystkich pracowników ma dostęp do danych przechowywane w ich centrach danych. W 2009 roku firma przejęła Adtuitive, platformę dostawczą dla ukierunkowanych internetowych reklam detalicznych i włączyła własne serwery i algorytmy. Jest to znak, że poważnie Etsy bierze Big Data, że ich obecny CEO, Chad Dickerson, był dawniej CTO firmy, i zaprojektował większość strategii marketingowej opartych na danych biznesowych. Podobnie jak ich konkurenci, którzy sprzedają więcej masowo produkowanych towarów, zbudowali własny silnik rekomendacji, który sugeruje, które produkty mogą być zainteresowane przeglądaniem. Procedury analityczne Big Data są również wdrażane w celu zapobiegania oszustwom - skanowanie tysięcy transakcji, które mają miejsce na ich serwerach każdego dnia, dla zdradzających oznaki nieuczciwej działalności.
Jakie były wyniki?
Przychody ze sprzedaży Etsy nadal rosną, nawet jeśli cena akcji firmy odniosła sukces od ich IPO w kwietniu 2015 r. W pierwszej połowie 2015 r. Etsy odnotowała łączny przychód w wysokości 119 mln USD, co stanowi wzrost o 44% w porównaniu z analogicznym okresem 2014 r. Po dziesięciu latach Etsy z powodzeniem wykorzystywał Internet jako platformę handlu indywidualnymi, ręcznie lub domowymi towarami. Z 21,7 milionami aktywnych kupujących i społecznością 1,5 miliona aktywnych sprzedawców, Etsy to idealne miejsce na wyjątkowe produkty i prezenty. Nic z tego nie byłoby możliwe bez głębokiego korzystania z Big Data i analityki.
Jakie dane zostały użyte?
Zarówno dane transakcyjne (sprzedażowe), jak i behawioralne (przeglądanie) są gromadzone. Etsy generuje ogromną ilość danych o kliknięciach, w tym o tym, jak użytkownicy poruszają się po witrynie i jak długo utrzymują się na produkcie. Te dane transakcyjne i dane dotyczące przeglądania są udostępniane sprzedawcom we własnym systemie Shop Stats, co pozwala im przeprowadzać własne analizy i, miejmy nadzieję, zwiększać własne przychody - i, oczywiście, udział Etsy w sprzedaży.
Jakie są szczegóły techniczne?
Wszystkie dane firmy są zbierane w ramach Hadoop, uruchamiane wewnętrznie, a nie w chmurze. (Etsy rozpoczął z wykorzystaniem usługi Elastic MapReduce opartej na chmurze Amazon, ale zdecydował się wprowadzić wszystko w domu po roku.) Apache Kafka pomaga Etsy pozostać na szczycie swoich danych i załadować dane do Hadoop. Ponadto, Etsy stosuje otwarte środowisko uczenia maszynowego o nazwie Conjecture, które pomaga tworzyć modele predykcyjne, które dostarczają użytkownikom rekomendacji i wyników wyszukiwania w czasie rzeczywistym. Chociaż Hadoop jest idealnym narzędziem do eksploracji danych na dużą skalę firmy Etsy, firma wykorzystuje także silnik SQL na platformie Hadoop, aby uzyskać więcej zapytań danych ad hoc.
Wszelkie wyzwania, które trzeba pokonać?
Etsy pragnie wspierać środowisko innowacji i eksperymentów Big Data, ale wymaga to szerokiego dostępu do danych i szerokiego ich wykorzystania w całej firmie. Etsy uznała, że jest to trudne do osiągnięcia, dopóki dane nie zostaną dostarczone na miejscu. Przemawiając do TechRepublic, dyrektor techniczny Etsy, Kellan Elliott-McCrea wyjaśnił, że wniesienie go na własną rękę spowodowało dziesięciokrotny wzrost wykorzystania danych (jak wspomniano wcześniej, 80% pracowników ma teraz dostęp do tych danych i korzysta z nich raz w tygodniu). W przeciwieństwie do powszechnego założenia, że chmura zachęca do szerszego eksperymentowania z danymi, Elliot-McCrea argumentuje: "Możesz uzyskać lepsze eksperymenty - zakładając, że masz doświadczenie z uruchomieniem centrum danych - jeśli wprowadzisz to w domu." Etsy może być nowym wyzwaniem, ponieważ rynek rzemieślniczy staje się bardziej konkurencyjny. Amazon podaje, że uruchamia konkurencyjną usługę o nazwie Amazon Handmade. Już zręczne korzystanie z Big Data przez Amazon z pewnością sprawi, że będą bardzo trudnym konkurentem.
Jakie są kluczowe punkty nauki i wnioski?
Dwie rzeczy wyskakują na mnie w użyciu Big Data przez Etsy. Pierwszym z nich jest szerokie zastosowanie danych w całej firmie. Trudno jest myśleć o wielu innych firmach handlu detalicznego, w których 80% pracowników korzysta z danych tygodniowo, aby podejmować decyzje. Ale Etsy pokazuje, jak to jest osiągalne i pożądane. Po drugie, jasne jest, że tworzenie spersonalizowanych usług dla klientów jest dla Etsy niezwykle ważne i jest to coś, czego mogą się nauczyć wszyscy detaliści. Ale, jak mówi Allspaw: "Generowanie rekomendacji w czasie rzeczywistym dla kupujących, a następnie generowanie w czasie rzeczywistym zaleceń dla kupujących, którzy faktycznie są dobrzy.
Jak Big Data są używane do opowiadania historii
TŁO
Jako ludzie zawsze uważaliśmy historie za użyteczny środek przekazywania informacji. Obejmuje to prawdziwe relacje, które miały nas edukować, fikcyjne historie, które miały nas zabawiać i całe spektrum pomiędzy nimi. Narrative Science to firma z Chicago, która podjęła wyzwanie automatyzacji tego procesu za pomocą Big Data. Zaczęli od opublikowania zautomatyzowanego raportu o grach sportowych dla sieci Big 10 i ewoluowały w celu tworzenia wiadomości biznesowych i finansowych dla międzynarodowych organizacji medialnych, takich jak Forbes. Robią to w procesie znanym jako Generowanie Języka Naturalnego - wykorzystując zaawansowane procedury uczenia maszynowego do
tworzenia faktów i danych z komputerowych baz danych w opowieściach, które wydają się być pisane przez ludzi.
Jaki problem pomaga rozwiązać Big Data?
Ludzki mózg może łatwo przeciążać się informacjami i gubić się w ogromnych tabelach wykresów i liczb. Tragiczny tego przykład dotyczy katastrofy Space Challenger z 1986 roku. Kontroli misji przekazano przytłaczającą ilość informacji od personelu technicznego monitorującego systemy życiowe wahadłowca. Niewątpliwie ukryte gdzieś wśród tych informacji byłyby wskazówki, które mogłyby im powiedzieć, że prom będzie eksplodować. Jednak ze względu na ich pochowany w niezliczonych wykresów, diagramów i ryzach drukowanych postaci, znaki ostrzegawcze nie zostały zauważone - z katastrofalnymi konsekwencjami. Ponadto czasami te same dane będą oznaczać różne rzeczy dla różnych osób. Osoby odpowiedzialne za zgłaszanie wyników dochodzeń opartych na danych mają za zadanie przekształcenie wykresów i statystyk w praktyczne spostrzeżenia, w sposób zrozumiały dla tych, którzy będą musieli wprowadzić je w czyn. Wymaga to czasu, wysiłku i przede wszystkim specjalnego poziomu zdolności komunikacyjnych ze strony osoby wykonującej raport. W świecie mediów dziennikarz interpretujący skomplikowane dane finansowe, techniczne lub prawne na korzyść świeckich odbiorców wymaga tego samego zestawu umiejętności. Zadaniem dziennikarza lub gawędziarza jest wskazanie czytelnikowi, czym jest "drewno", a co "drzewa", aby poinformować ich o istotności zgłaszanych informacji. Innymi słowy, muszą uświadomić czytelnikowi, w jaki sposób zgłaszane zdarzenia mogą wpływać na ich życie. Oznacza to, że czytelnicy lub widzowie raportu muszą mieć wiarę w ludzi, którzy je złożyli - omylnych ludzi - aby prawidłowo rozpoznali odpowiednie informacje i przekazać je w sposób dokładny i bezstronny. Każdy, kto kiedykolwiek czytał gazetę, wie, że nie zawsze tak jest w praktyce!
W jaki sposób wykorzystywane są Big Data w praktyce?
Narrative Science stworzyło Quill - które nazywają "platformą generowania języka naturalnego". Quill pobiera informacje z wykresów i statystyk, które są do niego dodawane i zamienia je w "opowiadania" - narracje napisane prostym językiem i skierowane do tych, którzy są w stanie umieścić informacje, które zawierają. Historie te są wykorzystywane jako doniesienia prasowe przez media, a także do tworzenia raportów branżowych i przez poszczególne firmy dla ich własnej komunikacji wewnętrznej. Klienci obejmują Forbes, MasterCard i brytyjską National Health Service. Wszystkie z nich uzyskują dostęp do Quill za pośrednictwem oprogramowania jako usługi (SAAS) opartego na chmurze platforma, która pozwala im przekazywać konkretne informacje istotne dla ich zamierzonych odbiorców, oraz raporty wyjściowe napisane w łatwo przyswajalnym, naturalnym ludzkim języku.
Jakie były wyniki?
Rezultatem jest pisemna kopia, której praktycznie nie można zidentyfikować na podstawie tego, co stworzyli autorzy. Największe organizacje medialne, w tym Forbes, używają tego oprogramowania do tworzenia wiadomości przez kilka lat - wyniki są archiwizowane na ich stronach internetowych1, a oto kilka przykładów:
Analitycy spodziewają się wyższego zysku dla DTE Energy, gdy firma przedstawi wyniki za drugi kwartał w piątek, 24 lipca 2015 r. Szacuje się, że konsensus wynosi 84 centy za akcję, odzwierciedlając wzrost z 73 centów na akcję rok temu. Analitycy spodziewają się obniżenia zysków dla krajowych serwisów informacyjnych Fidelity, gdy firma ogłosi wyniki za drugi kwartał w czwartek, 23 lipca 2015 r. Chociaż krajowe informacje Fidelity odnotowały 75-procentowy zysk przed rokiem, konsensus prognoz zakłada, że zysk na akcję wyniesie 71 centów. Całkiem dobrze, powiedziałbym, i nie sądzę, bym rozpoznał, że nie został napisany przez człowieka, jeśli nie wiedziałem, zanim to przeczytam!
Jakie dane zostały użyte?
System Quil pobiera dane strukturalne, podawane w formatach takich jak JSON, XML, CSV itp. Początkowo Narrative Science zbierało dane podczas gier sportowych i przekształcało je w raporty dla sieci Big 10. Firma szybko zdała sobie sprawę, że ma znacznie szersze potencjalne zastosowania - założyciel Kris Hammond mówi: "Bardzo wcześnie zdaliśmy sobie sprawę, że technologia może rozwiązać co było wyraźnie palącym problemem: zrozumienie i interpretacja analiz. "Liczby tego nie robią, wizualizacje i kokpity menedżerskie tego nie robią. Zabieraliśmy ludzi z naprawdę wysokiej klasy talentem i kazaliśmy im siadać przed ekranami i pisać rzeczy dla ludzi, którzy byli bardzo inteligentni, ale nie mieli umiejętności analitycznych. "Zdaliśmy sobie sprawę, że jest to coś, co może zrobić Quill - może pokryć ostatnią milę i być tym, co tłumaczy wszystko inne. Zasadniczo staliśmy się biznesem B2B. "Od tego czasu znaleziono inne zastosowania dla Quill , w tym w nieruchomościach, gdzie dane o sprzedaży nieruchomości i dane o aktywności gospodarczej można przekształcić w raporty dla nabywców domów lub inwestorów, dane finansowe, które można zebrać w raporty rynkowe dla finansistów i zarządzających funduszami oraz dane rządowe, które można przekształcić w punkty akcji dla tych, którzy świadczą usługi publiczne. Bezpłatna usługa Quill Engage tworzy niestandardowe raporty dla właścicieli witryn przy użyciu danych pobranych z Google Analytics.
Jakie są szczegóły techniczne?
Dane są pomijane przy użyciu opartej na chmurze platformy SAAS. Baza danych jest umieszczona w chmurze Amazon Web Services (AWS). Dane są następnie analizowane i przekształcane w narracje za pomocą algorytmów sztucznej inteligencji. W szczególności firma stosuje NLG (generowanie języka naturalnego), które jest poddziedziną sztucznej inteligencji. Narrative Science opatentowało technologię, która łączy analitykę danych, rozumowanie i generowanie narracji.
Wszelkie wyzwania, które trzeba pokonać?
Generowanie języka naturalnego stwarza poważne problemy, głównie ze względu na wiele różnych sposobów komunikowania się oraz subtelne niuanse w języku. Chociaż Quill działa obecnie tylko w języku angielskim, istnieje wiele różnych odmian i dialektów języka angielskiego, często używających tych samych słów, ale bardzo różnych wzorów i struktury semantycznej, aby je połączyć. Zostało to rozwiązane, kładąc duży nacisk na strukturę, która nadaje kontekst i znaczenie zbiorze słów. Jak mówi Kris Hammond: "Zanim dojdziesz do punktu, w którym mówisz" tu jest język ", system analizuje dane i bierze pod uwagę kilka istotnych rzeczy - jak by to scharakteryzować, co się tu dzieje, co jest ważne i co jest interesujące? "Wszystko to wchodzi w grę, zanim pojawi się język. Język jest równy dla nas ostatnia mila. Struktura historii i narracji jest najważniejsza. "
Jakie są kluczowe punkty nauki i wnioski?
Zgłaszanie najbardziej istotnych i cennych spostrzeżeń, które zawierają twoje dane, jest istotną częścią procesu analitycznego i wymaga specjalistycznych umiejętności komunikacyjnych - zarówno u ludzi, jak i maszyn. Komputery stają się coraz bardziej kompetentne w zadaniach, które wcześniej uważaliśmy za bardziej odpowiednie dla ludzi, na przykład tworzenie raportów i opowiadań w języku naturalnym, pisanym. Wciąż są pewne obszary komunikacji, w których ludzie wyprzedzają komputery: podczas gdy oni są coraz lepsi w raportowaniu, wciąż nie są w stanie znaleźć własne historie do zgłoszenia. Quill opiera się na programie, który otrzymuje niezbędne dane, a nie jest w stanie samemu go polować. Bez
wątpienia będzie to obszar dalszych badań nad tworzeniem języka naturalnego w najbliższej przyszłości.
Jak duże dane są wykorzystywane w mediach
TŁO
BBC (British Broadcasting Corporation) jest jedną z największych organizacji medialnych na świecie i jako nadawca publiczny ma stosunkowo wyjątkowe uprawnienia do działania bez finansowania ze strony reklamodawców. Ta klauzula w karcie ma na celu umożliwienie im działania bez ingerencji korporacyjnych. Jednak ich struktura oparta na opłatach licencyjnych daje im również swobodę wprowadzania innowacji, ponieważ można ryzykować, uruchamiając programowanie, gdy nie trzeba się martwić przyciąganiem dużych pieniędzy reklamowych. Tam, gdzie nie różnią się one od większości innych dużych organizacji medialnych, jednak jest w szerokim zastosowaniu technologii Big Data i analityki. Ponieważ duża część produkcji BBC jest teraz cyfrowa, za pośrednictwem usług iPlayer i BBC Online generują i gromadzą coraz większe ilości danych i wykorzystują je do dostosowania produkcji do odbiorców.
Jaki problem pomaga rozwiązać Big Data?
Na rodzimym rynku BBC ma za zadanie wytwarzanie treści, które będą miały wartość - zdefiniowaną jako treść, która "edukuje, informuje lub bawi" przez Johna Reitha, pierwszego dyrektora generalnego korporacji. Na poziomie międzynarodowym działają one nieco inaczej, poprzez ramię BBC Worldwide, które wykorzystuje reklamę do generowania przychodów, a na tym rynku konkurują z nadawcami z sektora prywatnego i mediami. Oznacza to, że problem, z jakim boryka się BBC, jest zasadniczo taki sam: jak tworzyć treści, które przyciągną odbiorców, zapewniając im wartość. Treści cyfrowe zazwyczaj nie są prezentowane w sposób linearny - tak jak w przypadku planowanych programów telewizyjnych, radiowych lub tradycyjnych gazet - ale skutecznie zapewniają widzom możliwość tworzenia własnych harmonogramów, wybierając to, co chcą przeczytać, obejrzeć lub posłuchać dalej. Oznacza to, że uwaga publiczności musi być zwalczana na każdym kroku - w przeciwieństwie do dawnych lat, gdy wiadomo było, że przyciąganie widza na początku szczytowego czasu oglądania z gwiazdorskim show oznaczałoby, że prawdopodobnie miałbyś ich uwagę na resztę wieczoru.
W jaki sposób wykorzystywane są Big Data w praktyce?
BBC są znane na całym świecie z raportowania wiadomości, a wykorzystanie analityki danych do poprawy głębi, szerokości i prezentacji ich dziennikarstwa było kluczowym elementem strategii Big Data BBC. W 2013 roku BBC reklamowało partnerów w projektach Big Data, przeznaczając 18 milionów funtów dla firm, aby pomóc im w opracowaniu platform i ramy dla analityki i modelowania predykcyjnego. W szczególności szukali pomocy w zakresie algorytmicznych zaleceń dotyczących treści
- sugerując, które programy telewizyjne lub raporty informacyjne, które użytkownicy powinni spożywać w następnej kolejności - i analityka medialna. Jedna inicjatywa, znana jako myBBC, miała na celu zbadanie i pogłębienie relacji korporacji z ich odbiorcami, poprzez opracowanie bardziej odpowiednich treści dla portalu internetowego BBC Online, zachęcanie do większej ilości podwójnej komunikacji za pośrednictwem mediów społecznościowych i dostarczanie wglądów, które mogłyby pomóc w redakcji i kreatywności. zgłaszają się na temat tego, co widzowie chcieli zobaczyć więcej. Eksperymentowali również z technologią rozpoznawania twarzy, aby ocenić reakcje publiczności na programowanie w telewizji podczas prób. Korporacja Preview Screen Lab monitorował reakcję widzów
na 50 różnych programów w czterech krajach, używając kamer zaprojektowanych do monitorowania twarzy członków widowni i interpretowania emocji, które są wyświetlane. W jednym z eksperymentów wiele gospodarstw domowych w Australii było monitorowanych, aby uchwycić reakcje publiczności, gdy oglądali zwiastun na sezonową premierę serialu Sherlock.
Jakie były wyniki?
Wyniki badania w Australii wykazały, że widzowie, którzy ocenili serial, wykazali większą reakcję na zdarzenia na ekranie, które zostały oznaczone jako "zaskakujące" lub "smutne", a nie "zabawne". To doprowadziło producentów programu do tego , aby dodać więcej mrocznych, thrillerowych elementów do serialu na rzecz mniej komedii.
Jakie dane zostały użyte?
BBC zbiera dane o tym, kiedy i jak ich cyfrowe wyjście jest oglądane za pośrednictwem usługi iPlayer. Informacje o korzystaniu z portalu internetowego BBC Online są również gromadzone i monitorowane. Jest to rozszerzone o informacje demograficzne, które są zbierane od użytkownika podczas rejestracji w usłudze lub z publicznego dokumentacja. Korzystają również z analizy mediów społecznościowych, aby ocenić reakcje odbiorców na wyniki swoich programów. Projekt Preview Screen Lab rejestruje wyrażenia twarzy z monitorowanych odbiorców.
Jakie są szczegóły techniczne?
Dziennikarze w dziale wiadomości online BBC są przeszkoleni w zakresie podstawowych umiejętności analitycznych danych, z wykorzystaniem tabel Excel i Google Fusion do przesłuchiwania danych i przekształcania ich w historie. W przypadku większych zestawów danych analitycy polegają na technologiach, w tym MySQL i Apache Solr. W zespole dziennikarskim znajdują się osoby, których podstawową umiejętnością jest tworzenie oprogramowania, a te specjalizują się w językach programowania dostosowanych do nauki o danych, takich jak R i Python.
Wszelkie wyzwania, które trzeba pokonać?
Jako nadawca publiczny, bezpośrednio odpowiedzialny zarówno przed rządem, jak i podatnikiem, BBC przyznało, że musi przyjąć bardziej konserwatywne podejście do prywatności i ochrony danych niż to jest zwykle prezentowane przez prywatne organizacje medialne. Michael Fleshman, szef technologii cyfrowej w BBC Worldwide, powiedział w internetowym magazynie Computing: "BBC jako całość przyjmuje bardzo konserwatywne podejście. Istnieją intensywne punkty kontrolne organizacyjnie i procesowo, aby upewnić się, że przyjmujemy to konserwatywne podejście. "Podobno nadrzędną zasadą BBC w odniesieniu do projektów Big Data jest to, że jeśli istnieją obawy o prywatność lub ochrona danych może być zagrożona, projekt będzie nie należy wprowadzać w czyn. Kolejnym wyzwaniem stojącym przed BBC jest skalowalność. Ze względu na unikalny sposób finansowania korporacji nie mogą wyświetlać reklam w swoich usługach w Wielkiej Brytanii, gdzie większość ich produkcji jest zużywana. Oznacza to olbrzymi wzrost liczby odwiedzających w przypadku określonej treści - na przykład bardzo popularny raport prasowy - nie towarzyszy temu wzrost przychodów z reklam, jakich oczekują usługi komercyjne. Wciąż jednak wiąże się z towarzyszącym mu wzrostem kosztów przepustowości. Jako główny architekt techniczny BBC Dirk-Willem Van Gulik powiedział Macworld w 2011 roku: "Nasze dochody pozostają takie same, nie dostajemy ani grosza więcej. "Kiedy mamy dziesięć razy więcej użytkowników, musimy wymyślić sposób na zrobienie rzeczy dziesięciokrotnie tańszych." Z tego powodu infrastruktura techniczna używana do obsługi operacji danych BBC został opracowany z założeniem, że powinien być możliwie jak najbardziej opłacalny. Środki obejmowały budowę własnych serwerów, aby zmniejszyć zależność od rozwiązań zewnętrznych
i używanie nośników taśmowych do przechowywania zamiast dysków twardych, które są droższe i zawodzą częściej, co prowadzi do wyższych kosztów utrzymania.
Jakie są kluczowe punkty nauki i wnioski?
Cyfrowe otoczenie, w którym działają nowoczesne firmy medialne, oznacza, że są one idealnie zlokalizowane, aby czerpać korzyści z rosnącego wykorzystania technologii Big Data. Ma to zastosowanie bez względu na to, czy są finansowane ze środków publicznych, czy prywatnych - w obu przypadkach celem jest zwiększenie udziału w widowni poprzez dostarczenie konsumentom treści o większej wartości niż konkurencja. BBC ma pewne zalety - takie jak brak potrzeby utrzymywania reklamodawców zadowoleni - co w pewnym sensie oznacza, że mogą swobodnie wprowadzać innowacje bez ciągłej konieczności udowadniania, że ich innowacja wpłynie na wynik finansowy korporacji. Jednak stoją również przed wyjątkowymi wyzwaniami, w tym większymi potrzebami prywatność i bezpieczeństwo danych poważnie. Ponieważ ponoszą odpowiedzialność publiczną za opłatą licencyjną, którą płacą, a ostatecznie Parlament, naruszenia lub wpadki w tej dziedzinie mogą mieć konsekwencje polityczne i jest mało prawdopodobne, aby były tolerowane.
Jak Big Data są wykorzystywane do tworzenia inteligentniejszych miast
TŁO
Milton Keynes to duże miasto (technicznie - choć często określa się je mianem miasta) w środkowej Anglii, liczące około 230 000 mieszkańców. Jest to "nowe miasto" opracowane w latach sześćdziesiątych i zaprojektowane, aby pomieścić stale rosnącą ludność zaludniającą Londyn. Od samego początku został opracowany z myślą o telekomunikacji - zgodnie ze wzorcem siatki opartym na nowoczesnych amerykańskich technikach planowania miejskiego, bez tradycyjnego "centrum miasta", z którego naturalnie ewoluowały tradycyjne, organiczne miasta i miasteczka. Pomysł polegał na tym, że telekomunikacja wyeliminowałaby potrzebę znacznego przemieszczania się obywateli do centrów miast, gdzie przedsiębiorstwa byłyby ściśle ze sobą połączone, a wieczorami powracały do domu na przedmieścia. Telefony oznaczały, że firmy mogły handlować bez konieczności spotykania się twarzą w twarz na lokalnym rynku. Dało to początek magazynom i logistycznym lokalizacjom spoza miasta na tańszych, niezagospodarowanych terenach z dobrym dostępem do infrastruktury transportowej, takiej jak autostrady. Na początku XXI wieku pomysł ten ciągle się rozwijał, a szybki rozwój komunikacji internetowej dał początek koncepcji "inteligentnego miasta". Obejmuje to zastosowanie technologii, w tym zasad IT i Big Data, do każdego obszar życia obywatelskiego, od gospodarki odpadami po transport publiczny, w celu poprawy jakości życia ludzi tam mieszkających. Dzięki świetnym połączeniom z innymi dużymi miastami, takimi jak Londyn i Birmingham, Milton Keynes stał się w tym czasie centrum technologicznym z młodą i technicznie nastawioną populacją. Oznaczało to, że był to naturalny wybór projekt inteligentnego miasta w Wielkiej Brytanii. W tym celu rada miejska złożyła wniosek o dotację w wysokości 16 milionów funtów od rządu i BT, a ostatecznie otrzymała grant w celu rozpoczęcia rozwoju inteligentnych projektów infrastruktury miejskiej w Milton Keynes.
Jaki problem pomaga rozwiązać Big Data?
Zgodnie z prognozami wzrostu dla innych miast w Wielkiej Brytanii i na całym świecie oczekuje się, że populacja Milton Keynes będzie nadal rosnąć w nadchodzących latach. Szacuje się, że kolejne 50 000 osób zadzwoni do domu za 10 lat, zwiększając liczbę ludności do około 350 000. Istniejąca
infrastruktura obywatelska będzie trudna do pokonania. Drogi są zagrożone zatłoczeniem, obecne środki transportu publicznego będą niewystarczające, jakość powietrza zostanie zmniejszona, obiekty unieszkodliwiane zostaną przepełnione, a szkoły będą przepełnione. Wszystko to nieuchronnie doprowadzi do spadku jakości życia ludzi tam mieszkających. Ponadto wszystkie miasta w Wielkiej Brytanii i większość rozwiniętego świata zobowiązały się do zmniejszenia emisji dwutlenku węgla uwalnianych do powietrza, aby złagodzić skutki zmian klimatycznych.
W jaki sposób wykorzystywane są Big Data w praktyce?
Około trzy lata temu rada Miltona Keynesa dostrzegła wartość podejścia do planowania infrastruktury i świadczenia usług, ale brakowało mu umiejętności w zakresie wdrażania tej technologii. Zwrócili się do społeczności biznesowej o pomoc i po ustaleniu serii forów dyskusyjnych dotyczących możliwych opcji na przyszłość, rozpoczęli pracę z kilkoma partnerami, aby rozwinąć wizję Smart City Milton Keynes. Jedną z kluczowych inicjatyw, opracowaną przy pomocy Open University i BT, jest MK: Smart.1 Będzie działał jako centrum danych dla wszystkich innych projektów w mieście, w których można ocenić ich skuteczność i wpływ. Internet of Things (IoT), połączone rozwiązania zaproponowano dla transportu, efektywności energetycznej, planowania zaopatrzenia w wodę, rozwoju przedsiębiorstw i zapewnienie edukacji. Czujniki zostaną zainstalowane w składowiskach odpadów, co oznacza, że proces opróżniania ich przez ciężarówki może być bardziej wydajny. Ruch i postój w przestrzeni publicznej będą również monitorowane w celu planowania szlaków transportu publicznego, a także ścieżek i infrastruktury ścieżek rowerowych. Wiele projektów jest w toku, a wiele domów bierze udział w próbach energooszczędnych urządzeń domowych i inteligentnych liczników, w połączeniu z energią dostawcy E.ON. Inne rodziny zostały wyposażone w bezpłatne samochody elektryczne w celu przeprowadzenia rocznego badania żywotności technologii. W niedalekiej przyszłości miasto obejrzy pierwsze brytyjskie próby samochodów bez kierowców na swojej siatkowej, okrężnej sieci drogowej. Najnowsza inicjatywa CAPE wykorzystuje zdjęcia satelitarne i dane dotyczące termicznego wycieku domów; celem jest pomoc obywatelom w zarządzaniu ich własnymi programami energetycznymi, a ostatecznie w zmniejszeniu śladu węglowego. Uzupełni on zdjęcia satelitarne danymi o budynkach i energii, aby zlokalizować dzielnice, które mogą skorzystać na przemianie energii. To pierwszy w Wielkiej Brytanii i najnowszy dodatek do programu MK: Smart.
Jakie były wyniki?
Chociaż projekt jest na wczesnym etapie, rada Milton Keynes pracuje już z ponad 40 partnerami w projektach w całym mieście. Geoff Snelson, dyrektor ds. strategii w radzie, powiedział mi, że teoria i technologia zostały udowodnione i że nacisk kładziony jest teraz na tworzenie trwałych przypadków biznesowych dla rozwoju i dostarczania usług. Mówi on: "Na arenie międzynarodowej brakuje prawdziwych dowodów na korzyści, które one przynoszą, i staramy się to naprawić. "Mamy wiele funduszy na badania i rozwój, ale teraz przechodzimy do etapu, w którym naciskamy na rozwój prawdziwych modeli komercyjnych. "Wiele z tych rozwiązań polega na zwiększeniu wydajności poprzez lepsze bardziej aktualne i dokładniejsze - informacje. To nie voodoo - tylko lepsza informacja. Nie chodzi o to, żeby udowodnić, że technologia działa. Chodzi o to, aby udowodnić, że działa w sposób zrównoważony w prawdziwym środowisku miejskim. "
Jakie dane zostały użyte?
Obrazy satelitarne, na które nałożono dane dotyczące planowania, są wykorzystywane do monitorowania wzrostu "rozrostu miast" i zapewnienia, że rozwój budynku odbywa się zgodnie ze strategią i przepisami. Dane są zbierane z ponad 80 składowisk odpadów komunalnych, aby zapewnić ich optymalne opróżnianie - ograniczając straty i niepotrzebne emisje CO2. Czujniki monitorują natężenie ruchu na drogach przez miasto, które jest wykorzystywane do ostrzegania kierowców o
zatorach i planowania przyszłego rozwoju infrastruktury. Inteligentna technologia oświetlenia ulicznego gromadzi dane o tym, kiedy i gdzie ludzie chodzą w nocy, aby zapewnić oświetlenie, gdy jest to konieczne dla bezpieczeństwa i oszczędzania energii, gdy nie jest. Dane dotyczące zużycia wody i energii są zbierane w celu lepszego zrozumienia popytu i ułatwienia planowania podaży. Wykorzystanie mediów społecznościowych w mieście jest analizowane pod kątem sentymentów do projektów będących w użyciu i będących w fazie rozwoju. Ponadto monitoruje się wykorzystanie mediów społecznościowych w innych obszarach, aby porównać, jak dobrze władze obywatelskie komunikują się ze swoimi obywatelami w porównaniu z innymi miastami w Wielkiej Brytanii.
Jakie są szczegóły techniczne?
Platforma analityczna zaprojektowana przez indyjską firmę Tech Mahindra, która ma biuro w mieście, zapewnia dużą część infrastruktury przetwarzania danych MK: Smart. Platforma analityczna Tech Mahindra bazuje na Hadoop. Inne technologie open-source - w tym Sqoop, Flume, Spark, Oozie, Mahout i Hive - są również szeroko stosowane. Obecne przypadki użycia obejmują zwykle około 600 gigabajtów na 1 terabajt danych, a liczba zapytań na dobę w setkach tysięcy; jednak system został zaprojektowany do obsługi znacznie większych przypadków użycia, które mogą pojawić się w najbliższej przyszłości.
Wszelkie wyzwania, które trzeba pokonać?
Ze względu na brak specjalistycznej wiedzy na temat technologii i analizy danych w ramach rady opracowano partnerstwa z innymi organizacjami. Jednym, który odgrywa kluczową rolę w rozwoju MK: Smart jest Tech Mahindra, o którym mowa powyżej, które miały miejsce w Milton Keynes od przełomu wieków. Ich wiceprezes ds. globalnej transformacji, Upendra Dharmadhkary, mówi mi: "Prowadziliśmy działania w sytuacjach kryzysowych w Indiach, gdzie 10 razy więcej ludzi, a my myśleliśmy: "Dlaczego nie możemy zastosować tutaj jakiejś technologii?". "Prowadzimy częste dyskusje z radą i dobrą współpracę. Uważam, że Rada jest jedną z niewielu w Wielkiej Brytanii, która jest na tyle sprawna, aby myśleć i wdrażać te pomysły." Innym potencjalnym problemem było to, jak społeczeństwo zareagowałoby na wkroczenie technologii w ich codzienne życie, w szczególności elementy takie jak samochody bez kierowcy, które, choć teoretycznie są znacznie bezpieczniejsze niż kontrolowane przez ludzi samochody, są w dużej mierze niesprawdzone. Geoff Snelson powiedział mi: "Muszą być wprowadzeni dość ostrożnie. Oczywiście są względy bezpieczeństwa - ale w Milton Keynes ludzie są ogólnie bardzo podekscytowani - są nawet dumni z tego. "Jest dość apetytu na rzeczy, które pozycjonują Milton Keynes jako ekscytujące i interesujące miejsce."
Jakie są kluczowe punkty nauki i wnioski?
Populacje miast na całym świecie kwitną - inteligentne, połączone technologie IoT będą potrzebne teraz iw przyszłości, aby umożliwić rozwój infrastruktury. Internet rzeczy i inteligentne technologie miejskie mogą znacznie poprawić efektywność świadczenia usług publicznych i sprawić, że miasta będą przyjemniejsze w życiu. Chociaż inwestycje w tych obszarach muszą mieć udowodnione uzasadnienie biznesowe, ponieważ budżety finansowania są ograniczone, szczególnie w czasach recesji gospodarczej lub depresja, "myślenie inteligentne" o rozwoju infrastruktury, przy jednoczesnym ponoszeniu krótkoterminowych kosztów, może zapewnić długoterminowe oszczędności.
Jak Big Data są używane, aby pomóc CIA i wykryć bomby w Afganistanie
TŁO
Palantir, nazwany na cześć magicznych kamieni w "Władcy Pierścieni" wykorzystywanych do szpiegowania, wyrobił sobie nazwę, używając Big Data wyłącznie do problemów związanych z bezpieczeństwem, od oszustw po terroryzm. Ich systemy zostały opracowane dzięki środkom z CIA i są szeroko wykorzystywane przez rząd Stanów Zjednoczonych i ich agencje bezpieczeństwa. Ich roczny przychód szacuje się na 500 milionów dolarów, a ich prognozy wzrosną jeszcze bardziej
Jaki problem pomaga rozwiązać Big Data?
Początkowo pracując nad narzędziami do wykrycia fałszywych transakcji dokonywanych kartami kredytowymi, Palantir wkrótce zdał sobie sprawę, że te same metody analizy wzorców mogą działać w celu zakłócenia wszelkich form przestępczej działalności, od terroryzmu po międzynarodowy handel narkotykami. Teraz ich zaawansowana technologia analityczna Big Data jest wykorzystywana do zwalczania przestępczości i terroryzmu.
W jaki sposób wykorzystywane są Big Data w praktyce?
Palantir buduje platformy, które integrują i zarządzają ogromnymi zbiorami danych, które następnie mogą być analizowane przez szeroką grupę klientów - w tym agencje rządowe oraz branże finansową i farmaceutyczną. Większość ich pracy jest naturalnie ukryta w tajemnicy, ale powszechnie wiadomo, że ich procedury wykrywania wzorców i anomalii w danych, które wskazują na podejrzaną lub oszukańczą działalność, pochodzą z technologii opracowanej przez PayPal (Peter Thiel, który również był współzałożycielem płatności online usługi, jest współzałożycielem Palantir). Zostały przypisane odkrywczym trendom, które pomogły uporać się z zagrożeniem IED (improwizowane ładunki wybuchowe), zamachowcami-samobójcami w Syrii i Pakistanie, a nawet infiltracją sprzymierzonych rządów przez szpiegów. Rząd Stanów Zjednoczonych jest największym klientem Palantir, a ich oprogramowanie stało się jedną z najskuteczniejszych broni w cyfrowym froncie "wojny z terrorem". Marines, na przykład, wykorzystali narzędzia Palantir do analizy przydrożnych bomb w Afganistanie i przewidywania ataków i umieszczania bomb. Dane potrzebne do wsparcia marines w Afganistanie były często rozproszone w wielu źródłach bez jednego interfejsu do dostępu i analizy danych. Dlatego też Korpus Piechoty Morskiej USA (USMC) zlecił Palantirowi opracowanie systemu, który mógłby szybko zintegrować te źródła. Celem było poprawienie ogólnej inteligencji i zmniejszenie czasu poświęcanego na szukanie informacji. Ponieważ jednostki często pracują w obszarach o niskiej przepustowości lub w ogóle bez pasma, system musi działać bez połączenia ze stacjami bazowymi. System Palantir Forward dostarczył odpowiedzi na ten problem, ponieważ automatycznie synchronizował dane po każdym przywróceniu połączenia ze stacjami bazowymi. Analitycy USMC byli w stanie wykorzystać integrację danych, wyszukiwanie, odkrywanie i technologię analityczną Palantir, aby połączyć dane i zapewnić większą inteligencję marines na linii frontu. Kluczową filozofią firmy jest to, że ludzka interwencja jest nadal potrzebna, aby w pełni wykorzystać analizę danych - szczególnie gdy trzeba myśleć o krok przed wrogiem. W tym celu zapewniają starannie dobrane konsultacje ekspertów do pracy w terenie wraz z klientami przy projektach danych.
Jakie były wyniki?
Korzystając z systemu Palantir, analitycy USMC byli w stanie wykryć korelacje między danymi pogodowymi a atakami IED oraz powiązanymi danymi biometrycznymi zebranymi z IED z konkretnymi osobami i sieciami. Nic z tego nie byłoby możliwe bez zintegrowania i zsynchronizowania wszystkich danych w jednym miejscu. Palantir pozyskał obecnie 1,5 miliarda dolarów na finansowanie kapitału podwyższonego ryzyka, co wskazuje na ogromny poziom zaufania do ich technologii. A siła ich platform jest uznawana poza sferą egzekwowania prawa i obrony; firma przyciąga wielu klientów
korporacyjnych, takich jak Hershey współpraca z Palantirem w grupie zajmującej się udostępnianiem danych.
Jakie dane zostały użyte?
Na przykład w Afganistanie wykorzystano szeroki zakres danych strukturalnych i niestrukturalnych: bazy danych DNA, zapisy z nadzoru przedstawiające ruchy, dane z mediów społecznościowych, informacje od informatorów, dane z czujników, dane geograficzne, dane pogodowe i dane biometryczne z urządzeń IED. Duża część sukcesu Palantira polega na efektywnym połączeniu tak masywnych zbiorów danych.
Jakie są szczegóły techniczne?
Palantir ma zrozumiałą tajemnicę odnośnie szczegółów technicznych, co oznacza, że nie jestem w stanie udostępnić szczegółów dotyczących przechowywania lub analizy danych.
Wszelkie wyzwania, które trzeba pokonać?
Prywatność jest mrocznym obszarem w świecie Big Data, a dla firm takich jak Palantir, które zbierają ogromne ilości danych, publiczne postrzeganie ich wykorzystania tych danych jest niepokojące. Firma była zamieszana w skandal WikiLeaks, kiedy została wymieniona jako jedna z trzech firm technologicznych, do których zwrócili się prawnicy w imieniu Bank of America, poszukując propozycji postępowania z oczekiwanym ujawnieniem poufnych informacji. Po tym, jak ich nazwa została połączona ze skandalem, Palantir przeprosił za ich zaangażowanie. Narastają obawy o rządowe wykorzystanie danych osobowych, szczególnie w USA i Wielkiej Brytanii, po wyciekach NSA z Edwarda Snowdena. W związku z tym Palantir musi przejść cienką linię między gromadzeniem danych niezbędnych do wykonania pracy pod ręką i unikając masowej inwazji na prywatność. Jest to problem, którego założyciel Alex Karp nie unika. Przemawiając do Forbesa kilka lat temu, powiedział: "Nie zapisałem się do rządu, aby wiedzieć, kiedy palę jointa lub mam romans ". W wystąpieniu w firmie stwierdził:" Musimy znaleźć miejsca, które chronimy przed rządem, abyśmy wszyscy byli wyjątkowymi i interesującymi, aw moim przypadku nieco odbiegającymi od rzeczywistości ludźmi, którymi chcielibyśmy być. " Wraz z pojawieniem się IPO firmy, opinia publiczna prawdopodobnie będzie równie ważna jak zawsze i będzie ciekawie zobaczyć, jak sobie z tym radzą.
Jakie są kluczowe punkty nauki i wnioski?
Jednym z kluczowych punktów, które stwarza Palantir, jest to, że interakcja człowieka z danymi jest równie cenna, jak same dane. Jest to prawdą, niezależnie od tego, czy prowadzisz wojnę, czy próbujesz przyciągnąć nowych klientów do swojego produktu lub usługi. Istnieje niebezpieczeństwo, że zbyt mocno ślepo wierzymy w dane, gdy w rzeczywistości sposób, w jaki pracujemy z tymi danymi i podejmujemy decyzje na ich podstawie, jest kluczem. Palantir stanowi również doskonały przykład tego, jak dane mogą być szczególnie wydajne, gdy łączy się więcej niż jeden zestaw danych. Praca z jednym zestawem danych może zapewnić bardzo jednostronny widok - często są to korelacje i interakcje między różnymi typami danych, które zapewniają prawdziwe klejnoty wglądu.
Jak Big Data są wykorzystywane do zakłócania przemysłu hotelarskiego
TŁO
Airbnb, strona internetowa, która łączy podróżników z dostępnym zakwaterowaniem na całym świecie, rozpoczęła się w 2008 roku. Od tego czasu firma zebrała ogromną ilość danych - około 1,5 petabajtów - na temat świątecznych nawyków ludzi i preferencji zakwaterowania.
Jaki problem pomaga rozwiązać Big Data?
Mając 1,5 miliona ofert w 34 000 miastach i 50 milionach gości, największym wyzwaniem dla Airbnb jest połączenie dużej liczby gości z tymi, którzy mają do zaoferowania zakwaterowanie (czy to pokój, czy całe mieszkanie / dom). Zrobienie tego z powodzeniem wymaga zrozumienia preferencji gospodarzy i gości , aby odpowiedni rodzaj nieruchomości był dostępny w pożądanych obszarach w kluczowych momentach - i za odpowiednią cenę.
W jaki sposób wykorzystywane są Big Data w praktyce?
Pisząc w centrum "Nerds" Airbnb, Riley Newman, szef działu danych, mówi: "Dane podstawowe to zapis działania lub zdarzenia, które w większości przypadków odzwierciedla decyzję podjętą przez daną osobę. Jeśli możesz odtworzyć sekwencję zdarzeń prowadzących do tej decyzji, możesz się z niej uczyć; jest to pośredni sposób, w jaki osoba mówi ci, co im się podoba, a co nie - ta właściwość jest bardziej atrakcyjna niż ta, uważam te funkcje za przydatne, ale te … nie tak bardzo. Tego rodzaju informacje zwrotne mogą być kopalnią złota w podejmowaniu decyzji dotyczących rozwoju społeczności, rozwoju produktów i priorytetyzacja zasobów … tłumaczymy "głos" klienta na język bardziej odpowiedni do podejmowania decyzji. "Informacje uzyskane dzięki tym opiniom umożliwiają firmie Airbnb skoncentrowanie wysiłków na rejestrowaniu właścicieli w popularnych lokalizacjach w godzinach szczytu i ustalaniu cen w taki sposób, aby wykorzystanie ich globalnej sieci właściwości jest zoptymalizowane. Na przykład dane służą do określenia odpowiedniej ceny za pokój lub apartament, oparty na wielu zmiennych, takich jak lokalizacja, pora roku, rodzaj zakwaterowania, połączenia transportowe itp. Airbnb stosuje algorytm, aby pomóc gospodarzom w ustaleniu właściwej ceny za swoją ofertę. Jest to szczególnie trudne, zważywszy na szeroki zakres dostępnych miejsc noclegowych i biorąc pod uwagę, że są to prawdziwe domy, a nie pokoje standardowe, które można łatwo ocenić w systemie gwiezdnym. W końcu to, co jest pożądane w mieszkaniu miejskim (Wi-Fi, dobre połączenia komunikacyjne itp.) Może być mniej ważne w uroczym domku (gdzie goście mogą preferować spokój i romantyczny wystrój poprzez Wi-Fi i połączenia metrem). Aby pomóc gospodarzom w ustaleniu ceny, Airbnb wypuścił platformę do nauki maszyn o nazwie Aerosolve. Platforma analizuje obrazy ze zdjęć hosta (aukcje z zdjęciami przytulnych sypialni odnoszą większe sukcesy niż te ze stylowymi salonami!) i automatycznie dzielą miasta na mikro-dzielnice. Platforma zawiera również dynamiczne wskazówki cenowe naśladujące modele wyceny hoteli i linii lotniczych. W skrócie, algorytm Aerosolve odzwierciedla wglądy, które firma Airbnb zdobyła na temat swoich klientów i w jaki sposób wpływa ona na cenę nieruchomości. Na przykład ludzie są gotowi zapłacić więcej, jeśli aukcja ma wiele opinii. Te wszystkie dane są łączone w pulpit nawigacyjny, który pomaga gospodarzom ustalić najlepszą cenę za zakwaterowanie. Airbnb zaprezentował właśnie platformę Airpal: przyjazną dla użytkownika platformę do analizy danych zaprojektowaną tak, aby umożliwić wszystkim pracownikom, a nie tylko tym, którzy są przeszkoleni w zakresie danych, dostęp do wszystkich informacji firmy i narzędzi do ich wyszukiwania. Ponadto w sieci stosowane są algorytmy uczenia się własnego w celu przewidywania nieuczciwych transakcji przed ich przetworzeniem, a solidny system rekomendacji umożliwia gościom i hostom ocenianie siebie nawzajem w celu budowania zaufania.
Jakie były wyniki?
Jak mówi Newman: "Mierzenie wpływu zespołu zajmującego się analizą danych jest ironicznie trudne, ale jednym sygnałem jest to, że teraz istnieje jednogłośne pragnienie skonsultowania danych z decyzjami, które muszą być podejmowane zarówno przez osoby techniczne, jak i nietechniczne". w
systemie Airpal; uruchomiona w 2014 r., Airpal był już wykorzystywany przez ponad jedną trzecią pracowników Airbnb do wydawania zapytań. Ta imponująca statystyka pokazuje, jak centralne dane stały się decyzją Airbnb. Wzrost Airbnb to kolejna wskazówka, że sprytnie wykorzystują dane.
Jakie dane zostały użyte?
Dane są przede wszystkim wewnętrzne w różnych ustrukturowanych i niestrukturalnych formatach: dane obrazu ze zdjęć hosta, dane o lokalizacji, funkcje zakwaterowania (liczba pokoi / łóżek, Wi-Fi, wanna z hydromasażem itp.), Opinie i oceny klientów, dane dotyczące transakcji, itp. Niektóre dane zewnętrzne są analizowane, na przykład zakwaterowanie w Edynburgu podczas popularnego Festiwalu w Edynburgu będzie wyceniane wyżej niż to samo zakwaterowanie w innym miesiącu.
Jakie są szczegóły techniczne?
Airbnb przechowuje około 1,5 petabajtów danych jako tabele zarządzane przez Hive w klastrach Hadoop Distributed File System (HDFS), hostowane w serwisie internetowym Amazon Elastic Compute Cloud (EC2). W celu sprawdzania danych Airbnb korzystał z usługi Amazon Redshift, ale od tego czasu przełączył się na bazę danych Presto Facebooka. Ponieważ Presto jest open source, umożliwiło to Airbnb wczesne debugowanie problemów i udostępnianie ich poprawek - coś, czego nie mogliby zrobić z Redshift. Idąc dalej, Airbnb ma nadzieję przenieść się do przetwarzania w czasie rzeczywistym w przeciwieństwie do przetwarzania wsadowego, co poprawi wykrywanie nieprawidłowości w płatnościach i zwiększy wyrafinowanie związane z dopasowywaniem i personalizacją.
Wszelkie wyzwania, które trzeba pokonać?
Wielkim wyzwaniem dla zespołu zajmującego się informatyką Airbnb było dotrzymanie kroku dramatycznemu wzrostowi firmy. Na początku 2011 r. Zespół składał się z zaledwie trzech naukowców zajmujących się danymi, ale ponieważ firma była wciąż niewielka, cała trójka wciąż mogła być ładna i spotkać się z każdym pracownikiem i zaspokoić jego potrzeby w zakresie danych. Do końca roku Airbnb miał 10 międzynarodowych biur i bardzo rozbudowane zespoły, co oznacza, że zespół danych nie mógł już liczyć na partnerstwo ze wszystkimi firmami. Jak to ujął Newman: "Musieliśmy znaleźć sposób, aby zdemokratyzować naszą pracę, poszerzając ją z pojedynczych interakcji, do wzmacniania zespołów, firmy, a nawet naszej społeczności." Osiągnięto to poprzez inwestowanie w szybsze i bardziej niezawodne technologie, aby poradzić sobie z zwiększanie objętości danych. Przeprowadzili również podstawowe eksploracje danych i zapytania od naukowców zajmujących się danymi, do zespołów w całej firmie, za pomocą pulpitów nawigacyjnych i narzędzia zapytań Airpal; to wzmocniło zespoły Airbnb i uwolniło naukowców od danych ad hoc wnioski, aby mogli skupić się na bardziej wydajnej pracy. Kształcenie zespołów w zakresie korzystania z tych narzędzi było kluczem do uzyskania wglądu w dane.
Jakie są kluczowe punkty nauki i wnioski?
Airbnb to doskonały przykład szybko rozwijającej się firmy, która stale powiększa zapotrzebowanie na Big Data. Zdolność do zmiany i adaptacji w miarę rozwoju firmy miała, jak sądzę, sedno ich sukcesu. Podkreśla to niestatyczną naturę Big Data i sposób, w jaki strategia danych może się zmieniać w miarę upływu czasu, aby sprostać nowym wymaganiom. Wspaniale jest też zobaczyć zespół naukowy tak dobrze zintegrowany ze wszystkimi częściami organizacji (nawet jeśli nie są już w stanie spotkać się z każdym pracownikiem!). Zapewnia to nie tylko znakomite zrozumienie przez naukowców celów biznesowych, ale także podkreśla znaczenie podejmowania decyzji w oparciu o dane dla pracowników w całej firmie. W końcu nie ma znaczenia, ile masz danych, jeśli nikt na nie ,nie działa
Profilowanie odbiorców za pomocą danych sieci komórkowej
TŁO
Sprint jest jednym z czterech dużych amerykańskich dostawców usług telekomunikacyjnych, posiadających ponad 57 milionów abonentów. Dzięki temu uzyskują dostęp do ogromnej ilości danych na temat swoich klientów, którzy coraz częściej polegają na urządzeniach mobilnych podczas codziennego życia. W 2012 roku założyli spółkę zależną Pinsight Media, której celem jest przejęcie tych źróeł danych i ich wykorzystanie do segmentowania odbiorców docelowych, mobilnych platform reklamowych.
Jaki problem pomaga rozwiązać Big Data?
Wielu z nas myśli o reklamie jako o rozdrażnieniu lub wtargnięciu. Ogólnie rzecz biorąc, reklamodawcy mają bardzo małe pojęcie o tym, do kogo trafiają ich wiadomości, w wyniku czego wydają dużo pieniędzy przekazując wiadomość osobom, które nie są zainteresowane, lub nie mogą sobie pozwolić na to, co się dzieje. sprzedany. Kiedy tak się dzieje (i oczywiście zdarza się to bardzo często - większość z nas prawdopodobnie doświadcza tego każdego dnia naszego życia), reklama staje się nieistotna, a wysiłek i wydatki, które reklamodawca włożył w przekazanie swojej wiadomości tej osobie, zostały całkowicie zmarnowane. Ukierunkowana reklama, która pojawiła się w branży marketingu bezpośredniego i ewoluowała w erze cyfrowej, jest odpowiedzią. Próbuje segmentować jako szczegółowo jak to możliwe, biorąc pod uwagę dane demograficzne, behawioralne i lokalizacyjne. Istnieje jednak pewien problem polegający na tym, że wiele metod segmentacji odbiorców opiera się w dużej mierze na danych zgłaszanych przez samych siebie. Ludzie mogą łatwo konfigurować profile mediów społecznościowych z fałszywymi informacjami, ze względu na anonimowość, a wiele danych generowanych w Internecie jest odciętych od wszystkiego, co mogłoby powiązać je z rzeczywistym potencjalnym klientem.
W jaki sposób wykorzystywane są Big Data w praktyce?
Pinsight Media wykorzystywał własne dane uwierzytelniane przez sieć do budowania dokładniejszych i bardziej niezawodnych (a tym samym cenniejszych) profili zachowań konsumenckich, które pozwalają oferować reklamodawcom bardziej precyzyjnie ukierunkowane grupy odbiorców. To oznacza mniejszą szansę na umieszczenie reklamy, która będzie dla nich nudna lub nieistotna, a większa szansa, że zobaczą coś, na co będą uważać wydawanie pieniędzy. Jest to podobne do ukierunkowanych usług reklamowych, które są dziś powszechne, dzięki takim postom jak Facebook i Google, ale z główną różnicą, że są zbudowane głównie wokół danych przewoźnika sieciowego. Jason Delker, główny specjalista ds. Technologii i danych w firmie Pinsight, mówi mi: "Operatorzy komórkowi zasadniczo koncentrowali się na swojej podstawowej działalności, która polega na wdrażaniu niezawodnej infrastruktury sieciowej i urządzeń o bogatych funkcjach. Zazwyczaj nie skupiają się na tym, jak zarabiać na bogactwie posiadanych danych. Skupili się na takich wskaźnikach, jak wydajność sieci, redukcja odchudzania, obsługa klienta - i są to niezwykle ważne ... ale jest jeszcze cała ta inna firma, której tak naprawdę nie zaangażowali. "Usługi mobilne, sieci społecznościowe, a nawet producenci urządzeń mobilnych partnerzy operatorzy wykorzystali ponadprzeciętne aplikacje i stworzyli ten ekosystem skupiony wokół [ukierunkowanej] reklamy, która generuje setki milionów dolarów i zrobili to za pomocą danych, które są zasadniczo gorszy od tego, do którego ma dostęp operator telefonii komórkowej. "Pinsight Media opracował własne narzędzie, znane jako platformę zarządzania danymi
(DMP), która służy do tworzenia ukierunkowanych profili reklamowych z wykorzystaniem tych unikatowych danych, do których dostęp ma tylko Sprint. Łączą to z kupionymi i ogólnodostępnymi zewnętrznymi zestawami danych, aby jeszcze bardziej precyzyjnie dostosować precyzję, z jaką reklamodawcy mogą kierować swoje kampanie. Ponadto opracowują własne aplikacje, takie jak aplikacje pogodowe, aplikacje sportowe i przeglądarka do udostępniania mediów społecznościowych i serwisu dyskusyjnego Reddit. Dzięki temu mogą gromadzić więcej informacji, które można powiązać z identyfikatorem reklamowym użytkownika na podstawie "prawdziwej" osoby, uwierzytelnionej za pomocą danych użytkownika Sprint.
Jakie były wyniki?
W ciągu trzech lat od premiery Pinsight Media Sprint podniósł swoją obecność na rynku reklamy mobilnej, oferując miesięcznie ponad sześć miliardów wyświetleń reklam, co czyni z nich głównego gracza w internetowej reklamie mobilnej.
Jakie dane zostały użyte?
Usługa Pinsight wykorzystuje trzy główne typy danych: lokalizacyjne, behawioralne i demograficzne. Dane lokalizacyjne, wyjaśnia Jason, to: "Wieloplatformowe dane - to wynik ponad 55 milionów urządzeń mobilnych, jakie mamy na terenie całego kraju. "W rezultacie rozmawiają tam i z powrotem z wieżami radiowymi - więc bierzemy współrzędne południkowe i podłużne wieży, jak również około 43 innych różnych pól i próbujemy ich użyć, aby zdecydować, gdzie znajduje się urządzenie mobilne w określonym czasie. "Jeśli użytkownik podróżuje i wykonuje wiele czynności w ciągu dnia - czy to wiadomości tekstowe, połączenia telefoniczne, korzystanie z aplikacji, e-maile - [one] mogą generować tysiące rekordów zdarzeń dziennie, w wyniku czego mamy wiele danych o lokalizacji, które możemy wykorzystać. "Dane behawioralne uwierzytelniane przez pierwszą osobę pochodzą z analizy danych warstwy pakietowej przechwyconych przez sondy analizujące ruch sieciowy i zostały pierwotnie umieszczone w oceniać i poprawiać wydajność sieci. Podczas gdy zawartość tych pakietów jest często zaszyfrowana (przy użyciu usług HTTPS), platformy, z których pochodzą dane, można śledzić. "Zainteresowały nas szczegóły dotyczące poziomu wydawcy, jakie są rzeczywiste usługi, z których korzystają?", Mówi Jason. "A jaki był czas trwania? Oznacza to, że możemy zacząć rozumieć, że być może dana osoba należy do określonej grupy odbiorców. Osoba może równie dobrze być graczem, jeśli 20% wykorzystania jej aplikacji zostanie wydane na Clash of the Clans. "Dane demograficzne pochodzą z informacji rozliczeniowych dostarczonych przez klienta po wykupieniu konta, powiększonego przez osobę trzecią, kupionego w sklepie. dane z firm takich jak Experian.
Jakie są szczegóły techniczne?>
Platforma Pinsight codziennie pobiera około 60 terabajtów nowych danych klientów. Dane są dzielone między dwa systemy - z osobistymi informacjami umożliwiającymi identyfikację, przechowywane we własnym bezpiecznym systemie wewnętrznym Hadoop - podczas gdy dane aplikacji i platformy produktów są uruchamiane z serwerów chmurowych Amazon Web Service (AWS). Zespół wykorzystuje platformę analityczną Datameer do pomijania liczby i ma przyjęła filozofię "zarządzania danymi" wysuniętą przez amerykańskiego głównego naukowca ds. danych D. J. Patila, w którym mężowi zaufania danych wybiera się spośród wszystkich działów odpowiedzialnych za zapewnienie analityki, gdy tylko jest to możliwe. Stewardzi danych są przeszkoleni w narzędziu Datameer. Infrastruktura AWS Lambda umożliwia im przetwarzanie dużych strumieni danych w czasie rzeczywistym.
Wszelkie wyzwania, które trzeba pokonać?
Dane mobilne są oczywiście szczególnie wrażliwe i prywatne, ze względu na szczegóły, które mogą ujawnić w naszym życiu prywatnym. Aby to osiągnąć, usługa Sprint jest dostępna tylko dla zalogowania się; klienci muszą konkretnie wyrazić zgodę na wykorzystanie ich informacji w celu zapewnienia im ukierunkowanej reklamy. Jason mówi: "Sprint jest jedynym z czterech dużych operatorów bezprzewodowych w USA, którzy domyślnie wybierają wszystkich. Zamiast tego staramy się ich przekonać - i bardzo łatwo to zrobić - że jeśli faktycznie pozwolą nam wykorzystać te dane, wyślemy im rzeczy, które są bardziej odpowiednie, więc reklamy stają się mniej uciążliwe, a bardziej usługa. "Klienci są dość mądrzy, że tego typu usługi pomagają w finansowaniu i obniżają koszty podstawowych usług operatora telefonii komórkowej".
Jakie są kluczowe punkty nauki i wnioski?
Operatorzy telefonii komórkowej mają dostęp do wielu wyjątkowo wnikliwych i, co ważne, weryfikowalnych danych, dzięki którym reklama może być bardziej odpowiednia i wydajniejsza. Duża część tych danych ma charakter wysoce osobisty i nie powinna być używana bez wyraźnej zgody klienta. Jednak anegdotyczne dowody sugerują, że coraz więcej z nas jest na tyle zadowolonych, aby dać to pozwolenie, jeśli oznacza to, że jest ukierunkowane na bardziej trafne i mniej inwazyjne reklamy. Dane klientów mogą stanowić bardzo cenny dodatkowy strumień przychodów dla firm, które wykorzystują zasoby, aby je wykorzystać. Może to być wykorzystane do obniżenia cen w podstawowej działalności i przekazania klientom dodatkowej wartości.
Jak Big Data są wykorzystywane do zdobycia wiedzy o wydajności w jednym z najbardziej udanych łańcuchów restauracyjnych w Ameryce
TŁO
Grill i Big Data mogą nie wydawać się najbardziej naturalnym połączeniem smaku, ale jedna amerykańska sieć restauracji, Dickey's Barbecue Pit, łączy je z wielkim sukcesem. Firma, która prowadzi 514 restauracji w całych Stanach Zjednoczonych, opracowała zastrzeżony system Big Data o nazwie Smoke Stack.
Jaki problem pomaga rozwiązać Big Data?
Ideą Smoke Stack było uzyskanie lepszych informacji biznesowych i zwiększenie sprzedaży. Celem było przypomnienie lub poprawienie wszystkich aspektów działalności Dickey, w tym operacji, marketingu, szkoleń, brandingu i tworzenia menu. Dickey już przechwytywał dane z różnych źródeł, a celem było połączenie tych danych w celu utrzymania przewagi konkurencyjnej. CIO Laura Rea Dickey - która jest wnuczką Travisa Dickeya, który założył sieć w Teksasie w 1941 roku - wyjaśnia: "Największą korzyścią dla użytkowników końcowych jest niesienie razem wszystkich naszych różne zestawy danych ze wszystkich naszych danych źródłowych - bez względu na to, czy jest to nasz system POS [punkt sprzedaży] w sklepach bezpośrednio przechwytujących sprzedaż w momencie ich wystąpienia, czy też zupełnie inne źródło, takie jak program reakcji klienta, w którym ludzie podają nam opinii w Internecie lub w różnych formatach ankiet. "Kolejnym problemem, który został zaprojektowany do rozwiązania problemu Smoke Stack, było" zgnilizna informacji ", czyli zbyt wiele danych bez możliwości analizy w sensownym, nadającym się do działania sposobie.
W jaki sposób wykorzystywane są Big Data w praktyce?
Smoke Stack przerywa dane z systemów POS, promocji marketingowych, programów lojalnościowych, ankiet klientów i systemów inwentaryzacyjnych, zapewniając w czasie rzeczywistym informacje zwrotne na temat sprzedaży i innych kluczowych wskaźników wydajności. Wszystkie dane są sprawdzane co 20 minut, aby umożliwić natychmiastowe decyzje, a także podczas porannego briefingu w centrali firmy, gdzie można planować i realizować strategie wyższego poziomu. Jak ujął to Dickey: "Patrzymy na to, gdzie chcemy być na taktycznej podstawie. Oczekujemy, że sprzedaż osiągnie pewien poziom bazowy pewnego sklepu w danym regionie, a jeśli nie jesteśmy tam, gdzie chcemy być, pozwala to nam wdrażać szkolenia lub operacje bezpośrednio w celu skontaktowania się z tym sklepem i reagowania na te informacje. "Oprócz wartości strategicznej, w czasie zbliżonym do rzeczywistego charakter danych oznacza, że zachowanie operacyjne można zmanipulować "w locie", aby zareagować na problemy z podażą i popytem. "Na przykład, jeśli widzieliśmy niższą od oczekiwanej wartość sprzedaży w porze lunchu i wiemy, że mamy tam pewną liczbę żeber, możemy wysłać tekstowe zaproszenie do ludzi w okolicy za specjalne żeberka - aby wyrównać zapasy i nadrobić zaległości w sprzedaży. "Big Data również została zintegrowana z Przetwórz firmę, aby wybrać elementy, które chcesz umieścić w menu. Wszyscy kandydaci do włączenia do menu są oceniani przez użytkowników według pięciu wskaźników: sprzedaży, prostoty przygotowania, opłacalności, jakości i marki. Jeśli przedmioty spełniają określone cele we wszystkich pięciu kryteriach, stają się stałym elementem w menu tej konkretnej restauracji. Po udanej próbie z udziałem 175 użytkowników firma wdrożyła program w całej sieci. Informacje zwrotne z badania były zarówno pozytywne, jak i negatywne (początkowy rollout był tylko "pakietem startowym"), ale ogólny konsensus był taki, że kiedy ludzie posmakowali system Smoke Stack , chcieli więcej, lub chcieli tego samego z kilkoma poprawkami. Dzięki sukcesowi projektu Dickey przechodzi obecnie do drugiej fazy: projektu mikrokomunikacji Smoke Ring.
Jakie były wyniki?
Działalność restauracyjna jest bardzo konkurencyjna, a dla firmy, która chce być na czele, prędkość jest najważniejsza. "Jeśli region lub sklep znajduje się powyżej lub poniżej wskaźnika KPI - niezależnie od tego, czy jest to praca, czy koszt towarów - możemy rozmieścić zasoby na kurs, a my reagujemy na te liczby co 12 do 24 godzin zamiast na końcu każdej firmy tydzień lub, w niektórych przypadkach, za pomocą danych sprzed miesiąca. Aby pozostać opłacalnym, nie jest już rozsądnym robienie biznesu w ten sposób ", mówi Dickey. Dzięki Big Data, Dickey może lepiej zrozumieć, co dzieje się w terenie i podejmować szybkie decyzje w oparciu o te informacje. Dla nich to przekłada się na zwiększenie oszczędności i dochodów
Jakie dane zostały użyte?
Smoke Stack w dużej mierze korzysta z wewnętrznych danych. Obejmuje to połączenie uporządkowanych danych (takich jak dane z POS i systemów inwentaryzacji oraz danych klientów z programów lojalnościowych) i niestrukturalnych danych (takich jak dane z ankiet klientów i promocji marketingowych).
Jakie są szczegóły techniczne?
Dickey's zatrudnia 11 osób pracujących nad projektem Smoke Stack, w tym dwóch wyspecjalizowanych pracowników analitycznych, szefa raportowania na miejscu i architekta rozwiązań w niepełnym wymiarze godzin, który asystuje przy inicjatywach strategicznych. Jest także dwuosobowy zespół offshore, przeszkolony zarówno w zakresie analizy, jak i integracji danych. Firma ściśle współpracuje również ze swoim partnerem iOLAP, dostawcą Big Data i usługą wywiadu gospodarczego, który dostarczył infrastrukturę danych za operację. Dickey mówi: "Mimo że nasz zespół jest prawdopodobnie nieco większy od tradycyjnego zespołu wewnętrznego w firmie restauracyjnej, ponieważ [dane są]
tam, gdzie koncentrujemy się, wymaga partnera". Smoke Stack działa na platformie business intelligence firmy Yellowfin. z oprogramowaniem do integracji danych DMX firmy Syncsort, hostowane w usłudze Amazon Redshift Platforma chmurowa.
Wszelkie wyzwania, które trzeba pokonać?
Jednym z wyzwań dla łańcucha jest przyjęcie użytkownika końcowego. "Mamy ludzi na bardzo różnych, pionowo zintegrowanych stanowiskach w firmie", wyjaśnia Dickey. "Ci ludzie w biurze firmy mają siedzibę w tradycyjnym biurze, pracując wokół rzeczywistości biznesowej, aż po ludzi w naszych sklepach na linii frontu, którzy prowadzą punkt do grillowania i kontaktują się z klientami. Posiadanie platformy, która może zintegrować się z wszystkimi tymi różnymi użytkownikami typy są prawdopodobnie naszym największym wyzwaniem. "Rozwiązanie przyszło w postaci pulpitu, który ułatwił szerokiemu gronu użytkowników końcowych dostęp do danych i ich zrozumienie. "Interfejs znacznie ułatwia. Jest doskonały, szczególnie dla osób, które możesz tradycyjnie uważane za bardziej "analogowe" niż cyfrowe. Przybyli, aby pracować dla nas, ponieważ chcieli być rzemieślnikami z grilla, a nie analitykami. "Fakt, że Smoke Stack jest tak łatwy w użyciu, oznacza, że integruje się znacznie lepiej w codziennych operacjach, nawet z mniej technicznymi kolegami. Pod koniec dnia dane, które są łatwo dostępne i zrozumiałe, znacznie częściej przekładają się na działanie. Teraz ponad 560 użytkowników uzyskuje dostęp do ponad 200 raportów, które oferuje Smoke Stack. Kolejnym wyzwaniem, jak to często bywa, gdy firmy przenoszą się do Big Data, są ludzie z niezbędnymi umiejętnościami analitycznymi. W doświadczeniu Dickeya znalezienie niezbędnych umiejętności to jedno - znalezienie osób, które chcą myśleć nieszablonowo w kategoriach tego, gdzie mogą te umiejętności wykorzystać, to zupełnie co innego. "Na rynku istnieje ogromna luka w umiejętnościach w porównaniu do potrzeb. Dla nas częścią wyzwania jest nie tylko znalezienie ludzi z odpowiednimi umiejętnościami - przekonuje ich, że grill naprawdę robi Big Data. "W tym przypadku współpraca z zewnętrznym dostawcą naprawdę pomogła uzupełnić talenty wewnętrzne firmy. "Mieliśmy szczęście, wybierając odpowiedniego partnera. Mamy kontakt z kontem w naszym biurze co najmniej 20 godzin tygodniowo i ściśle z nimi współpracujemy przez cały czas - to zamknęło lukę, która byłaby niedoborem umiejętności dla nas, gdybyśmy nie mieli partnerstwa takiego jak to."
Jakie są kluczowe punkty nauki i wnioski?
Ta sprawa naprawdę podkreśla znaczenie pracy z doskonałym partnerem: osobą, która jest gotowa ściśle z Tobą współpracować i naprawdę rozumie, co próbujesz osiągnąć. Jak mówi Dickey: "Naprawdę mieliśmy szczęście, że znaleźliśmy doskonałego partnera i jesteśmy w stanie zebrać razem technologię, która naprawdę spełniła nasze potrzeby - sprawiliśmy, że grilla i Big Data to coś w rodzaju dziwnej rzeczywistości." Kolejną atrakcją tego W ten sposób użytkownicy w całej firmie - od sali konferencyjnej po piętro restauracji - mają dostęp do danych, które pomagają im poprawić wydajność. Podstawą tego jest elastyczna, przyjazna dla użytkownika platforma. "Ta elastyczność jest kluczem do przyjęcia użytkownika i daje nam cenne informacje. Smoke Stack pokonał tę lukę z danych, które są dostępne tylko dla danych, które są wartościowe, aktualne, łatwe w zarządzaniu i przydatne.
"
Big Data w kasynie
TŁO
Caesars Entertainment prowadzi hotele i kasyna na całym świecie, w tym jedne z najbardziej znanych nazwi w Las Vegas. Ostatnio nawiedziły burzliwe czasy, a niektóre ich operacje były skierowane
na bankructwo i zostały dotknięte grzywną w wysokości 1,5 miliona dolarów za nieprawidłowości w ich rachunkach. Podczas tych postępowań okazało się, że indywidualnym aktywem najbardziej cenionym przez spółkę - ponad ich portfelem nieruchomości - była ich baza klientów, zawierająca dane o 45 milionach klientów hoteli i kasyn na całym świecie. Caesars (wcześniej znany jako Harrah's) zbudował swój model biznesowy w oparciu o Big Data i analitykę, aby umożliwić im dogłębne zrozumienie swoich klientów i, oczywiście, zachęcić ich do kontynuowania wydawania pieniędzy.
Jaki problem pomaga rozwiązać Big Data?
Branża kasyn w USA od wielu lat podupadała pod względem wydatków na stoły do gier. Nie musi to jednak stanowić problemu, jeśli jesteś właścicielem dużego hotelu i centrum gier hazardowych, ponieważ w tym samym czasie rozkwitł luksusowy sektor hotelarski. Klasy średnie pojawiły się wśród populacji krajów rozwijających się, spragnione międzynarodowych podróży i odpustów w stylu zachodnim. Oznacza to, że operatorzy kasyn muszą szukać gdzie indziej, aby zwiększyć swoje dochody: klienci mogą tracić mniej pieniędzy w blackjacku, ruletce i automatach, ale wydają więcej na napoje, jedzenie i rozrywkę. Różni goście przyjeżdżają tu jednak po różne rzeczy - więc uzyskanie ogólnego zrozumienia nadziei i oczekiwań każdego klienta podczas podróży do ośrodka Caesars jest niezbędne, aby zapewnić im oczekiwaną usługę.
W jaki sposób wykorzystywane są Big Data w praktyce?
Gary Loveman wprowadził program Caesars Total Rewards krótko po objęciu funkcji dyrektora generalnego w 1998 roku. W 2003 roku powiedział Harvard Business Review: "Używamy marketingu bazodanowego i narzędzi analitycznych opartych na analityce, aby poszerzyć przepaść między nami a operatorami kasyn, którzy oparcie swoich zachowań na klientach bardziej na intuicji niż na dowodach ". Przez 17 lat, Cezarowie korzystali z programu do gromadzenia danych o swoich klientach i oferowali im zachęty: bezpłatne drinki, posiłki, ulepszenia w pokojach hotelowych lub limuzyny między obiektami, w oparciu o ich wzorce wydatków. Dane na temat zachowań klientów, gdy poruszają się po obiektach i biorą udział w oferowanych rozrywkach i napojach, są analizowane w czasie rzeczywistym przez 200-osobowy zespół analityczny z kasyna Flamingo w Las Vegas. Oznacza to, że jeśli gracz jest znany ze szczególnie wysokiego poziomu życia metryka wartości jest postrzegana jako brzydka noc przy stołach, w których przedstawiciele mogą wkroczyć i zaoferować im pocieszenie z bezpłatnymi przekąskami lub biletami na przedstawienie. To wspaniałomyślność, która pozwoliła zaoferować jednemu szczególnie cenionemu (i zaniepokojonemu) klientowi, Terrance Watanabe, roczne wynagrodzenie za podróż samolotem w wysokości 12 500 $, które grupa kasyn odwiedzi w swoich miejscach na całym świecie. W praktyce strategia obejmuje budowanie zautomatyzowanej, ukierunkowanej strategii marketingowej dla każdego indywidualnego klienta, wykorzystywanie danych do zrozumienia, kim są, a następnie modelowanie predykcyjne w celu oceny najlepszego sposobu zachęcenia ich do wydawania pieniędzy. Osoby, które regularnie spędzają więcej czasu, mogą spodziewać się osobistego powitania po przybyciu, poinformować, że stoły zostały zarezerwowane w ich preferowanej restauracji i przedstawione z bezpłatnymi biletami na wieczorną rozrywkę. (Okazjonalnie posunęło się to za daleko, ponieważ firma twierdziła, że "wycofuje się" z polityki witania klientów po imieniu, ponieważ niektórzy podobno znaleźli ten "straszny i wielki brat".) W 2011 ogłoszono że Totalne Nagrody miały charakter społeczny: uruchomiono programy zachęcające graczy do łączenia kont Facebooka z kontami Total Rewards, a także oferowano dodatkowe zachęty, aby przekonać klientów do "odprawy" w serwisach społecznościowych za pomocą funkcji geolokacji i publikowania zdjęć w ośrodkach do sieci. Po udanym zakończeniu programu Total Rewards, Loveman stwierdził, że mógł zastosować to samo podejście analityczne i uzyskał podobnie imponujące wyniki w niemal każdej innej branży w dowolnej branży.
Jakie były wyniki?
W 2013 roku Joshua Kanter, wiceprezes programu Total Rewards Caesars, powiedział, że po latach zbierania i analizowania danych, "Big Data jest ważniejsza niż licencja na gry". Od momentu powstania firma wyrosła z możliwości śledzić podróż 58% pieniędzy wydanych w ich kasynach do 85% .2. Powszechne zastosowanie analityki Big Data jest powszechnie uważane za siłę napędową sukcesu Caesars od "prowadzonego" łańcucha do największej grupy kasyn w kraj, według przychodów. Jednym z kluczowych odkryć było to, że ogromna większość dochodów firmy (80% przychodów i prawie 100% zysków) nie pochodziła z wakacji superbogatych lub odpoczywają supergwiazdy Hollywood odpoczywa od filmowania. Pochodzi od zwykłych użytkowników, którzy wydają średnio od 100 do 500 USD za wizytę.
Jakie dane zostały użyte?
Dane dotyczące zwyczajów związanych z wydatkami gości są monitorowane dzięki wykorzystaniu kart Total Rewards, które można wykorzystać do wszystkiego, od organizacji podróży po wydatki przy stołach, po jedzenie, napoje i rozrywki. Ponadto dane wideo są zbierane z rozległych sieci telewizji przemysłowej zainstalowanych w każdym obiekcie, pierwotnie w celu zwalczania oszustw. Teraz mają dodatkowy cel monitorowania poziomów aktywności w różnych obszarach, jak również ruchu pieszego wzdłuż stref tranzytowych. Jest używany do ustawiania udogodnień, w których ludzie są najbardziej prawdopodobnie chce kupować żywność i napoje, a algorytmy modelowania predykcyjnego sugerują najbardziej dochodowe lokalizacje. Dane klientów są również zbierane za pośrednictwem aplikacji mobilnych, które tworzą takie procesy, jak zamawianie usług pokojowych lub wygodniejsze sprawdzenie, jednocześnie umożliwiając przedsiębiorstwu bardziej uważną obserwację działalności gości i oferowanie zachęt do wydawania pieniędzy poprzez wydawanie pieniędzy w pobliskich placówkach. Caesars utrzymuje również partnerskie porozumienia z firmami wydającymi karty kredytowe, innymi firmami hotelowymi, liniami lotniczymi i operatorami statków wycieczkowych, umożliwiając im łączenie danych klientów z własnymi i budowanie pełniejszego obrazu.
Jakie są szczegóły techniczne?
Systemy Big Data firmy Caesars są zbudowane wokół komercyjnej dystrybucji platformy Cloudera platformy Hadoop o otwartym kodzie źródłowym. System jest zdolny do przetwarzania ponad trzech milionów rekordów na godzinę za pośrednictwem 112 serwerów Linux zlokalizowanych w ich centrali analitycznej w Flamingo.
Wszelkie wyzwania, które trzeba pokonać?
Loveman - doktor MIT z doświadczeniem w dziedzinie analityki, który w latach 90. był bardzo rzadki w branży kasyn w Las Vegas, początkowo wykorzystał swój zestaw umiejętności do określania stawek wypłat (tzw. "Hold") na automatach. Tradycyjnie wiele z tego zostało zrobione przez domysły: spadające poziomy wydatków zostaną zaspokojone z niewielkimi spadkami w luku, w oparciu o odczucia menedżerów kasyn i niezależnie od innych czynników, które mogą wpływać na wydatki konsumentów. Ustawiając automaty do gry w różnym tempie - od 5 do 7% - Loveman zgromadził wystarczającą ilość danych, aby zdać sobie sprawę, że przeciętny klient musi mieć ponad 40 godzin gry, zanim będą mogli powiedzieć różnicę na podstawie monitorowania własnego sukcesu poziomy: wgląd, że stawki trzymania miały bardzo mały wpływ na to, czy klient zagrałby w maszynę. Doprowadziło to do decyzji o ustaleniu wyższej stawki w całym łańcuchu, który to ruch jest bezpośrednio odpowiedzialny za dodatkowe zyski w wysokości 300 milionów USD od momentu jego wprowadzenia.
Jakie są kluczowe punkty nauki i wnioski?
Kasyna mają znacznie szerszy zakres możliwości gromadzenia danych klientów niż wiele innych firm. Oprócz hazardu oferują jedzenie, napoje i rozrywkę. To pozwala im gromadzić bardziej szczegółowe i obszerne informacje niż wiele innych rodzajów działalności. Rozpoznanie wartości całego życia najbardziej lojalnych klientów firmy i nagradzanie ich na tej podstawie jest silnym bodźcem dla zadowolenia klientów i powtarzania wydatków. Bez względu na kształt, w jaki Caesars Entertainment odnajduje się, gdy wyjdą z obecnych trudności, zostaną zapamiętani jako pionierzy w dziedzinie analityki danych w branży rozrywkowej i gier
Big Data na arenie fitness osobistej
TŁO
Firma Fitbit z siedzibą w San Francisco jest liderem rynku połączonych urządzeń fitness do noszenia na co dzień. Ich urządzenia działają jako trackery kondycji, pozwalając użytkownikom śledzić różne wskaźniki, które pomagają im prowadzić zdrowsze i bardziej świadome życie. W 2014 r. Firma sprzedała prawie 11 milionów urządzeń.
Jaki problem pomaga rozwiązać Big Data?
Fitbit opiera swój sukces na przekonaniu, że ludzie świadomi podejmują mądrzejsze decyzje dotyczące stylu życia. Urządzenia Fitbit zachęcają ludzi do dobrego jedzenia i ćwiczeń, pomagając im monitorować i poprawiać nawyki. Bogactwo danych gromadzonych za pomocą urządzeń Fitbit nie tylko pomaga ludziom stać się zdrowszymi, ale także ma wpływ na pracodawców, pracowników służby zdrowia, a nawet firmy ubezpieczeniowe.
W jaki sposób wykorzystywane są Big Data w praktyce?
Fitbit śledzi aktywność użytkownika, ćwiczenia fizyczne, spożycie kalorii i sen. Użytkownicy mają dostęp do informacji o swoich nawykach w czasie rzeczywistym, a statystyki są synchronizowane (bezprzewodowo i automatycznie) z urządzenia do smartfona lub komputera użytkownika. Pulpit nawigacyjny pozwala użytkownikom śledzić ich postępy (z przydatnymi wykresami i wykresami) i zachować motywację. Aria, inteligentna waga Fitbit′s Wi-Fi, śledzi wagę użytkownika, wskaźnik masy ciała (BMI), masę beztłuszczową i procent tkanki tłuszczowej. Skala jest w stanie rozpoznać do ośmiu indywidualnych użytkowników (więc cała rodzina może z nich korzystać) i zachować wyniki oddzielnie i prywatne. Statystyki są zsynchronizowane z domową siecią Wi-Fi użytkownika i mogą być również synchronizowane z urządzeniami nadającymi się do noszenia. Ponownie, panel kontrolny online pomaga użytkownikowi określić cele i śledzić ich postępy. Oczywiste jest, że dane o stanie zdrowia w ten sposób są niezwykle przydatne i cenne, nawet poza indywidualnym użytkownikiem. Fitbit gromadzi dane na temat nawyków kondycji i statystyki zdrowia, aby podzielić się nimi ze strategicznymi partnerami. Osobiste, indywidualne dane mogą być również udostępniane za pomocą pozwolenie użytkownika. Na przykład usługa HealthVault firmy Microsoft umożliwia użytkownikom przesyłanie i udostępnianie danych z urządzenia do monitorowania kondycji pracownikom służby zdrowia, co może dać lekarzom pełniejszy obraz ogólnego stanu zdrowia i nawyków pacjenta, niż można uzyskać tylko poprzez konsultacje i egzaminy. Implikacje idą jeszcze dalej wraz z niedawnym ogłoszeniem, że firma ubezpieczeniowa John Hancock oferuje zniżkę dla ubezpieczających, którzy noszą urządzenie Fitbit. Posiadacze polis mogą w zamian za to udostępniać swoje dane Fitbit nagrody związane z ich aktywnością fizyczną i dietą. Wskazuje to na rosnącą gotowość osób do "handlu" ich prywatnymi danymi w zamian za ulepszony produkt / usługę lub nagrodę finansową - wszystko to jest wspaniałe, o ile transakcja jest przejrzysta, to znaczy, że dana osoba wie dokładnie, jakie dane oni się poddają i dlaczego. Fitbit sprzedaje również swoje oprogramowanie śledzące i specjalne oprogramowanie śledzące pracodawcom, takim jak BP America, dzięki czemu mogą śledzić zdrowie i poziom aktywności swoich pracowników (za ich zgodą). W rozmowie z Forbesem dyrektor generalny Fitbit, James Park, powiedział, że sprzedaż urządzeń Fitbit pracodawcom stała się jedną z najszybciej rozwijających się części ich działalności, więc możemy spodziewać się, że coraz więcej firm będzie monitorować codzienną sprawność swoich pracowników.
Jakie były wyniki?
Od ich powstania w 2007 r. Firma Fitbit zdominowała rynek odzieży do ćwiczeń fitness, sprzedając prawie 21 milionów urządzeń do marca 2015 r. Rozwój firmy jest imponujący; w 2014 r. sprzedano 11 milionów urządzeń, w porównaniu do 4,5 miliona w 2014 r. A ich analityczne usługi monitorowania są wyraźnie wykorzystywane przez użytkowników Fitbit. Liczba zarejestrowanych użytkowników na platformie Fitbit to 19 milionów (z 21 milionów sprzedanych urządzeń) - co oznacza, że Fitbit jest czymś więcej niż najnowszą modą fitness: jest to naprawdę przydatne narzędzie pomagające miliony ludzi stają się lepiej poinformowani i pozostają zdrowi. Przeniesienie firmy na rynek pracodawców pokazuje, że Fitbit dobrze zna moc danych związanych ze zdrowiem poza indywidualnym użytkownikiem i prawdopodobnie rynek pracodawców będzie nadal wzrastał w fenomenalnym tempie.
Jakie dane zostały użyte?
Urządzenia Fitbit zbierają szereg uporządkowanych danych od użytkowników, w tym podjęte kroki, piętra wzniesione, odległość chodzona / bieg, spożycie kalorii, spalone kalorie, aktywne minuty dziennie, schematy snu, waga i BMI.
Jakie są szczegóły techniczne?
Fitbit nie udostępnia publicznie szczegółów infrastruktury Big Data, ale gdy spojrzysz na ich stronę z ofertami pracy, oznacza to, że mogą pracować z technologią baz danych SQL, Hadoop, Python i Java
Wszelkie wyzwania, które trzeba pokonać?
Jednym z wyzwań na arenie danych dotyczących zdrowia jest zachęcanie personelu medycznego do pracy z danymi generowanymi przez pacjentów. Istnieje sporo sceptycyzmu wokół danych, które nie zostały zebrane ani zweryfikowane bezpośrednio przez personel medyczny. Ale ponieważ uwaga skupia się na zapobieganiu chorobom , zamiast leczyć je, gdy się pojawiają, to prawdopodobnie ulegnie zmianie. Oczywiście żadne dane nie są bardziej osobiste niż nasze dane medyczne i zdrowotne, dlatego należy wprowadzić nadzwyczaj bezpieczne zabezpieczenia, aby upewnić się, że informacja dociera tylko do tych, którzy mają go zobaczyć. Mimo to złodzieje cybernetyczni rutynowo atakują dokumentację medyczną i podobno zarabiają więcej pieniędzy ze skradzionych danych dotyczących zdrowia niż kradnąc dane karty kredytowej. W lutym 2015 r. Miała miejsce największa w historii kradzież danych związanych z opieką zdrowotną, gdy hakerzy ukradli zapisy dotyczące 80 milionów pacjentów z Anthem, drugiego co do wielkości amerykańskiego ubezpieczyciela zdrowotnego. Na szczęście wykorzystali oni jedynie dane identyfikacyjne, takie jak nazwiska i adresy, a szczegóły dotyczące chorób i leczenia nie zostały ujawnione. Istnieje jednak obawa, że to tylko kwestia czasu, zanim dojdzie do naruszenia bezpieczeństwa na taką skalę, w którym utracone są zapisy dotyczące pacjenta. Wreszcie Fitbit staje przed kolejnym wyzwaniem na przyszłość: silną konkurencją ze strony nowego zegarka Apple Watch i innych firm wchodzących na rynek. Fitbit są w mocnej pozycji ale będą musieli się rozwijać i poszukiwać nowych rynków, jeśli chcą wyprzedzić.
Jakie są kluczowe punkty nauki i wnioski?
Przypadek ten pokazuje, w jaki sposób rewolucja Internetu przedmiotów może dotykać każdego obszaru naszego życia, w tym naszego zdrowia. Podczas gdy niektóre osoby mogą być przerażone przez firmy ubezpieczeniowe lub pracodawców monitorujących ich działalność, zachęcanie do tego, aby zobaczyć firmy oferujące wyraźne korzyści w zamian za te dane. Zbyt często rezygnujemy z naszych danych, nie myśląc o tym (zapisując się na przykład bezpłatna internetowa poczta e-mail lub pobieranie aplikacji). Każda firma przechwytująca lub uzyskująca dostęp do danych osób powinna jasno określić, do których danych mają dostęp i jak zamierzają z nich korzystać. I z pewnością warto zaoferować coś w zamian za te dane, niezależnie od tego, czy chodzi o obniżoną składkę ubezpieczeniową, czy o możliwość łatwego śledzenia programu odchudzania lub treningu maratonu przy użyciu usługi takiej jak Fitbit. Po tych wszystkich historiach o Big Brotherze, które otaczają Big Data, ten rodzaj przejrzystości pomoże zwiększyć zadowolenie i
lojalność klientów
Big Data w branży mody
TŁO
Świat, w którym żyjemy, jest coraz bardziej połączony cyfrowo. Ten trend ma wpływ na wszystko, a moda nie jest wyjątkiem. Technologia noszenia na ciele, często określana jako "odzież do noszenia", ma stać się coraz bardziej popularna, gdy Internet przedmiotów (IoT) startuje - proces, który ma przyspieszyć wraz z niedawnym uruchomieniem Apple Watch. Wśród wielkich nazwisk w wysokiej jakości mody konsumenckiej, które pokazały, że są chętni do objęcia tego nowego rynku, jest Ralph Lauren, który zaprezentował swoją połączoną koszulkę PoloTech podczas turnieju tenisowego US Open 2014. Koszula została wydana w sprzedaży w sierpniu 2015 roku.
Jaki problem pomaga rozwiązać Big Data?
Dzięki koszulce PoloTech Ralph Lauren dąży do poprawy kondycji, dobrego samopoczucia i jakości życia swoich użytkowników - od codziennych klientów po profesjonalnych sportowców.
W jaki sposób wykorzystywane są Big Data w praktyce?
Czujniki przymocowane do srebrnych nici wewnątrz koszulki podnoszą dane o ruchu użytkownika, jak również częstość oddechów i serca, podejmowane kroki i liczbę spalonych kalorii. Towarzysząca jej aplikacja, dostępna bezpłatnie w iTunes, monitoruje dane i reaguje, tworząc na podstawie tych odczytów niestandardowe treningi cardio, siły lub zwinności w locie. Jeśli zastanawiasz się: tak, możesz umyć koszulkę PoloTech, ale musisz najpierw usunąć nadajnik Bluetooth o nieco większej wielkości niż karta kredytowa. Obecnie firma szuka sposobu, w jaki urządzenie może się skurczyć - może ostatecznie skończyć na wielkości guzika - lub wbudować się w tkaninę w sposób, który sprawia, że usunięcie go nie jest konieczne. I choć koszulka PoloTech jest mocno w branży sportowej - w branży, która już jest wyposażona w inteligentną technologię IoT, taką jak inteligentna rakieta Babolat i inteligentna piłka Adidas miCoach - Ralph Lauren mają plany poza tym. Firma nazwała się związkami, więc być może Smart Tie jest na desce kreślarskiej i będzie prezentowany zarówno w modzie, jak i w technice blogi w niedalekiej przyszłości? Według Davida Laurena, syna założyciela Ralpha, odpowiedzialnego za globalny marketing firmy, "wiele przyjdzie w ciągu najbliższych kilku miesięcy. Jesteśmy marką lifestylową, luksusową marką mody. Chcę móc zebrać te [biometryczne] informacje w sali konferencyjnej lub od dziecka w łóżeczku. Znajdziemy nowe potrzeby, a my dopiero zaczynamy. "Wyobraź sobie to na sekundę: na przeciętnym spotkaniu zarządu generowane są ogromne ilości danych, a nie tylko co się mówi, ale kto to mówi i sposób i ton głosu, w którym to mówią. Biometryczne
odczyty uczestników spotkania mogą dostarczyć użytecznych informacji o tym, jak działamy pod presją w sytuacjach korporacyjnych. W szerszym świecie mody Big Data odgrywa coraz większą rolę w prognozowaniu trendów, w ramach których dane społecznościowe, dane o sprzedaży i raporty z pokazów mody i wpływowych publikacji są zbierane, aby pomóc projektantom i sprzedawcom detalicznym sprawdzić, co jest obowiązkowym sezonem. .
Jakie były wyniki?
Koszulka PoloTech jest wciąż w początkach, ale z popularności innych urządzeń, takich jak Fitbit, wynika, że istnieje ogromny apetyt opinii publicznej na takie produkty. Zdolność śledzenia naszych danych biometrycznych i doskonalenia naszych treningów nie tylko pomaga poprawić kondycję, ale także pomaga uniknąć kontuzji lub "przesadzić" podczas treningów.
Jakie dane zostały użyte?
Koszulka sama w sobie jest efektywnie jednym dużym czujnikiem gromadzącym w czasie rzeczywistym dane dotyczące kierunku i ruchu oraz danych biometrycznych, takich jak tętno.
Jakie są szczegóły techniczne?
Ralph Lauren pracował z kanadyjską firmą OMsignal nad rozwojem koszulki PoloTech. Dane z koszulki są przesyłane do chmury i analizowane za pomocą algorytmów. Następnie aplikacja wykorzystuje spostrzeżenia z tej analizy, aby odpowiednio dostosować trening użytkownika.
Wszelkie wyzwania, które trzeba pokonać?
Obecnie odłączany nadajnik jest prawdopodobnie nieco większy niż idealny. Jest to zdecydowanie zauważalne i może to zwolnić niektórych użytkowników. Jednak firma stara się, aby była mniejsza i bardziej dyskretna
akie są kluczowe punkty nauki i wnioski?
Przemawiając do Wall Street Journal, Lauren ponownie podkreśliła, że koszulka PoloTech była dopiero początkiem: "Rozwijamy dywizje w Ralph Lauren, aby skupić się na rozwijaniu wszystkich rodzajów produktów we wszystkich naszych markach." 1 Więc możemy się spodziewać bardziej nadająca się do noszenia technologia firmy Ralph Lauren w przyszłości. W ciągu ostatnich kilku lat główni gracze w każdej branży otworzyli swoje oczy na możliwości, jakie może zaoferować im technologia, aw szczególności technologia połączona z danymi. Nikt nie chce pozostać w gorączce Big Data i IoT. W rezultacie wszystkie firmy stają się przedsiębiorstwami danych. Jest to ekscytujące nie tylko dla zainteresowanych branż, ale także dla tych, którzy pracują (lub chcą pracować) w naukach o danych. Ogromny wzrost liczby i różnorodności ofert pracy z zakresu informatyki jest wyraźnie oferowany tym, których celem jest praca poza Doliną Krzemową i przemysłem technologicznym. Są też bogate możliwości dla osób posiadających umiejętności w
zakresie danych, ale z pasjami, które leżą gdzie indziej - czy to w modzie, jedzeniu i piciu, czy w finansach.
Big Data w branży gier
TŁO
Big Data ma duże znaczenie w grach. Weźmy Zyngę, firmę odpowiedzialną za FarmVille, Words with Friends i Zynga Poker. Zynga pozycjonuje się jako twórcy "społecznych" gier, które gra się na
platformach społecznościowych (a nie konsole do gier takich jak Nintendo, Xbox lub PlayStation) i wykorzystuje łączność z innymi użytkownikami oferowanymi przez te platformy. Ich gry są również zbudowane, aby wykorzystać Big Data, które platformy te mogą gromadzić. W szczyt ich firmy, aż dwa miliony graczy grało w swoje gry w dowolnym momencie w ciągu dnia, a co sekundę ich serwery przetwarzały 650 rozdań Zynga Poker.
Jaki problem pomaga rozwiązać Big Data?
Zynga wykorzystała dane, aby zapewnić graczom (lub znudzonym pracownikom biurowym) nowe, kompulsywne rozrywki. I, oczywiście, zarabiać pieniądze.
W jaki sposób wykorzystywane są Big Data w praktyce?
Gry Zynga i setki innych, które działają na tej samej zasadzie - na przykład bardzo popularna Candy Crush Saga - wykorzystują model biznesowy, który stał się znany jako "freemium". Gracze nie muszą przekazywać gotówki z góry, aby je zagrać, choć często pobierają niewielkie kwoty (mikrotransakcje) za ulepszenia, które zapewnią im przewagę nad innymi graczami lub sprawią, że gra będzie przyjemniejsza. Na przykład w FarmVille, która symuluje prowadzenie farmy, możesz kupić dodatkowe zwierzęta dla swojego wirtualnego przedsiębiorstwa rolnego. Istnieją również ustalenia dotyczące szeregu "partnerów" od firm obsługujących karty kredytowe do usług filmowych na żądanie, dzięki czemu gracze mogą zdobywać kredyty do wydania w grze, wykorzystując swoje oferty. To wiąże się z drugim strumieniem przychodów Zynga: reklamą. Podczas gry możesz okresowo oglądać reklamy, tak jak podczas oglądania telewizji lub czytania czasopisma. Tutaj dane pobierane z Facebooka są wykorzystywane do oferowania specjalistom od marketingu precyzyjnego celu demograficznego w swoich segmentowanych kampaniach online. Big Data odgrywa również rolę w projektowaniu gier. Najmądrzejszy wgląd Big Data firmy Zynga polegał na uświadomieniu sobie, jak ważne jest, aby użytkownicy mieli to, czego chcieli, i w tym celu monitorowali i rejestrowali sposób grania swoich gier, wykorzystując zebrane dane do ulepszenia rozgrywki zgodnie z tym, co działa dobrze. Na przykład zwierzęta, które odgrywały główną rolę w wczesnych wersjach, stały się bardziej znaczącą częścią późniejszych gier, gdy dane ujawniły, jak popularne są one wśród graczy. W skrócie, Zynga używa danych, aby zrozumieć, co gracze lubią i nie lubią w swoich grach. Twórcy gier są bardziej niż kiedykolwiek świadomi ogromnej ilości danych, które można zdobyć, kiedy każde drgnięcie joysticka może być analizowane w celu uzyskania opinii o tym, w jaki sposób gracze grają w gry i co lubią. Po wydaniu gry te opinie można przeanalizować, aby dowiedzieć się, czy np. gracze są sfrustrowani w pewnym momencie, a aktualizacja na żywo może zostać wdrożona, aby nieco ułatwić. Chodzi o to, aby zapewnić graczowi wyzwanie, które pozostaje rozrywkowe bez irytowania. Ich ostatecznym celem jest zawsze jak najdłużej utrzymywać graczy w grach - albo czuć, że otrzymują oni value for money, jeśli jest to gra, za którą zapłacili, albo, że można im podawać mnóstwo reklam, jeśli jest to darmowa gra. Zynga udostępnia swoje dane wszystkim pracownikom, aby mogli zobaczyć, co jest popularne w grach. Tak więc nawet menedżer produktu FarmVille może zobaczyć dane pokera i zobaczyć, ile osób wykonało konkretną akcję gry, na przykład. Ta przejrzystość pomaga w tworzeniu kultury opartej na danych i zachęca do eksperymentowania z danymi w całej firmie. Rzeczywiście, Yuko Yamazaki, szef działu analiz w firmie Zynga, mówi mi, że w chwili obecnej firma prowadzi obecnie ponad 1000 eksperymentów na żywych produktach, nieustannie testując funkcje i personalizując zachowania gier dla swoich graczy. Zespół analityczny Zynga wykonuje także "hackathony danych", wykorzystując ich dane i przypadki użycia, a także prowadzi wiele spotkań analitycznych i danych na miejscu. Wszystko to pomaga w promowaniu innowacji i wzmacnianiu kultury opartej na danych. Gdzie indziej w branży gier sugerowano nawet, że zakup Minecrafta przez firmę za 2,5 miliarda dolarów wynikał z możliwości zintegrowanego wydobywania danych w grze, które firma Microsoft mogłaby wykorzystać w innych produktach. Minecraft, niezwykle popularna gra budująca świat, opiera się na
ogromnej bazie danych zawierającej tysiące pojedynczych przedmiotów i obiektów, które tworzą każdy świat. Grając w grę, gracz zasadniczo manipuluje danymi, aby uzyskać pożądany wynik w grze. Według Microsoftu, Minecraft stanowi idealne wprowadzenie dla dzieci do zasad konstruowania i manipulowania danymi cyfrowymi w celu budowania modeli, które w jakiś sposób odnoszą się do świata rzeczywistego.
Jakie były wyniki?
Zynga mierzy sukces na dwóch czynnikach: wewnętrznej adaptacji systemów i zatrzymaniu odtwarzacza zewnętrznego. Patrząc najpierw na wewnętrzne dane, Zynga ma 2000 pracowników, z których każdy ma dostęp do narzędzia wizualizacji danych firmy. Co najmniej 1000 pracowników korzysta z narzędzia codziennie, co pokazuje, że firma ma naprawdę silną kulturę podejmowania decyzji opartych na danych. Zewnętrznie liczba użytkowników wynosi około 20-25 milionów aktywnych użytkowników dziennie, co jest dalekie od ich największej liczby 72 milionów aktywnych użytkowników dziennie w 2012 roku. W tym okresie spada liczba czynników, w tym koniec specjalnych relacji Zynga z Facebook w 2012 roku, a ich historyczna koncentracja na grach opartych na przeglądarkach (w przeciwieństwie do gier mobilnych). Ale w 2014 roku Zynga nabył mobilnych specjalistów NaturalMotion, być może sygnalizując zmianę nastawienia na przyszłość. "W porównaniu do gier internetowych", wyjaśnia Yamazaki, "mobilne gry mają swoje własne wyzwania, takie jak anonimowe gry, więcej gatunków gier i bardziej skoncentrowane działania sesyjne. "Zwłaszcza w grach mobilnych długość sesji może być ważniejsza niż liczba użytkowników, a dłuższe sesje oznaczają większe możliwości dla Zynga. Dzieje się tak dlatego, że w sesjach mobilnych gracze zazwyczaj zwracają uwagę przez cały czas podczas sesji (podczas sesji opartej na przeglądarce mogą mieć otwartą stronę na nieaktywnej karcie). Tak więc, chociaż liczba aktywnych użytkowników jest niższa, większy nacisk na gry mobilne zapewni Zynga potencjał większy zasięg i wyższe dochody.
Jakie dane zostały użyte?
Zynga przechwytuje uporządkowane dane o wszystkim, co dzieje się w ich grach - śledzone są prawie wszystkie gry, co daje około 30-50 miliardów wierszy danych dziennie.
Jakie są szczegóły techniczne?
Zynga wymieniła swoją technologię baz danych MemSQL na MySQL SSD, działającą w Amazon Web Services. Ich Vertica Data Warehouse jest największą na świecie platformą Amazon. Pod względem przyszłego rozwoju firma analizuje analitykę w czasie rzeczywistym i analizę w chmurze. Zynga zaczęła inwestować więcej w uczenie maszynowe. Oprócz technologii wspomnianej powyżej, mają teraz środowisko Hadoop / MapReduce do zaawansowanych funkcji uczenia maszynowego, koncentrując się na prognozowaniu, wyglądzie, wykresie społecznym i analizie skupień.
Wszelkie wyzwania, które trzeba pokonać?
Marketing Zynga i czasami natrętna obecność na ekranach naszych mediów społecznościowych padła z pewnością na krytykę i uczciwie można powiedzieć, że fortuny firmy spadły w ostatnich latach - częściowo z powodu zakończenia ich bliskiego związku z Facebookiem, a częściowo dlatego, że w technologii świecie, zawsze pojawia się coś nowego, błyszczącego, a często także wolnego, które przyciąga użytkowników do innych miejsc. Wyzwanie stojące przed Zyngą polega na tym, aby przejść dalej, chociaż rosnące liczby użytkowników telefonów komórkowych i nowe premiery gier oferują jasne promienie nadziei.
Jakie są kluczowe punkty nauki i wnioski?
Zynga jest dobrym przykładem firmy zbudowanej na innowacyjnym wykorzystaniu danych od podstaw i zwiastuje nadejście Big Data jako siły do zmian w branży gier. Ich kultura podejmowania decyzji w oparciu o dane jest godna podziwu - z czego wiele firm może czerpać naukę - i mam nadzieję, że będą w stanie sprostać nadchodzącym wyzwaniom. Jak mówi Yamazaki: "Gry społecznościowe wciąż ewoluują - od sposobu, w jaki gracze grają, aż po funkcje dostępne na urządzeniach ... Zynga ma zabójczą infrastrukturę i szalone dane odbiór, przechowywanie rekordów miliardów instalacji od momentu uruchomienia firmy. Big Data zawsze była tajnym sosem Zynga, aby wystartować przed konkurencją i będzie kluczem do ciągłego przywództwa Zynga w kosmosie.
Jak Big Data przekształcają przemysł oprogramowania
TŁO
Autodesk to kalifornijski wydawca oprogramowania, którego podstawowym zadaniem jest tworzenie komercyjnego oprogramowania wspomagającego projektowanie (CAD). Począwszy od wersji AutoCAD, opracowali specjalistyczne aplikacje ukierunkowane na poszczególne dziedziny projektowania i architektury, takie jak Revit (konstrukcja), Moldflow (produkcja) i Maya (grafika i efekty dla mediów rozrywkowych). Ich produkty stały się standardami branżowymi w wielu z tych dziedzin. Niedawno, zgodnie z wieloma innymi dużymi producentami oprogramowania, Autodesk dokonało skoków oferując swoje produkty za pomocą modelu SAAS (Software-as-a-Service). Oznacza to, że mają teraz dostęp do znacznie większej ilości i bogatszej gamy danych dotyczących sposobu, w jaki ich klienci używają swoich produktów.
Jaki problem stanowią Big Data które pomagają rozwiązać?
Przed pojawieniem się SAAS firmy, które opracowały oprogramowanie, miały dostęp do stosunkowo niewielu informacji o tym, w jaki sposób został wykorzystany. Zwykle jedynym kanałem gromadzenia informacji zwrotnych były ankiety wśród klientów i formularze opinii zawarte w opakowaniach produktów fizycznych. Twórcy oprogramowania zawsze jednak zdawali sobie sprawę, że tylko stosunkowo niewielka liczba użytkowników skorzysta z nich. Byłoby to szczególnie prawdziwe, gdyby wszystko szło dobrze: realistycznie, jak często Czy chcesz się skontaktować z firmą, której usługi są dla ciebie dobre, po prostu pogratulować dobrze wykonanej pracy? Oczywiście, tylko dlatego, że oprogramowanie działało dobrze i klient był w stanie wykonać pracę, dla której ją kupili, nie oznaczało, że nie można wprowadzić usprawnień. Aplikacje muszą stale ewoluować, aby nadążyć za konkurencją, a także rosnące wymagania użytkowników - a opinie klientów stanowią najbardziej oczywiste i cenne źródło wskazówek. Charlie Crocker, główny program Business Analytics w Autodesk, mówi: "W starym świecie zrozumienie naszego klienta było stosunkowo trudne. Rozumiemy je na szerokiej fali - być może co sześć miesięcy będziemy je rozumieć, gdy wypełnią ankietę lub zaprosimy ich do grupy fokusowej lub odwiedzimy ich w terenie. "Mieliśmy kilka narzędzi w produktach, które mogły zbierać raporty o błędach i tego typu rzeczy, i przez długi czas to właśnie robiliśmy - odnieśliśmy z tego duży sukces. "Ale w tym nowym świecie musimy być w stanie zrozumieć naszych klientów codziennie lub co godzinę. Musimy zrozumieć, jakie są wąskie gardła w ich doświadczeniach klientów.
W jaki sposób wykorzystywane są Big Data w praktyce?
Dzięki temu, że produkt jest hostowany w chmurze, Autodesk może dokładnie monitorować i śledzić każdy aspekt interakcji klientów z ich produktami. Oznacza to również, że aktualizacje i poprawki można zastosować w dowolnym momencie. Twórcy oprogramowania Autodesk mogą dokładnie
zebrać głęboki wgląd w to, w jaki sposób, kiedy i dlaczego ich produkty są używane, co oznacza, że można się skupić na zapewnieniu wsparcia i ulepszeń dla funkcji, na których opiera się znaczna część bazy użytkowników. Tymczasem mniej używane funkcje mogą być skalowane lub usuwane, jeśli analityka Autodesk poinformuje ich, że ich użytkownicy nie otrzymują z tego wartości. Oczywiście ostatecznie celem jest upewnienie się, że klienci ponownie subskrybują usługi, za które płacą, kiedy przyjdzie czas, aby podjęli decyzję. Dane dotyczące sposobu, w jaki subskrybent skorzystał z usługi w ciągu ostatnich 90 dni przed wygaśnięciem obecnego abonamentu, są uważane za najbardziej istotne i poddane najgłębszej analizie. Jak powiedział mi Crocker: "Zrozumienie zachowania użytkownika i zachęcanie ludzi do odnowienia subskrypcji to wielka sprawa. Utrzymywanie klientów jest o wiele łatwiejsze niż ciągłe szukanie nowych. "W celu uzyskania dodatkowych informacji zwrotnych od użytkowników, firma dokonuje również wczesnej, wstępnej wersji wielu popularnych produktów dostępnych w usłudze Autodesk Labs. Daje to cenną wiedzę na temat funkcji i funkcji, które ich użytkownicy są zainteresowani widząc w nadchodzących usługach, oraz nowych wtyczek i rozszerzeń dla istniejących pakietów.
Jakie były wyniki?
Najbardziej spektakularnym wynikiem była szybkość, z jaką można uzyskać wgląd w zachowanie użytkownika, a co za tym idzie, redukcję czasu, zanim można podjąć działanie. Doprowadziło to do wyraźnego zamknięcia luki między problemami wyróżnionymi jako problematyczne przez działania użytkowników i wdrażane rozwiązanie. Crocker powiedział: "Wcześniej przez sześć tygodni sygnał, który zaczął się w jednym z naszych produktów, trafił do naszych jezior danych. Teraz dzięki tym pakietom SDK może pojawić się za kilka godzin. "
Jakie dane zostały użyte?
Autodesk monitoruje około 600 punktów danych dotyczących interakcji użytkowników z ich chmurowymi platformami SAAS. Długość czasu, w którym użytkownik angażuje się w usługę, a także szczegółowe informacje o tym, do której funkcji jest uzyskiwany dostęp i co jest ignorowane, są rejestrowane i przechowywane do analizy. Obejmują one także wewnętrzne dane biznesowe, takie jak rekordy transakcyjne w swoich równaniach, więc ogólna oczekiwana wartość klienta może zostać wzięta pod uwagę, a funkcje które przyciągają duże wydatki, mogą otrzymać priorytetową uwagę. Monitorują również częstotliwość wbudowanych kanałów wsparcia, na przykład na żywo obsługa klienta, fora internetowe i fora wsparcia są dostępne, a dane z tych źródeł pokazują, gdzie ludzie mają problemy i dają wskazówki, jakie działania można podjąć, aby rozwiązać je z wyprzedzeniem. Jednym ze wskaźników, że praca naprawcza musi być skoncentrowana na określonym obszarze, jest sytuacja, w której jedna kwestia generuje wyższą niż średnia liczba kontaktów indywidualnych z obsługą klienta, przez telefon, czat na żywo lub pocztę e-mail. Dane pokazały, że problemy te były nieproporcjonalnie drogie pod względem czasu spędzonego przez Autodesk odpowiada na kontakt z obsługą klienta. W pewnym momencie jeden z takich problemów dotyczył nieudanych prób aktywacji produktów poprzez wprowadzenie kluczy rejestracyjnych. Kiedy stało się jasne, jak drogo staje się, aby Autodesk odpowiadał na techniczne kontakty serwisowe, przydzielono kolejne zasoby zespołom programistycznym pracującym nad naprawianiem błędów, które były przyczyną problemów.
Jakie są szczegóły techniczne?
Autodesk zgromadził około 800 terabajtów danych na temat interakcji swoich klientów z ich usługami w chmurze i obecnie gromadzi je w tempie 100 gigabajtów dziennie. Firma korzysta z rozproszonej sieci pamięci masowej z systemem Hadoop na serwerach Amazon S3, którą analizują za pomocą funkcji Amazon Elastic Map Reduce. Inne technologie i platformy Big Data obejmują Datameer, Splunk, Amazon Redshift, Hive i wyszukiwarka BigQuery firmy Google.
Wszelkie wyzwania, które trzeba pokonać?
W dawnych czasach początkowy koszt świadczenia nowego klienta usługą ograniczał się do wysyłania do niego płyty DVD i instrukcji obsługi. Mimo że model SAAS wyeliminował to, każdy klient ponosi bieżące koszty, jeśli chodzi o zasoby komputera, które muszą być dostępne dla ich potrzeb. Oznacza to, że każdy klient ma obecnie stały koszt eksploatacji. Crocker mówi: "Każdy klient ma koszt, więc musimy to zrozumieć będzie bardzo trudno świadczyć nasze usługi, nadal zarabiać i dbać o zadowolenie akcjonariuszy. "Wraz ze wzrostem liczby użytkowników będziemy nadal zwiększać świadomość kosztów. Możemy teraz zrozumieć, które części systemu są używane najbardziej, i które są nieefektywne kosztowo. Nie możesz działać bez głębokiej wglądu w tę informację, a informacja jest uporządkowana i pozbawiona struktury - jest brudny, ale w tym jest niesamowity kontekst. "
Jakie są kluczowe punkty nauki i wnioski?
Odejście od mentalności "statek i przejście do następnego produktu" w kierunku zapewnienia stale aktualizowanej i zmieniającej się usługi w chmurze spowodowało problemy techniczne i problemy z danymi, ale także zapewniło przedsiębiorstwom możliwość głębszego zrozumienia i połączenia się z ich klienci. Czerpanie korzyści z tego - w celu złagodzenia zwiększonego kosztu dostarczania chmury klienci z ciągłym przetwarzaniem przepustowości i pamięci masowej - to klucz do sukcesu w erze opartej na dużej ilości danych SAAS. Poprzez integrację analityki danych z usługami klienta i rozwojem produktów, firmy te mają możliwość dokładniejszego dopasowania oferty do potrzeb swoich klientów. Wyeliminowanie pośredników zaangażowanych w proces, takich jak sprzedawcy detaliczni, nieuchronnie zbliża do siebie klienta i dostawcę usług. Teoretycznie, i jak się zdaje w praktyce, powinno to oznaczać mniejszy rozłącznik pomiędzy tym, czego klient chce i co zapewnia dostawca.
Jak Big Data przekształcają nasze rodzinne wakacje
TŁO
Firma rozrywki rodzinnej Walt Disney to jedna z najbardziej znanych i lubianych firm na świecie, a ich parki tematyczne i kurorty zapewniają rocznie 126 milionów odwiedzających. Wraz z niedawnym wprowadzeniem MagicBand, Disney jest w stanie śledzić każdy ruch gości w ich ośrodku Walt Disney World w Orlando na Florydzie - od tego, do czego jeżdżą, do tego, co zamawiają na lunch.
Jaki problem pomaga rozwiązać Big Data?
Dane z MagicBand mogą pomóc Disneyowi dowiedzieć się więcej o tym, kto jest ich właścicielem klienci są i chcą, dzięki czemu firma może przewidzieć potrzeby klientów i poprawić wrażenia z parków rozrywki.
W jaki sposób wykorzystywane są Big Data w praktyce?
Na początku 2014 roku Disney wprowadził na rynek innowacyjną technologię MagicBand: kolorową opaskę, która pomaga gościom spersonalizować całe doświadczenie Walt Disney Resort. Goście mogą spersonalizować zespoły przed opuszczeniem domu w witrynie My Disney Experience na stronie internetowej Disneya, a po przybyciu do ośrodka zespoły otrzymują klucz do pokoju i zapewniają dostęp do parku oraz biletów FastPass na atrakcje. Pasma można również powiązać z danymi dotyczącymi płatności kartą, umożliwiając gościom kupowanie żywności i towarów za dotknięciem nadgarstka. Dzieciaki otrzymują także opaskę, która pozwala automatycznie pozdrawiać postacie
Disneya w pobliżu ośrodka młodzi goście z ich nazwiskiem. Opaski na rękę (w chwili pisania) wciąż są dobrowolne, ale do tej pory okazały się popularne: od premiery wydano 10 milionów pasm. Naturalnie tworzy to mnóstwo danych, które Disney może wykorzystać do wglądu. Dane są gromadzone na temat tego, kim są goście, gdzie przebywają w ośrodku, jakie są trasy i co kupują - potencjalnie dając Disneyowi bezprecedensowy wgląd w profile odbiorców i ich preferencje klientów. Dane mogą być również wykorzystane do analizy przepływu ruchu w czasie rzeczywistym wokół parku, długości linii na popularnych trasach, popytu w restauracjach itp. Dla gości zespół oznacza, że mogą planować i dopasowywać swoje wakacje tak bardzo, jak możliwy z góry. Dodaje także magii doznania dla dzieci, gdy wszystkie ich ulubione postacie wiedzą, kim są. (Dla tych, którzy obawiają się, że jest to nieco przerażające, rodzice muszą wyrazić zgodę, aby umożliwić postaciom korzystanie z osobistych informacji z bransoletek). Chłodne funkcje dodatkowe jeszcze bardziej zwiększają możliwości, takie jak PhotoPass, który łączy zdjęcia z jazdy z konkretnymi gośćmi za pośrednictwem ich nadgarstek - tak, aby głupkowate zdjęcie krzyczące na rollercoasterze mogło zostać automatycznie przesłane na twoje konto PhotoPass bez konieczności robienia czegokolwiek. Ponadto, korzystając z bezpłatnego Wi-Fi w całym kurorcie Orlando, zachęcamy gości do korzystania ze smartfonów do dokonywania rezerwacji jazdy podczas pobytu na miejscu, dzięki czemu można przeanalizować jeszcze więcej danych, które Disney może wykorzystać.
Jakie były wyniki?
Nie jest jasne, czy Disney już zbiera dane do wglądu, czy po prostu zbiera je do przyszłych analiz. Tak czy inaczej, oczywiste jest to, że są to niezwykle cenne dane, które mogą pomóc Disneyowi w podejmowaniu decyzji i poprawie płynnego funkcjonowania ich ośrodków. Co ważne, jak wynika z kilku recenzji w prasie, zespoły już teraz okazują ogromny sukces rodzinom. Ponieważ projekt zaczyna się tak mocno, możemy spodziewać się, że Disney wypuści MagicBands do innych ośrodków na całym świecie w niedalekiej przyszłości.
Jakie dane zostały użyte?
MagicBand śledzi każdy ruch, jaki odwiedzający wykonują wokół parku. Zespół jest wyposażony w technologię radiową, która działa zarówno na dalekim zasięgu (około 40 stóp), jak i na krótkim zasięgu (np. Gdy goście muszą "dotknąć" pasm, tak jak w pokoju gościnnym).
Jakie są szczegóły techniczne?
Platforma Big Data firmy Disney opiera się na Hadoop, Cassandrze i MongoDB.
Wszelkie wyzwania, które trzeba pokonać?
Ten projekt wymagał znacznej inwestycji finansowej ze strony Disneya. Na początek, bezpłatny Wi-Fi musiał być zainstalowany w całym kurorcie Orlando, który na 40 mil kwadratowych był niemałym wyczynem. Ponadto 60 000 pracowników parku musiało zostać przeszkolonych w zakresie korzystania z systemu MyMagic +, który obsługuje technologię MagicBand. Szacunki sugerują, że program kosztuje około 800 milionów dolarów. Jednak, oczywiście, Disney spodziewa się, że inwestycja się opłaci w postaci szczegółowych informacji i poprawy doświadczenia klientów. Ponadto, przy tak dużej ilości danych osobowych, bezpieczeństwo danych zawsze będzie ważnym czynnikiem, a to jest coś, co Disney traktuje bardzo poważnie. Przemawiając w The New IP w 2015 roku, Juan Gorricho, senior Disneya Kierownik ds. wywiadu gospodarczego i analityki przyznał: "Jako firma mamy bardzo wysokie standardy w zakresie tego, w jaki sposób chronimy dane, gdzie są przechowywane, kto ma do nich dostęp. Jak każda korporacja, mamy dyrektora ds. Bezpieczeństwa informacji i całą sekcję organizacji poświęconą bezpieczeństwu informacji - to wszystko są standardowe rzeczy, które każda firma
powinna mieć i których szuka, ponieważ to nie tylko dane są ważne, ale infrastruktura sieciowa, która jest chroniona … Myślę, że jesteśmy wyjątkowo konserwatywni, aby upewnić się, że nie niszczymy tego zaufania z gościem. "1 Firma jest również ostrożna, aby umożliwić gościom taką kontrolę nad ich danymi, jak to możliwe, na przykład przez prosząc rodziców, aby zdecydowali, czy postacie mogą wykorzystywać dane osobowe swoich dzieci.
Jakie są kluczowe punkty nauki i wyniki?
To studium przypadku pokazuje, jak Internet Rzeczy dotyka teraz wszystkich aspektów naszego życia, nawet naszych wakacji. Nie jest bezzasadne wyobrażać sobie, że w przyszłości wiele światowych parków rozrywki, kurortów, a nawet dużych hoteli będzie używać tej technologii nadgarstków do gromadzenia informacji, aby poprawić wrażenia klientów. Uważam jednak, że nacisk zawsze musi być na aktywne wykorzystywanie tych danych w pozytywny sposób, a nie tylko gromadzenie danych w górach dla dobra tego. Projekt Disneya Big Data jeszcze się wcześnie rozpoczął, a my musimy jeszcze dokładnie dowiedzieć się, jak wykorzystają dane, ale ich nacisk na zaufanie klientów i indywidualną kontrolę nad niektórymi aspektami ich danych jest dobrym znakiem.
Używanie Big Data do podejmowania decyzji kredytowych i rozbijania oszustw tożsamościowych
TŁO
Experian jest najbardziej znany z dostarczania referencji kredytowych, wykorzystywanych przez banki i firmy świadczące usługi finansowe do oceny ryzyka przy podejmowaniu decyzji o pożyczaniu pieniędzy. Zapewniają także szereg innych usług opartych na gromadzonych danych, takich jak oszustwa i ochrona przed kradzieżą tożsamości. Niedawno dodali specjalistyczne usługi oparte na analizie danych, mające na celu pomoc klientom biznesowym w handlu samochodami, ubezpieczeniach zdrowotnych i małych firmach.
Jaki problem pomaga rozwiązać Big Data?
Banki i firmy ubezpieczeniowe grają w grę losową, gdy pożyczają pieniądze lub oferują ubezpieczenie: muszą mieć pewność, że ich klient może pozwolić sobie na spłatę, wraz z odsetkami, lub że wartość składek pokryje wydatki poniesione na ich wypłatę. roszczenia. Co więcej, cyberoszustwa i kradzieże tożsamości to rosnące problemy, ponieważ coraz więcej transakcji finansowych odbywa się w Internecie, a klienci używający portali bankowości internetowej do zarządzania swoimi kontami. Badania własne Experiana wykazały, że choć pięć lat temu oszustwa internetowe były głównie problemem dla bogatych, dziś wszystkie sektory społeczeństwa są atakowane przez coraz bardziej wyrafinowanych hakerów i oszustów.
W jaki sposób wykorzystywane są Big Data w praktyce?
Experian posiada około 30 petabajtów danych o ludziach na całym świecie w bazie danych biura informacji kredytowej, która obecnie rośnie w tempie 20% rocznie. Dane te służą do budowania szczegółowego obrazu konsumentów i firm. Oprócz posiadania szczegółowych danych o osobach, takich jak historia kredytowa i dane demograficzne, takie jak wiek, lokalizacja i status dochodów, Experian grupuje je w jeden z 67 typów i 15 grup, wykorzystując ich "społeczno-demograficzne". wyjaśnienie "narzędzie mozaiki. Te grupy to "miejski chłód", odnoszący sukcesy mieszkańcy miast posiadający lub wynajmujący drogie apartamenty w modnych lokalizacjach miejskich; "Profesjonalne nagrody", doświadczeni profesjonaliści z udaną karierą, mieszkający w warunkach finansowych na
obszarach wiejskich lub pół-wiejskich; i "globalną fuzją", młodych ludzi pracy na wielkomiejskich tarasach o różnym pochodzeniu etnicznym. Dane te są wykorzystywane do segmentacji klientów w celach marketingowych, a także do oceny zdolności kredytowej i ubezpieczalności. Experian oferuje swoje usługi firmom finansowym w celu zapobiegania oszustwom poprzez dopasowanie transakcji przychodzących do ich modelu przewidywania nadużyć finansowych, który monitoruje 282 atrybuty - takie jak wartość transakcji, położenie geograficzne zaangażowanych osób i ich wcześniejsze zachowanie - w celu oferowania wykrywania oszustw w czasie rzeczywistym. Jeśli transakcja ma podobny profil do poprzednich transakcji, o których wiadomo, że jest nieuczciwa, może zostać zgłoszona do ręcznego sprawdzenia lub interwencji w czasie rzeczywistym. Świadczą również usługi 10 000 organizacji opieki zdrowotnej w samych Stanach Zjednoczonych, w tym 2900 szpitali, pomagając im ocenić roszczenia zdrowotne, a także uzyskać wgląd w sytuację finansową swoich pacjentów i ustalić przystępne plany płatności. Wreszcie, ich usługi skierowane do nabywców używanych samochodów pobierają dane z krajowych baz danych dotyczących handlu pojazdami, firm ubezpieczeniowych i rządowych agencji regulacyjnych w celu dostarczenia informacji, takich jak to, czy pojazd był w kolizji lub ma inne problemy, na przykład uszkodzenia konstrukcji lub rozbieżności w przebiegu pojazdu. licznik kilometrów.
Jakie były wyniki?
Experian powiedział, że integrując analizę danych w całej swojej działalności i traktując wszystkie swoje dane jako scentralizowaną pulę, a nie jako oddzielne, posegregowane zasoby, umożliwiają one większej liczbie osób kupowanie domów, rozszerzanie działalności i efektywne zarządzanie swoimi finansami. .
Jakie dane zostały użyte?
Experian zbiera dane o osobach od pożyczkodawców, które podają szczegóły dotyczące tego, ile ludzie pożyczają i czy dokonują spłat, a także linki między adresami, które ludzie przenieśli z miejsca i do nich, i aliasy - kiedy ludzie zmienili nazwę, na którą się znajdują. znany. Gromadzą również duże ilości danych z publicznych rejestrów, takich jak pocztowe bazy danych, wybory rejestry, rejestry sądów okręgowych, rejestry narodzin i zgonów (w celu ustalenia, czy doszło do oszustwa w imieniu osoby zmarłej) oraz krajowe usługi zapobiegania nadużyciom finansowym, takie jak brytyjski system CIFAS.
Jakie są szczegóły techniczne?
Experian udostępnia swoją 30-petabajtową referencyjną bazę danych dla klientów na bezpiecznym klastrze obliczeniowym opartym na systemie Linux, zbudowanym wokół architektury Hadoop. MapR Hadoop jest wykorzystywany do rozproszonego przechowywania, a rdzenie serwerów również przyczyniają się do zwiększenia mocy obliczeniowej w kierunku operacji analitycznych - niezbędnych do przetwarzania dużej ilości danych o wysokiej przepustowości wymaganego do świadczenia usług w czasie zbliżonym do rzeczywistego. Inne technologie, które można wykorzystać, to Apache Hive i narzędzie do wizualizacji danych Tableau, które zapewnia graficzną informację zwrotną dla analityków.
Wszelkie wyzwania, które trzeba pokonać?
Sporządzenie profilu osób, które mogły być celem, było postrzegane jako klucz do identyfikacji i zapobiegania oszustwom w przeprowadzaniu ich operacji. Aby to zrobić, Experian włożył dane z ich mozaikowego narzędzia socjodemograficznego do profilowania w brytyjskiej krajowej bazie danych o oszustwach, pokazując, gdzie i kiedy podjęto oszukańcze próby oddzielenia ludzi od ich ciężko zarobionych pieniędzy. Od razu okazało się, że daleko od kradzieży tożsamości i oszustw internetowych będących problemem dla bogatych, oszuści byli nastawieni na znacznie mniej bezpieczne finansowo
przy równie wysokiej stawce. Doprowadziło to do fundamentalnej ponownej oceny sposobu, w jaki inicjatywy zapobiegania nadużyciom są stosowane przez banki, ubezpieczycieli i inne instytucje finansowe. Zamiast nadawać priorytet monitorowaniu transakcji biznesowych o dużej wartości, większość analityki i kontroli jest teraz stosowana do zwykłych, niewielkich, codziennych transakcji, które wcześniej mogły prześlizgnąć się przez sieć.
Jakie są kluczowe punkty nauki i wnioski?
Chociaż istnieje wiele nieporozumień co do roli agencji kredytowych - nie na przykład, jak wielu uważa, "czarną listę" ludzi, którzy uważają, że nie zasługują na kredyt - mają ważną rolę do odegrania w zapewnieniu skutecznego kredytowania ubezpieczenie może mieć miejsce. Im więcej danych jest dostępnych, aby im w tym pomóc, tym lepsza (teoretycznie) dla nas sytuacja - utrata mniejszych pieniędzy na złe długi lub błędnie skalkulowane ryzyko ubezpieczeniowe, nieuchronnie prowadzi do wyższych składek i droższego kredytu dla nas wszystkich. Cyberprzestępczość nie jest już tylko problemem dla bogatych i bogatych. Oszuści i oszuści przekonywali się, że systemy bezpieczeństwa są zasadniczo nastawione na wykrywanie kradzieży na dużą skalę, a mniej ryzykowną drogą jest próba popełnienia wielu drobniejszych przestępstw. Dostawcy usług zabezpieczających dostosowują się do tego i przenoszą uwagę na monitorowanie mniejszych transakcji.
Jak Big Data są wykorzystywane do poprawy i zarządzania transportem publicznym w Londynie
TŁO
Transport for London (TfL) nadzoruje sieć autobusów, pociągów, taksówek, dróg, wypożyczalni rowerów, ścieżek rowerowych, ścieżek, a nawet promów, z których codziennie korzystają miliony. Prowadzenie tych rozległych sieci, tak ważnych dla życia wielu ludzi w jednym z najbardziej ruchliwych miast na świecie, daje TfL dostęp do ogromnych ilości danych - a firma w dużym stopniu wykorzystuje analitykę Big Data.
Jaki problem pomaga rozwiązać Big Data?
Lauren Sager Weinstein, szef działu analiz w TfL, zauważa: "Londyn rośnie w fenomenalnym tempie. Liczba ludności wynosi obecnie 8,6 miliona i oczekuje się, że bardzo szybko wzrośnie do 10 milionów. Musimy zrozumieć, jak [klienci] zachowują się i jak zarządzać swoimi potrzebami transportowymi. "Mając to na uwadze, TfL ma dwa priorytety w zakresie gromadzenia i analizy danych: planowania usług i dostarczania informacji klientom. Sager Weinstein wyjaśnia: "Pasażerowie chcą od nas dobrych usług i wartości za pieniądze, i chcą, abyśmy byli innowacyjni i postępowi, aby sprostać tym potrzebom".
W jaki sposób wykorzystywane są Big Data w praktyce?
TfL wykorzystuje analitykę Big Data na trzy główne sposoby: mapowanie podróży klientów, zarządzanie nieoczekiwanymi zdarzeniami i dostarczanie spersonalizowanych informacji o podróżach. Spójrzmy na każdy obszar po kolei. Wprowadzenie systemu biletowego Oyster Smartcard w 2003 roku umożliwiło zgromadzenie ogromnej ilości danych na temat dokładnych podróży, które są realizowane. Pasażerowie doładowują karty za pieniądze lub kupują bilet okresowy, a następnie trzymają ich w kontakcie z punktem dotykowym, aby uzyskać dostęp do autobusów i pociągów. W 2014 r. TfL był pierwszym dostawcą usług transportu publicznego, który akceptował zbliżeniowe karty płatnicze do podróży, a teraz klienci mają alternatywę bez konieczności przygotowania się do karty Oyster, gdzie
mogą po prostu dotknąć i podróżować bezstykową kartą kredytową. Oyster i bezdotykowe systemy biletowe generują 19 milionów kranów każdego dnia, który można wykorzystać do analizy. Dane te są anonimowe i wykorzystywane do zrozumienia, kiedy i gdzie podróżują ludzie. Daje to TfL znacznie dokładniejszy ogólny obraz i umożliwia bardziej szczegółową analizę na poziomie pojedynczych przejazdów, niż było to możliwe wcześniej. Ponieważ znaczna część podróży do Londynu obejmuje więcej niż jedną metodę transportu (np. Podróż lądową i podziemną), ten poziom analizy nie był możliwy w dniach, w których kupowano bilety z różnych usług, z biletami papierowymi, dla każdego etapu podróży. podróż. Analiza Big Data pomaga również TfL reagować na pojawiające się zakłócenia. Gdy wydarzy się coś nieoczekiwanego, na przykład, jeśli na usługi TfL wpłynie sygnał awarii, firma może zmierzyć, ile osób jest opóźnionych, aby klienci mogli ubiegać się o zwrot pieniędzy. Kiedy zakłócenie jest szczególnie dotkliwe, TfL może automatycznie wypłacić refundację dotkniętym kliencie. Klienci podróżujący z kartą płatniczą zbliżeniową otrzymają automatycznie swoją podróż na swoje konto. A dla klientów Oyster, TfL przewidzieć, gdzie klient będzie podróżował dalej, tak aby zwrot pieniędzy czekał na stacji do załadowania na kartach klientów przy następnym podróżowaniu. W przypadku planowanych długoterminowych zakłóceń TfL wykorzystuje wzorce historyczne, aby ocenić, dokąd klienci zmierzają i planować alternatywne usługi, aby sprostać temu zapotrzebowaniu. Mogą również poinformować swoich klientów o tym, w jaki sposób wpłyną na nich spersonalizowane aktualizacje. To spersonalizowane podejście do informacji o podróżach to kolejny kluczowy akcent dla firmy. Dane podróży są również wykorzystywane do identyfikacji klientów, którzy regularnie korzystają z określonych tras i wysyłają im dostosowane do nich aktualizacje podróży. "Jeśli wiemy, że klient często korzysta z konkretnej stacji, możemy uwzględnić informacje o zmianach usług na tej stacji w ich aktualizacjach. Rozumiemy, że ludzie otrzymują wiele e-maili w tych dniach, więc zbyt wiele może być przytłaczająca. Skupiamy się na wysyłaniu konkretnych i istotnych informacji naszym klientom "- mówi Sager Weinstein.
Jakie były wyniki?
TfL ma wyraźniejszy obraz niż kiedykolwiek wcześniej, jak ludzie poruszają się po systemie transportu w Londynie, aż do indywidualnych podróży. To pozwala im zrozumieć profile obciążenia (jak zatłoczony jest konkretny autobus lub zasięg autobusów w określonym czasie), planować przesiadki, minimalizować czas przejścia i planować inne usługi, takie jak oferta detaliczna TfL na stacjach W skrócie, dane pomagają TfL zapewnić lepszą obsługę klientów. Sager Weinstein przytacza przykład, w którym Rada Wandsworth została zmuszona do zamknięcia Putney Bridge - gdzie autobusy przejeżdżały ponad 110 000 przejazdów przez most przez tydzień - w przypadku nagłych napraw. "Udało nam się ustalić, że połowa podróży rozpoczęła się lub zakończyła bardzo blisko Putney Bridge. Most był nadal otwarty dla pieszych i rowerzystów, wiedzieliśmy więc, że ci ludzie będą mogli przejść i dotrzeć do celu lub kontynuować podróż po drugiej stronie. Albo mieszkali lokalnie, albo ich cel był lokalny. Druga połowa przechodziła przez most w połowie drogi. W celu zaspokojenia ich potrzeb byliśmy w stanie stworzyć węzeł transportowy i zwiększyć usługi autobusowe na alternatywnych trasach. Wysłaliśmy także spersonalizowane wiadomości do wszystkich osób podróżujących po okolicy, w jaki sposób wpłynęło to na ich podróż. "Spersonalizowane e-maile dotyczące podróży okazały się szczególnie pomocne, ponieważ 83% pasażerów oceniło tę usługę jako" użyteczną "lub" bardzo przydatną ". Nieźle, gdy uważasz, że narzekanie na stan transportu publicznego jest uważane za hobby przez wielu Brytyjczyków!
Jakie dane zostały użyte?
Firma korzysta z szeregu danych zebranych za pośrednictwem systemów biletowych, czujników przymocowanych do pojazdów i sygnałów drogowych, ankiet i grup fokusowych oraz, oczywiście, mediów społecznościowych. "Wykorzystujemy informacje z systemów back-office do przetwarzania
płatności zbliżeniowych, a także Oyster, lokalizacji pociągu i danych o sygnalizacji świetlnej, wypożyczeniu roweru i opłatach za przekroczenie linii", mówi Sager Weinstein. Oni też biorą informacje o specjalnych wydarzeniach, takich jak Mistrzostwa Świata w Rugby i imprezy kolarskie, na przykład podczas Tour de France, które przeszły przez Londyn, aby umożliwić identyfikację i powiadomienie osób, które mogą być dotknięte.
Jakie są szczegóły techniczne?
Systemy TfL działają na różnych starszych platformach transakcyjnych, a także na najnowocześniejszych systemach technologicznych wdrażanych w momencie dostarczania nowych zasobów. A zintegrowanie najnowocześniejszych strategii gromadzenia danych ze starszymi systemami nigdy nie jest łatwe w mieście, w którym system transportu publicznego działał od 1829 roku. TfL musiało zatem dokładnie zaplanować, jak najlepiej zintegrować różnorodne dane źródła razem. W projektach technologicznych zawsze istnieje ryzyko, że wyzwania związane z integracją systemów spowalniają pierwotne czynniki biznesowe, a projekty mogą szybko stać się niewygodne w dostarczaniu. Dlatego TfL podjęło bardzo praktyczne podejście do budowy hurtowni danych klientów. TfL przetestował korzyści biznesowe wynikające z podejścia Big Data, zanim zbudował nowe oprogramowanie i narzędzia systemowe. Rozpoczęli od analizy SQL na małym obszarze raportowania systemu transakcyjnego używanego do zbierania dochodów. I możliwość takiej ekscytującej i użytecznej analizy, reszta firmy pochłonęła analizę i zażądała więcej. Firma TfL zdecydowała się zainwestować w narzędzie do równoległego hurtowni danych, które oferuje również najnowocześniejsze usługi analityczne o otwartym kodzie źródłowym. Platforma analityczna zapewnia TFL 150 terabajtów przestrzeni dla pakietu raportowania analizy biznesowej, a także obszar kojec do testowania nowych narzędzi danych i algorytmy za pomocą testów "proof of concept" (POC) dostarczanych przez zwinny proces opracowywania oprogramowania. Po ocenieniu POC-ów, jeśli przyniosą korzyści biznesowe, zostaną uprzemysłowione w rdzeń operacyjnie obsługiwanej hurtowni danych. Plany przyszłego rozwoju obejmują zwiększenie. Możliwość analizowania w czasie rzeczywistym i pracy nad integracją jeszcze szerszego zakresu źródeł danych, w celu lepszego planowania usług i informowania klientów.
Wszelkie wyzwania, które trzeba pokonać?
W londyńskim metrze (czyli metrze) pasażerowie są przyzwyczajeni do "dotykania i wysiadania" - bilety są zatwierdzane (automatyczne bariery) na początku i na końcu podróży. Dzieje się tak dlatego, że opłaty są naliczane na podstawie stref. Jednak w autobusach obowiązuje taryfa ulgowa, więc pasażerowie muszą tylko dotknąć. Nie ma mechanizmu zapisu, w którym pasażer opuszcza autobus, ponieważ opłata za przejazd nie zależy od przebytej odległości. "To było dla nas wyzwanie, jeśli chodzi o śledzenie podróży klientów", mówi Sager Weinstein. Tak więc TfL współpracowało z MIT, jedną z instytucji akademickich, z którą mają partnerstwo badawcze, aby opracować rozwiązanie Big Data. "Chcieliśmy wiedzieć, czy możemy użyć Big Data do odpowiedzi na nieznane wcześniej pytania. Mieliśmy dane dotyczące podróży, aby pokazać, gdzie klienci się dostali, więc musieliśmy zacząć od tego i wypełnić puste miejsca. Zapytaliśmy: "Czy możemy wykorzystać Big Data, aby wywnioskować, gdzie ktoś wyszedł?" Wiemy, gdzie jest autobus, ponieważ Posiadamy dane o lokalizacji i mamy dane Oyster dla naszych klientów ", mówi Sager Weinstein. "To, co robimy, to spojrzenie na rekord podróży anonimizowanego klienta, aby zobaczyć, gdzie jest następny dotyk. Jeśli zobaczymy, że następny dotyk następuje krótko po i jest na wejściu do stacji metra, wiemy, że mamy do czynienia z jedną multimodalną podróżą autobusem i metrem
Jakie są kluczowe punkty nauki i wnioski?
Big Data wyraźnie odegrała dużą rolę w ponownym zasilaniu londyńskiej sieci transportowej. Ale, co istotne, jasne jest, że został on wdrożony w inteligentny sposób, z myślą o wygranej. "Jednym z najważniejszych pytań jest zawsze:" Dlaczego zadajemy te pytania? "Wyjaśnia Sager Weinstein. Ważne jest, aby zdawać sobie sprawę, że czasami wgląd uzyskany z analityki Big Data jest tylko "interesujący do poznania". Ważne jest, aby znaleźć uzasadnienie biznesowe. Weinstein powiedział: "Zawsze staramy się wracać do większych pytań - wzrost w Londynie i w jaki sposób możemy sprostać temu zapotrzebowaniu - zarządzając siecią i infrastrukturą tak skutecznie, jak to tylko możliwe. "Zrozumienie, co chcesz osiągnąć, jest kluczem do pomyślnego wykorzystania danych. Zbyt łatwo jest rozproszyć uwagę ogromnymi możliwościami Big Data, więc to pomaga utrzymać silną koncentrację na swoich unikalnych celach i wyzwaniach i skup się na dostępie do danych, które pomagają im sprostać
Używanie Big Data do prowadzenia kraju
TŁO
Po zainwestowaniu 200 milionów dolarów w analitykę danych i zobowiązaniu się do udostępnienia społeczeństwu jak największej liczby danych zgromadzonych przez rząd, Barack Obama został nazwany "The Big Data President" przez The Washington Post. Nie wszystkie prace administracji Obamy związane z gromadzeniem i analizą danych (zazwyczaj nasze dane ...) zostały oczywiście dobrze przyjęte. Prezydentura Obamy przejdzie do historii jako punkt, w którym po raz pierwszy zaczęliśmy zdawać sobie sprawę z skali tajnej inwigilacji przeprowadzanej przeciwko ludności krajowej, dzięki Edwardowi Snowdenowi i WikiLeaks. Administracja poczyniła pewne kroki ku przejrzystości, takie jak budowanie publicznego portalu data.gov, za pomocą którego obiecali udostępnić zgromadzone dane wszystkim. Na dobre i na złe, prezydentura Obamy zbiegła się z ogromną eksplozją gromadzenia danych, przechowywania i analizy, którą nazywamy Big Data - a jego administracja była jasna, że chce ich części akcji.
Jaki problem pomaga rozwiązać Big Data?
Administrowanie wiodącą potęgą gospodarczą na świecie i jej populacją liczącą ponad 300 milionów osób wymaga ogromnego nakładu pracy i zasobów. Rząd federalny odpowiada za bezpieczeństwo narodowe, bezpieczeństwo ekonomiczne, opiekę zdrowotną, egzekwowanie prawa, odtwarzanie po katastrofach, produkcję żywności, edukację i prawie każdy inny aspekt życia ich obywateli. Obowiązki te były zawsze podzielone między wiele dalekosiężnych organów administracji - każda z nich tradycyjnie zbierała swoje własne odpowiednie dane w sposób, jaki uzna za stosowne, i odfiltrował je w odosobnieniu. Wnioski o udostępnienie danych między oddziałami rządowymi często wymagałyby czasu i pogrążały się w biurokracji i biurokracji - z pewnością nie jest to środowisko sprzyjające superszybkiej analityce i kompleksowym technikom monitorowania danych, które zrewolucjonizowały sektor prywatny. Wcześniej w tym roku , rząd Stanów Zjednoczonych wyznaczył pierwszego w kraju głównego naukowca ds. danych: D.J. Patila, a przed podjęciem pracy był zatrudniony w Departamencie Obrony, gdzie analizował media społecznościowe próbujące wykrywać zagrożenia terrorystyczne. Zajmował także stanowiska na LinkedIn, Skype, PayPal i eBay.
W jaki sposób wykorzystywane są Big Data w praktyce?
Rząd Stanów Zjednoczonych zainicjował wiele strategii opartych na danych wśród swoich licznych działów i agencji, z których każda jest zgodna z zakresem tej konkretnej branży. Należą do nich sieci
skanerów automatycznego rozpoznawania tablic rejestracyjnych (ALPR) oraz monitory śledzące przepływ pasażerów samochodów, pociągów i pasażerów samolotów, aby określić, gdzie potrzebne są inwestycje w infrastrukturę. ALPR jest również wykorzystywany przez organy ścigania do przewidywania i śledzenia przemieszczania się przestępców kraju, a także podejrzanych o terroryzm. Technologie predykcyjne są również wykorzystywane przez organy ścigania w celu przewidywania "gorących punktów", w których prawdopodobny jest wzrost liczby awarii i przydzielanie zasobów zgodnie z priorytetem. W edukacji, ponieważ coraz więcej nauki w szkołach i szkołach odbywa się w trybie online, organy odpowiedzialne za ustalanie polityki edukacyjnej mogą lepiej zrozumieć, w jaki sposób ludzie się uczą, a także ocenić poziom wykształcenia i umiejętności wśród ludności w określonym regionie geograficznym. obszar, ponownie umożliwiając bardziej wydajne planowanie i wdrażanie zasobów. W opiece zdrowotnej analiza centrów danych w mediach społecznościowych jest wykorzystywana przez Centers for Disease Control (CDC) w celu śledzenia rozprzestrzeniania się epidemii i innych zagrożeń dla zdrowia publicznego. A National Institutes of Health uruchomił projekt Big Data to Knowledge (BD2K) w 2012 roku, aby wspierać innowacje w opiece zdrowotnej poprzez analitykę danych. Oprócz tego Departament Rolnictwa prowadzi badania i analizy naukowe dotyczące rolnictwa i produkcji żywności, w oparciu o Big Data zgromadzone na polach i farmach. Produkcja mleczna stad mlecznych w Stanach Zjednoczonych została poprawiona dzięki pracom nad identyfikacją byków, które najprawdopodobniej będą hodować rośliny wysoko wydajne krowy, poprzez ich zapisy genetyczne. CIA była częściowo odpowiedzialna, poprzez inwestycje, za wzrost liczby predykcyjnych specjalistów bezpieczeństwa, Palantir, którzy używają algorytmów danych predykcyjnych do zwalczania międzynarodowego i krajowego terroryzmu i oszustw finansowych.
Jakie były wyniki?
W zeszłym roku grupa urzędników Białego Domu wyznaczona do przeprowadzenia trzymiesięcznej oceny wpływu szeroko rozpowszechnionych technologii i strategii Big Data donosiła: "Podczas gdy Big Data niewątpliwie zwiększa potencjał władzy rządowej do gromadzenia niezatwierdzonych, to również zawiera w sobie rozwiązania, które mogą zwiększyć rozliczalność, prywatność i prawa obywateli. "Po dokładnym przeglądzie metodologii, obecnie albo przyjętych lub planowanych, doszli do wniosku:" Narzędzia Big Data oferują zadziwiające i potężne możliwości odblokowania wcześniej niedostępnych wglądów z nowych i istniejących zestawów danych . "Big Data może napędzać rozwój i odkrycia w dziedzinie opieki zdrowotnej i edukacji, w rolnictwie i wykorzystaniu energii, a także w sposobie organizacji łańcuchów dostaw i monitorowania ich urządzeń. Big Data ma potencjał, by usprawnić świadczenie usług publicznych, zwiększyć efektywne wykorzystanie pieniędzy podatników na każdym szczeblu rządu i znacznie wzmocnić bezpieczeństwo narodowe. "W 2014 r. Zgłoszono, że system zapobiegania oszustwom stosowany przez administratorów usług Medicare i Medicaid uniemożliwili 820 milionom dolarów dokonywanie nieuczciwych płatności od czasu wprowadzenia ich trzy lata wcześniej.
Jakie dane zostały użyte?
Rząd USA monitoruje, gromadzi i analizuje ogromną liczbę i różnorodność danych, zarówno za pośrednictwem własnych agencji, takich jak Food and Drug Administration, CDC i lokalne, powiatowe i organów ścigania, a także z szerokiej gamy partnerów zewnętrznych. Obejmuje to dane klimatyczne i meteorologiczne, dane dotyczące produkcji żywności z rolnictwa, statystyki dotyczące przestępczości i zagrożenia bezpieczeństwa ze strony departamentów policji i agencji federalnych, dane dotyczące przemieszczania ludności z sieci kamer i badania demograficzne (tj. US Census), dane ekonomiczne z rejestrów przedsiębiorstw publicznych i działalności na rynku giełdowym, przepływ osób i towarów do iz kraju poprzez migracje i dane import / eksport, wzorce dystrybucji i wykorzystania energii, zebrane dane naukowe poprzez federalne ośrodki badań i rozwoju, dane epidemiologiczne dotyczące śledzenia
rozprzestrzeniania się choroby i bakterie powodujące choroby i informacje związane ze skutkami zmian klimatycznych za pośrednictwem Inicjatywy na rzecz danych klimatycznych. Ogromne ilości tych danych są udostępniane za pośrednictwem zestawu interfejsów API opublikowanych na stronie data.gov, dzięki czemu można je udostępniać zarówno działom, jak i innowatorom z sektora prywatnego oraz organizacjom pozarządowym, które mogą uzyskać wgląd w te informacje.
Jakie są szczegóły techniczne?
Data.gov - portal internetowy, w którym zgodnie z dekretem rządowym (dyrektywa otwartego rządu z 2009 r.) Wszystkie agencje muszą udostępnić swoje dane, zwiększył się z 49 zestawów danych po uruchomieniu do blisko 190 000 zestawów danych. Najwięksi indywidualni płatnicy to NASA (31 000 zestawów danych), Departament Spraw Wewnętrznych (31 000) i Departament Handlu (63 000). Otwarte oprogramowanie WordPress i CKAN są używane do budowania i utrzymywania interfejsu, który udostępnia dane publicznie.
Wszelkie wyzwania, które trzeba pokonać?
Bez wątpienia największym pojedynczym wyzwaniem stojącym przed rządem USA w ich misji zbierania i analizowania danych było zaufanie publiczne. Sprawa jest zdecydowanie polityczna - wyzwanie, które oznaczało, że wady i zalety wszelkich prac związanych z gromadzeniem danych muszą zostać starannie rozważone, a wpływ, jaki będą one miały na społeczną percepcję administracji, wzięto pod uwagę. Od czasu Snowdena występowały powszechne apele z obu krańców spektrum politycznego o większą przejrzystość w zbieraniu danych rządowych - które, gdy są przeprowadzane bez wiedzy jego podmiotów, są powszechnie postrzegane jako "szpiegujące". Był to niewątpliwie bodziec dla inicjatywy Open Data Initiative Obamy, a także ciągłe starania o zwiększenie publicznego zrozumienia prac prowadzonych przez Patila i Biuro Polityki Naukowo-Technicznej. Raport 2014 do Biura Prezydenta zawiera również liczne ostrzeżenia w związku z niebezpieczeństwem, że administracja będzie postrzegana jako zbyt chętna do wtykania nosa w prywatne życie obywateli i wymienia szereg środków ostrożności, które można by podjąć, aby zapobiec temu, że stają się one zbyt problematyczne - wśród nich największą poprawą jest przejrzystość.
Jakie są kluczowe punkty nauki i wnioski?
Firma Big Data ma duży potencjał w zakresie zwiększania wydajności, która może poprawić jakość życia ludzi na całym świecie, dlatego tak ważne jest, aby rządy poradziły sobie z ich obsługą w sposób, który nie powoduje dyskomfortu ani podejrzeń wśród obywateli. Prywatność jest ogromną troską dla większości ludzi i można powiedzieć, że rządy przy władzy okazało się, że nie są całkowicie wiarygodni, jeśli chodzi o rozróżnienie między legalnym gromadzeniem danych a szpiegowaniem. Jest jednak jasne, że wiele rządów w ogóle, a w szczególności obecna administracja USA, doszły do wniosku, że potencjalne korzyści przewyższają potencjalny negatywny wpływ bycia widzianym przez ich wyborców jako "zbyt wścibski". Wynika to z faktu, że inwestycje w gromadzenie danych i analizy nadal zyskują na szybkości, a dzięki wspólnym wysiłkom podejmowanym przez polityków, aby zmniejszyć nasze obawy, wskazując na większą przejrzystość i odpowiedzialność.
Nauczanie komputerów, aby zrozumieć i uczyć się
TŁO
IBM jest dziadkiem świata komputerów. Ich powstanie nastąpiło dzięki wysiłkom na przełomie XIX i XX wieku, polegającym na użyciu maszyn do przetwarzania danych spisu powszechnego w USA. Doprowadziło to do narodzin komputerów opartych na tabelach i świtu wieku technologii informatycznych. W ciągu dziesięcioleci firma IBM nieustannie wprowadzała innowacje i ewoluowała, aby utrzymać pozycję lidera w branży. Najważniejsze zmiany - w tym rozwój systemów mainframe, mikroprocesorów, komputerów osobistych i pamięci magnetycznych - ukształtowały branżę w tę, którą znamy dzisiaj. Niedawno IBM wyszedł na pozycję głównego gracza na rynku Big Data i analityki. Watson, który po raz pierwszy zyskał sławę dzięki wygranej w telewizyjnym programie telewizyjnym Jeopardy! w 2011 roku jest wynikiem prac IBM nad rozwojem tego, co nazywają "przetwarzaniem kognitywnym". Wiceprezes IBM Watson, Steve Gold, powiedział mi, że projekt zwiastuje nadejście maszyn, które nie muszą być programowane: mogą się uczyć sami. System Watson i świadczona przez niego usługa Watson Analytics nosi imię założyciela firmy, Thomasa Watsona.
Jaki problem pomaga rozwiązać Big Data?
Do niedawna język był dużą przeszkodą między komputerami i ludźmi. Komputery są niezwykle szybkie w obliczeniach, a ich logika jest nieomylna. Są to dwie cechy, które czynią je ogromnie pomocnymi dla ludzi. Mogą jednak robić tylko to, co im mówimy, a tradycyjnie oznacza to przekazywanie zakodowanych instrukcji w języku programowania komputerowego. Oznacza to, że każdy, kto nie jest wystarczająco zaawansowany technicznie, aby stworzyć swój własny kod, musi użyć kodu napisane przez innych i mam nadzieję, że ktoś stworzył program, który robi to, co chce robić. Ponadto, komputery do tej pory tradycyjnie tylko wiedziały, co im powiedzieliśmy. Przekazujemy im informacje, które naszym zdaniem będą im potrzebne, aby rozwiązać problemy, które naszym zdaniem wymagają rozwiązania. Wprowadza to elementy ludzkiej omylności - musimy dokładnie wiedzieć, jakich informacji będą potrzebować, a także my dokładnie wiedzieć, jakie problemy wymagają rozwiązania. Teoretycznie komputery mogą "uczyć się" znacznie szybciej niż ludzie. Prześlij plik encyklopedię na swoich serwerach, a wszystkie informacje są gotowe do dostępu z szybkością i dokładnością daleko wykraczającą poza ludzkie możliwości. Analiza danych okazała się niezwykle cenna w wielu dziedzinach, od zapobiegania przestępczości po leczenie raka, jak opisano w innym miejscu tej książki. Ale komputery nie są tradycyjnie zdolne do samodzielnego uczenia się. Najpierw musimy to wyjaśnić i dać im algorytmy do naśladowania.
W jaki sposób wykorzystywane są Big Data w praktyce?
Połączony z Internetem i dostępny za pośrednictwem API, Watson w teorii ma zbiorowy zbiór danych ludzkości. Następnie wykorzystuje algorytmy opracowane w ramach dziedziny wiedzy zwanej uczeniem maszynowym, aby określić, jakich informacji potrzebuje i jakie są jej zadania. Z biegiem czasu i opinie na temat jego wydajności, staje się bardziej skuteczny w tym procesie, coraz bardziej zwracając bardziej dokładne rozwiązania. Watson jest stale aktualizowany, gdy są publikowane cenne informacje
- takie jak badania naukowe, oraz interakcje między Watsonem i jego użytkownikami są również analizowane, aby pomóc im uzyskać lepsze wyobrażenie o tym, czego powinna się nauczyć i jak może dostarczyć najlepszych odpowiedzi. Watson działa w sposób probabilistyczny: zadaj mu pytanie i zwróci serię prawdopodobnych odpowiedzi, uszeregowanych zgodnie z prawdopodobieństwem ich poprawności. Wiele zastosowań jest już dostępnych dla IBM i ponad 300 organizacji partnerskich, które już współpracują z Watsonem. Jednym z tych przypadków użycia jest poprawa opieki nad pacjentami chorymi na raka. Aby to zrobić, odczytuje rekordy pacjentów, badania opublikowane w czasopismach medycznych i danych farmaceutycznych, aby zaproponować najbardziej skuteczny sposób leczenia dla poszczególnych pacjentów. Przetwarzanie w języku naturalnym (NLP) jest podstawą Watson. Jak również rozumiejąc instrukcje i pytania w mówionym języku angielskim, uczy się rozumieć i pomagać użytkownikom, którzy wchodzą z nim w interakcje w innych językach. To dzięki partnerstwom z
międzynarodowymi firmami, w tym Softbank w Japonii i Mubadala na Bliskim Wschodzie. Oznacza to, że główna bariera między ludźmi a komputerami - bariera językowa - jest stopniowo demontowana.
Jakie były wyniki?
Pierwszym publicznym sukcesem Watsona było zwycięstwo w Jeopardy! gameshow w 2011 roku, pokonując Brada Ruttera i Kena Jenningsa. Jego zwycięstwo potwierdziło sukces systemu NLP, pokazując, że był on w stanie zrozumieć zadane w języku angielskim pytania na wystarczająco wysokim poziomie, aby wygrać grę. Dostarczył także dowodów na koncepcję analizy danych Watsona i technologii modelowania probabilistycznego. Chociaż Watson był podważany prawie każdym pytaniem ludzcy uczestnicy zostali poproszeni o rozwiązanie, jeden typ pytania został pominięty. Te były oparte na sygnałach dźwiękowych i wizualnych. W tym czasie Watson nie był skonfigurowany do obsługi tego typu nieustrukturyzowanych danych. Od tego czasu jest wykorzystywany w wielu głównych branżach, w tym w opiece zdrowotnej, marketingu, handlu detalicznym, finansach, gospodarce odpadami, zapobieganiu przestępczości i bezpieczeństwu. Nawet zabawki stają się coraz bardziej inteligentne i przydatne dzięki Watson - w tym robotowi dinozaurowi, który trafia do sklepów w niedalekiej przyszłości, zdolny do udzielania odpowiedzi na pytania zadawane przez dzieci. Jak również sprytny i zabawka edukacyjna, uważa się, że może mieć zastosowanie w rozpoznawaniu wczesnych oznak zaburzeń uczenia się lub zaburzeń rozwojowych, takich jak autyzm. Inna usługa, opracowana przez Watsona przez amerykańską firmę usług finansowych USA, ma na celu pomóc w przejściu do cywilnego życia żołnierzom, ucząc się o problemach, z jakimi będą musieli się zmierzyć i oferując wsparcie i porady.
Jakie dane zostały użyte?
Watson jest podłączony do Internetu i może trałować go w celu uzyskania informacji, aby odpowiedzieć na pytania lub pomóc w nauce. Ponadto jest szczególnie aktualizowany o szczególnie cenne informacje, takie jak nowo opublikowane encyklopedie, opracowania naukowe, artykuły prasowe i statystyki.
Jakie są szczegóły techniczne?
"Mózg" Watsona składa się z 90 serwerów IBM Power 750, z których każdy zawiera osiem rdzeni i ma w sumie 16 terabajtów pamięci RAM. Wykorzystuje to do zasilania silników analitycznych IBM DeepQA, działających w ramach open-source Apache Hadoop. Mówi się, że jest w stanie przetworzyć 500 gigabajtów informacji na sekundę.
Wszelkie wyzwania, które trzeba pokonać?
We wczesnym stadium rozwoju zespół IBM Watson zdał sobie sprawę, że ekspozycja na wiele sytuacji życiowych jest kluczem do jego umiejętności "uczenia się". Chociaż IBM to ogromna firma zatrudniająca pracowników na całym świecie, zazwyczaj przedstawiano im jedynie ograniczoną liczbę problemów do rozwiązania - związanych z biznesem IBM. Istniało niebezpieczeństwo, że może to stworzyć wąskie gardło w zdolności Watsona do nauki i doskonalenia się. Aby rozwiązać ten problem, IBM zaczął rozwijać partnerstwo z firmami z wielu różnych branż, w tym z opieki zdrowotnej, edukacji i finansów. Oznaczało to, że Watson stale stawiał czoła nowym wyzwaniom i uczył się radzić sobie z rosnącą liczbą problemów. Gold powiedział mi: "Nasi partnerzy byli bardzo kreatywni i bardzo innowacyjni w zakresie wykorzystywania kognitywnych obliczeń - od medycyny weterynaryjnej do zabawek dziecięcych, do ponownego zdefiniowania podróży do zakupów w sklepie. Wnoszą zdolności kognitywne na pierwszy plan - współpraca z organizacjami partnerskimi może przyspieszyć wejście na kluczowe rynki. "
Jakie są kluczowe punkty nauki i wnioski?
Komputery są w stanie zrobić o wiele więcej niż to, co im każemy. Biorąc pod uwagę ich szybkość i dokładność, mogą być także bardzo dobrzy w ustalaniu, co powinni robić, i są prawdopodobnie znacznie lepsi w wykrywaniu problemów i wynajdowaniu nowatorskich rozwiązań niż my. Bez wątpienia jesteśmy na początku epoki "samouka", a ta technologia oferuje niezwykły potencjał do napędzania zmian. Bariera językowa zawsze była przeszkodą, która uniemożliwiła nam korzystanie z technologii cyfrowej w jej pełnym potencjale, ale wraz z pojawieniem się niedrogiego przetwarzania języka naturalnego powinniśmy zacząć widzieć wszelkiego rodzaju ekscytujące nowości. rozwój sytuacji.
Jak duże są dane w sercu Google′a . Model biznesowy
TŁO
Bardziej niż jakakolwiek inna firma, Google jest prawdopodobnie odpowiedzialny za wprowadzenie nas w korzyści płynące z analizowania i interpretowania Big Data w naszym codziennym życiu. Gdy przeprowadzamy wyszukiwarkę Google, manipulujemy Big Data. Wielkość indeksu Google - jego archiwum każdej strony internetowej, którą można znaleźć, która jest używana do zwracania wyników wyszukiwania - szacowana jest na około 100 petabajtów (lub 100 milionów gigabajtów!) - z pewnością Big Data, według czyichkolwiek standardów. w ciągu ostatniej dekady widzieliśmy wszystkie informacje na ten temat Internet razem, aby ułatwić nam znajdowanie rzeczy, był tylko początkiem ich planu. Firma Google uruchomiła przeglądarki internetowe, systemy poczty elektronicznej, telefony komórkowe i największą na świecie sieć reklamową online - wszystkie mocno osadzone w technologii Big Data, dzięki której stały się powszechnie znane.
Jaki problem pomaga rozwiązać Big Data?
Internet to duże miejsce - od kiedy w latach 90. przeprowadziliśmy masową transmisję online, liczba ta rośnie w fenomenalnym tempie i nie wykazuje oznak spowolnienia. Sama wielkość jest problemem: kiedy mamy dostęp do praktycznie wszystkiego, co ktokolwiek kiedykolwiek znał, jak znaleźć to, czego potrzebujemy, aby pomóc nam rozwiązać nasze problemy? Nie tylko jest duży, Internet jest bardzo rozpowszechniony. Informacje są przesyłane do serwerów, które mogą być zlokalizowane w dowolnym miejscu na świecie, co oznacza, że każdy, kto chce przeglądać dostępne im dane, łączy się z komputerami, które czasami są ze sobą połączone tysiące kilometrów od siebie. Dostarczenie poszczególnym bitom konkretnych danych do użytkownika nie zajmuje dużo czasu, a szybkość przesyłania informacji po kablach miedzianych lub światłowodowych może wynosić zaledwie kilka sekund. Ale to zakłada, że użytkownik wie, gdzie dane znajdują się w pierwszej kolejności. Przeszukiwanie całego Internetu, nawet w przypadku bardzo prostej informacji, jeśli nie znasz dokładnego adresu IP komputera, na którym był przechowywany, zajmie bardzo, bardzo długo, jeśli nie masz indeksu. Mając miliardy stron informacji dostępnych w Internecie, budowanie indeksu nie jest proste. Potrzeba ludzkiej armii na wieczność, by wymyślić coś, co zbliży się do obszernej bazy danych zawartości Internetu. Musiało to być zrobione automatycznie - przez komputery. Wywołało to inny problem: w jaki sposób komputery miałyby wiedzieć, co jest dobrą informacją i jaki był bezsensowny hałas? Domyślnie komputery nie mogą tego samodzielnie określić: nie mają pojęcie różnicy między użytecznym a bezużytecznym, chyba że je nauczymy i, w każdym razie, to, co bezużyteczne dla jednej osoby, może być krytyczne dla innej osoby, aby rozwiązać ich problemy.
W jaki sposób wykorzystywane są Big Data w praktyce?
Google nie wymyślił koncepcji wyszukiwarki ani indeksu internetowego. Ale bardzo szybko po uruchomieniu w 1997 r. ustanowili go jako najlepszego przyjaciela - tytuł, który ma już prawie dwadzieścia lat. Koncepcja, która ustanowiła ją jako domową nazwę w każdym zakątku świata, podczas gdy jej wczesni konkurenci, tacy jak Alta Vista lub Ask Jeeves, są ledwo zapamiętywani, znany jest jako Google PageRank. (Google ma skłonność do tworzenia nowych nazw rzeczy, łącząc dwa słowa, ale zachowując oba słowa pisane wielką literą, jakby były jeszcze dwoma oddzielnymi słowami!) PageRank został opracowany przez założycieli Google Larry'ego Page'a i Sergeya Brina zanim założyli firmę, podczas badania na Uniwersytecie Stanforda. Zasada jest taka, że im więcej stron ma link do konkretnej strony, tym wyższy jest "autorytet" danej strony - jako że te strony łączące prawdopodobnie będą ją cytować w jakiś sposób. Google stworzył swoje pierwsze algorytmy wyszukiwania, aby przypisać każdą stronę w indeksie do rangi w oparciu o liczbę innych witryn używających podobnych słów kluczowych (i tak prawdopodobnie na ten sam temat lub temat) z nim powiązane, a z kolei, w jaki sposób "Autorytatywne" (silnie powiązane z) te strony łączące były same. Innymi słowy, jest to proces polegający na przekształceniu nieuporządkowanych danych (zawartości stron internetowych) w dane strukturalne potrzebne do ilościowego określenia tych informacji i uszeregowania ich pod względem przydatności. Google buduje swój indeks sieci wysyłając roboty programistyczne - często nazywane robotami lub pająkami - które zbierają cały tekst i inne informacje, takie jak obrazy lub dźwięki, zawarte na stronie internetowej i kopiują je do własnych rozległych archiwów Google - jego dane centra mają odpowiadać za 0,01% całej energii elektrycznej używanej na naszej planecie! Teraz wszystkie informacje przechowywane w jednym miejscu można przeszukiwać o wiele więcej szybko - zamiast włóczyć się po całym świecie, aby znaleźć dokumenty zawierające poszukiwane informacje, wszystko znajduje się pod jednym wielkim dachem. W połączeniu z PageRank i późniejszymi osiągnięciami, takimi jak Knowledge Graph (więcej na ten temat poniżej), dokłada wszelkich starań, aby dopasować nasze zapytanie do informacji, które uznamy za użyteczne.
Jakie były wyniki?
Google stanowi 89% całego wykorzystania wyszukiwania w Internecie. Pomiędzy nimi, najbliżsi konkurenci Yahoo, Bing i Baidu stanowili prawie wszystkie pozostałe 11%, w tej kolejności.
Jakie dane zostały użyte?
Google wykorzystuje dane z indeksu internetowego do początkowego dopasowania zapytań z potencjalnie przydatnymi wynikami. Jest to rozszerzone o dane z zaufanych źródeł i innych stron, które zostały uszeregowane pod kątem dokładności za pomocą algorytmów uczenia maszynowego zaprojektowanych w celu oceny wiarygodności danych. Ponadto Google miesza również informacje, które zna o wyszukiwarce - takie jak ich przeszła historia wyszukiwania i wszelkie informacje, które wprowadziły do profilu Google Plus, aby zapewnić osobisty kontakt z wynikami.
Jakie są szczegóły techniczne?
Podobno Google ma około 100 milionów gigabajtów informacji w swoim indeksie internetowym, obejmującym około 35 bilionów stron internetowych. Uważa się jednak, że stanowią one zaledwie 4% informacji w Internecie, a wiele z nich jest zablokowanych w sieciach prywatnych, w których roboty Google nie widzą. Jego serwery przetwarzają codziennie 20 petabajtów informacji, ponieważ odpowiadają na żądania wyszukiwania i wyświetlają reklamy w oparciu o profile, które buduje z nas. Systemy takie jak wyszukiwanie, mapy i YouTube, które umieszczają olbrzymie ilości danych Google na wyciągnięcie ręki, opierają się na własnej bazie danych i strukturze analizy o nazwie BigTable i
BigQuery. Niedawno firma udostępniła te technologie jako usługi chmurowe innym firmom, zgodnie z konkurentami, takimi jak Amazon i IBM.
Wszelkie wyzwania, które trzeba pokonać?
Google i inne wyszukiwarki tradycyjnie ograniczały swoją przydatność dla ludzi poprzez barierę językową między ludźmi i maszynami. Opracowaliśmy języki programowania oparte na koncepcji kodów, które możemy wprowadzić w przybliżeniu ludzkiego języka pomieszanego z matematyką, a komputer może przetłumaczyć (poprzez program zwany tłumaczem) na podstawowe 1 i 0 binarnych, logicznych język - jedyna rzecz, którą komputery mogą naprawdę "zrozumieć". To wszystko jest dobre i dobre, jeśli jesteś programistą komputerowym, ale celem Google od samego początku było umieszczanie światowych informacji na wyciągnięcie ręki wszystkich, nie tylko technicznie elitarnych. W tym celu przeszli do rozwoju technologii "wyszukiwania semantycznego" - która polega na uczeniu komputerów rozumieć słowa, które karmi się nie tylko jako pojedynczych obiektów, ale zbadać i zinterpretować związek między nimi. Google robi to, biorąc pod uwagę szeroki zakres innych informacji, gdy próbuje ustalić, co chcesz. Począwszy od 2007 roku firma wprowadziła Universal Search. Oznaczało to, że za każdym razem, gdy wprowadzano zapytanie, algorytmy wyszukiwania nie przeszukiwały indeksu internetowego pod kątem słów kluczowych związanych z wprowadzonymi przez Ciebie danymi. Przeszukiwał także obszerne bazy danych naukowych, danych historycznych, danych pogodowych, danych finansowych - i tak dalej - aby znaleźć odniesienia do tego, co według Ciebie oczekiwałeś. W 2012 r. Przekształciło się to w Graf wiedzy, który umożliwił stworzenie bazy danych zawierającej nie tylko fakty, ale także związki między tymi faktami. W 2014 r. Zostało to wzmocnione przez Vault wiedzy. To posunęło się jeszcze dalej, wprowadzając algorytmy uczenia maszynowego w celu ustalenia wiarygodności faktów. Czyni to poprzez ustalenie, ile zasobów innych niż te przedstawiające określoną część danych jako "fakt" było w zgodzie. Sprawdza również, w jaki sposób autorytatywne są te witryny, które są "w zgodzie" - sprawdzając, jak regularnie inne witryny do niego linkują. Jeśli wiele osób ma do niego zaufanie i łączy się z nim, wtedy bardziej prawdopodobne jest, że będzie godna zaufania, w szczególności jeśli są powiązane z witrynami, które same są "autorytetami", na przykład domenami akademickimi lub rządowymi. Ostatecznym celem wydaje się być zbudowanie interfejsu między komputerami i ludźmi, który działa w taki sam sposób, jak te, które widzieliśmy w filmach science fiction, pozwalając nam zadać pytanie w naturalnym, ludzkim języku i otrzymać dokładnie taką odpowiedź, jaką potrzeba.
Jakie są kluczowe punkty nauki i wnioski?
Google stał się niekwestionowanym królem wyszukiwarek, opracowując skuteczniejsze sposoby łączenia się z danymi, których potrzebowaliśmy, niż ich konkurenci. Utrzymują swój tytuł przez ciągłe wprowadzanie innowacji. Zarabiali na swojej wyszukiwarce, analizując, w jaki sposób przechwytywać dane, które gromadzi od nas, gdy przeglądamy Internet, zdobywając ogromne przychody, stając się największym sprzedawcą reklam online na świecie. Potem użyli ogromnych zasobów, którymi byli budowanie w celu szybkiej ekspansji, identyfikując obszary wzrostu, takie jak telefonia internetowa i internet przedmiotów (patrz rozdział 18, na temat Nest), w których mają również zastosowanie ich model biznesowy oparty na danych. W ostatnich latach konkurencja, taka jak Bing i Yahoo Microsoftu, zyskała pewną przewagę, chociaż Google wciąż jest daleko przed nami, jako najbardziej na świecie. popularna wyszukiwarka. Ale dzięki kolejnym inwestycjom Google w nowe obszary techniki, takie jak samochody bez kierowcy i automatyka domowa, możemy spodziewać się ciągłych innowacji i prawdopodobnie więcej niespodzianek.
Używanie Big Data do prognozowania trzęsień ziemi
TŁO
Terra Seismic to firma z siedzibą w Jersey, założona w 2012 roku w celu poprawy wczesnego wykrywania klęsk żywiołowych spowodowanych przez aktywność sejsmiczną, takich jak trzęsienia ziemi i tsunami. Ich misja polega na "zmniejszeniu ryzyka i zniszczeniu trzęsień ziemi". Przeprowadzają analizę danych środowiskowych i danych historycznych Big Data w celu prognozowania prawdopodobieństwa wystąpienia wstrząsów i udostępniają dane społeczeństwu za pośrednictwem ich portalu internetowego pod adresem www.quakehunters.com.
Jaki problem pomaga rozwiązać Big Data?
Trzęsienia ziemi i związane z nimi problemy, takie jak tsunami, wstrząsy wtórne i sytuacje kryzysowe w zakresie zdrowia publicznego, mają ogromny wpływ na ludzkie życie. W 2014 roku straciło z nich 16 674 osoby. Wskaźnik śmiertelności stopniowo wzrastał w miarę upływu czasu, pomimo postępów w nauce medycznej i reagowaniu w sytuacjach kryzysowych, ze względu na zwiększoną gęstość zaludnienia na obszarach dotkniętych działalnością sejsmiczną. Istnieje również ogromny koszt komercyjny pod względem infrastruktury prac związanych z uszkodzeniami i awarią. Prawie jedna czwarta miliona ludzi straciła dach nad głową podczas trzęsienia ziemi w T?hoku w 2011 roku. Szacuje się, że średni koszt finansowy wynosi około 13 miliardów dolarów rocznie. Kraje rozwijające się są często najbardziej dotknięte tymi katastrofami, a koszt reagowania na awarie i odbudowy infrastruktury dodatkowo obciąża gospodarki, prowadząc do dalszego rozprzestrzeniania się trudności. Mimo ogromnych badań prowadzonych przez wiele lat, do niedawna wielu geologów i innych naukowców uważało, że trzęsienia ziemi są w dużej mierze niemożliwe do przewidzenia.
W jaki sposób wykorzystywane są Big Data w praktyce?
Terra Seismic opracowała technologię, którą nazywają "satelitarnymi Big Data", które, jak mówią, mogą przewidywać trzęsienia ziemi w dowolnym miejscu na świecie z 90% dokładnością. Aby to zrobić, ich algorytmy monitorują transmisje na żywo z obrazów satelitarnych i czujników atmosferycznych oraz analizują je wraz z danymi historycznymi z poprzednich trzęsień. Warunki atmosferyczne mogą ujawnić charakterystyczne wzorce uwalniania energii, a nawet niezwykłe formacje chmur mogą dać wskazówki, kiedy pojawi się trzęsienie. Gdy do połączonych danych zostaną zastosowane techniki modelowania predykcyjnego, można uzyskać dużo dokładniejsze prognozy. Prognozy Terra Seismic są wykorzystywane przez firmy ubezpieczeniowe do dokładnej oceny ryzyka pokrycia w obszarach narażonych na aktywność sejsmiczną. Fundusze hedgingowe i podmioty gospodarcze również wykorzystują je w ramach analizy wpływu klęsk żywiołowych na rynki finansowe, a przedsiębiorstwa wielonarodowe wykorzystują je do oceny własnego narażenia na ryzyko. Ponadto wszystkie informacje o nadchodzących trzęsieniach są udostępniane każdemu, kto chce, bez żadnych kosztów, za pośrednictwem portalu internetowego. Agencje rządowe, organizacje charytatywne i koordynatorzy klęsk żywiołowych mogą z niego korzystać i korzystać z niego.
Jakie były wyniki?
Terra Seismic twierdzi, że odkąd rozpoczęli testowanie swojej technologii w 2004 roku, przewidywał 90% poważnych trzęsień ziemi. Większość wstrząsów o sile 6 plus w skali Richtera można precyzyjnie przewidzieć w ciągu jednego i 30 dni. Kiedy rozmawiałem z CEO Olegem Elshinem, powiedział mi, że ostatnie sukcesy zawierały prognozę trzęsienia o natężeniu 6,4, które nawiedziło Indonezję w dniu 3 marca 2015 r.Poważne trzęsienia ziemi przewidywane z ubiegłego roku to megaquake o wielkości 8,1, które nawiedziło chilijski region Tarapacá i trzęsienie ziemi w 7.2 w Guerrero w Meksyku.
Jakie dane zostały użyte?
Dane ze stacji monitorowania środowiska na ziemi w kluczowych obszarach aktywności sejsmicznej, obrazy satelitarne przesyłane strumieniowo na żywo oraz dane historyczne dotyczące aktywności sejsmicznej są rejestrowane i monitorowane.
Jakie są szczegóły techniczne?
Aby uzyskać wgląd w prawdopodobieństwo wystąpienia trzęsień ziemi w określonych lokalizacjach, Terra Seismic stworzyła niestandardowe algorytmy open-source przy użyciu Pythona. Algorytmy te przetwarzają codziennie duże ilości danych satelitarnych na żywo z regionów, w których aktywność sejsmiczna jest w toku lub spodziewana. Dane są przechowywane i dystrybuowane z wewnętrznych serwerów Apache firmy Seismic.
Wszelkie wyzwania, które trzeba pokonać?
Historycznie, trzęsienia ziemi uderzyły bez ostrzeżenia, a naukowcy i eksperci wysunęli argument, że są zasadniczo niemożliwe do przewidzenia. Wynika to głównie z ogromnej liczby czynników, które mają przyczynić się do ich spowodowania, a wiele z nich nie jest właściwie zrozumianych. Chociaż w całej historii zostały udokumentowane znaki, które można by uznać za ostrzeżenia (takie jak wąż lecący z ziemi przed trzęsieniem ziemi w Haicheng w 1975 r. W Chinach), nie opracowano naukowo prawidłowej metody wiarygodnego przewidywania. Terra Seismic jest wyzwaniem, aby pokazać, że analiza Big Data danych może zapewnić rzetelne, dokładne i powtarzalne prognozy potrzebne do właściwego wdrożenia pomocy w przypadku katastrof, zarządzania i odbudowy
Jakie są kluczowe punkty nauki i wnioski?
Nie wierz, że nic nie da się zrobić, dopóki sam nie spróbujesz tego zrobić! Modelowanie predykcyjne i analiza statystyczna, poparta dużą ilością danych w czasie rzeczywistym, nieustrukturyzowanych, pokazują nam, że można osiągnąć wiele rzeczy, które wcześniej uważano za niemożliwe. Analiza niestrukturalnych danych w czasie rzeczywistym (w tym przypadku obrazów satelitarnych) może przynieść nieoczekiwane rezultaty. Ludzie mogą nie rozpoznać, że pewien wzorzec aktywności w danych koreluje ze szczególnym prawdopodobieństwem zdarzenia
Jak duże są dane w centrum ich działalności
TŁO
Gigant technologiczny Apple jest oficjalnie najcenniejszą marką na świecie. Znane ze swojego kultowego designu produktu i łatwych w obsłudze interfejsów, Apple są w rzeczywistości ponad dwukrotnie bardziej wartościowe niż druga najcenniejsza na świecie marka, Microsoft. Jednak stosunkowo niedawno firma Apple nie była uważana za dużą firmę Big Data. Spójrzmy, jak to się zmieniło i dlaczego.
Jaki problem pomaga rozwiązać Big Data?
Pod pewnymi względami, pomimo tego, że jest najbardziej dochodową firmą technologiczną na świecie, Apple musiało grać nadrabianie zaległości z Big Data. Podczas gdy Apple tradycyjnie
zatrudniało zespoły wysoko płatnych ekspertów w dziedzinie estetyki i projektowania, aby tworzyć systemy, które według nich ludzie chcieliby wykorzystać, konkurenci, tacy jak Google, sprawdzali dane użytkowników, aby zobaczyć, jak ludzie faktycznie ich używają. To dało tym konkurentom przewagę dzięki codziennym aplikacjom, dzięki którym smartfony stały się tak popularne - mapy, nawigacja, rozpoznawanie głosu i inne aspekty informatyki które chcemy robić w drodze. Aby umocnić swoją pozycję lidera pakietu, firma Apple musiała opanować dane klientów.
W jaki sposób wykorzystywane są Big Data w praktyce?
Można śmiało powiedzieć, że Apple weszło teraz w wyścig Big Data z mocnym krokiem. Ich silna obecność na rynku telefonii komórkowej sprawiła, że ich urządzenia znalazły się w rękach milionów osób i chętnie zachęcają do rozwoju aplikacji opartych na monitorowaniu i udostępnianiu danych użytkowników. Godnym uwagi przykładem jest zapowiedziane niedawno partnerstwo z IBM w celu ułatwienia rozwoju opieki zdrowotnej aplikacje mobilne. Dzięki temu partnerowi użytkownicy iPhone'a i Apple Watch będą mogli dzielić się danymi z usługą analityczną IBM Watson Health opartą na chmurze, która potencjalnie zapewni milionom korzyści z crowdsourcowanej opieki zdrowotnej opartej na dużych danych. Przełomowa transakcja może również przyczynić się do dalszych postępów w dziedzinie opieki zdrowotnej, ponieważ przetaktowane przez IBM silniki Big Data zyskują dostęp do aktywności w czasie rzeczywistym i danych biometrycznych od potencjalnie milionów ludzi korzystających z urządzeń Apple na całym świecie. Apple dostarczyło także szereg aplikacji skierowanych do innych branż, w tym podróży lotniczych, edukacji, bankowości i ubezpieczeń, również opracowanych we współpracy z IBM i mających na celu dostarczanie funkcji analitycznych użytkownikom urządzeń mobilnych w tych dziedzinach. Uruchomienie Apple Watch w kwietniu 2015
r. Mogłoby przyspieszyć ten proces w dramatyczny sposób - prawie trzy miliony jednosteki zostały sprzedane od momentu jego uruchomienia, co pomaga wprowadzić smartwatche do głównego nurtu. Zaprojektowany do noszenia przez cały dzień i do zbierania szerszej gamy danych dzięki dodatkowym czujnikom, zegarek Apple zapewnia jeszcze więcej danych osobowych do analizy. Poza pozycjonowaniem się jako "dostarczyciel" Big Data w życiu innych ludzi, został również wykorzystany we własnych systemach wewnętrznych. Apple często ukrywał się przed procesami stojącymi za tradycyjnie największą siłą - projektowaniem produktu. Wiadomo jednak, że Big Data również odgrywa tutaj rolę. Dane są gromadzone o tym, jak, kiedy i gdzie są używane produkty firmy - smartfony, tablety, komputery i zegarki - w celu ustalenia, jakie nowe funkcje powinny zostać dodane lub w jaki sposób można je zmienić, aby zapewnić najbardziej wygodne i logiczne wrażenia użytkownika. Funkcje rozpoznawania głosu Siri w iDevices okazały się popularne wśród użytkowników też, a także jest zasilany przez Big Data. Dane głosowe przechwycone przez urządzenie są przesyłane na platformy analityczne w chmurze, które porównują je z milionami innych wprowadzonych przez użytkownika poleceń, aby pomóc im lepiej rozpoznawać wzorce mowy (przykład uczenia maszynowego) i dokładniej dopasowywać użytkowników do danych, które oni poszukują. Apple przechowuje te dane przez dwa lata - odłączyło się od Twojej prawdziwej tożsamości i przypisano je za pomocą unikalnego anonimowego wskaźnika, jako koncesję na zapewnienie prywatności. Podobnie jak ich najwięksi konkurenci, Apple oferuje także oparte na chmurze rozwiązania do przechowywania, przetwarzania i produktywności, zarówno dla konsumentów, jak i firm. W marcu 2015 r. Firma Apple zakupiła FoundationDB, popularną autorską architekturę baz danych, szeroko stosowaną w aplikacjach Big Data. Uważa się, że można to wykorzystać do zwiększenia skuteczności analitycznej w ich zestawie usług internetowych, takich jak iCloud, Apple Productivity Works (dawniej iWork) i ich niedawno uruchomiona usługa tworzenia muzyki. Nowa usługa Apple Music została stworzona w oparciu o technologię nabytą podczas zakupu Beats Music w 2014 roku, mając na celu uchwycenie udziału w rynku zdominowanym przez Pandora, Spotify i Google Music. Beats opracował algorytmy zaprojektowane tak, aby dopasować użytkowników do muzyki, z której najprawdopodobniej mieliby
przyjemność słuchać, w sposób podobny do silników rekomendacji używanych przez Amazon i Netflix. Sprzedaż za pośrednictwem usługi iTunes firmy Apple spadła, ponieważ popularność usług przesyłania strumieniowego wyprzedziła pobieranie jako ulubioną metodę uzyskiwania dostępu do muzyki online. Nowa usługa, uruchomiona w czerwcu 2015 r., To próba Apple'a, aby uzyskać kawałek tej akcji.
Jakie były wyniki?
Podczas gdy nie ma wątpliwości, że Apple ma mocne osiągnięcia w zrozumieniu, czego chcą ich użytkownicy, nawet przed zjawiskiem Big Data firma wyraźnie koncentruje się na wykorzystaniu Big Data do ulepszania swoich produktów i usług. Wczesne znaki dla Apple Watch i Apple Music są obiecujące; trzy miliony zegarków Apple sprzedano w ciągu pierwszych kilku miesięcy po premierze, a 11 milionów użytkowników iPhone'a zapisało się na bezpłatną wersję próbną Apple Music w ciągu zaledwie czterech tygodni (darmowy okres próbny przekształca się w miesięczną subskrypcję w wysokości 9,99 USD, chyba że użytkownicy zrezygnuj z usługi).
Jakie dane zostały użyte?
Apple koncentruje się na wewnętrznych danych generowanych przez użytkowników ich produktów i usług. Na przykład zegarek Apple Watch zawiera czujniki takie jak czujnik tętna i przyspieszeniomierz do śledzenia aktywności użytkownika i ogólnego stanu zdrowia.
Jakie są szczegóły techniczne?
Apple jest bardziej skryty niż wiele dużych firm, jeśli chodzi o infrastrukturę Big Data. Wiemy, że Apple używa sprzętu Teradata do przechowywania mas danych generowanych przez użytkowników Apple; podobno Apple były najszybszym klientem Teradata, aby osiągnąć skalę petabajtów.
Wszelkie wyzwania, które trzeba pokonać?
Apple nie dostarczył komentarza dla tego studium przypadku, ale wydaje mi się, że jedno oczywiste wyzwanie do przezwyciężenia to sama skala danych, z którymi Apple obecnie pracuje. Nawet bez niedawnych uruchomień, takich jak Apple Watch i Apple Music, użytkownicy Apple codziennie generują olbrzymie ilości danych (pomyśl tylko o danych generowanych przez Siri). Zatem zdolność do przechowywania wszystkich tych danych ma kluczowe znaczenie, a firma Apple dokonuje ogromnych inwestycji w nowe i rozszerzone centra danych ; firma ogłosiła na początku 2015 r., że podwaja rozmiar swojej witryny Reno, a także rozszerza działalność w Prineville w stanie Oregon. Apple ogłosiło także nowe projekty centrów danych w Athenry, Irlandia i Viborg w Danii, oba powinny zostać uruchomione w 2017 r. Są to kosztowne projekty, więc nie jest zaskoczeniem, że Apple myśli poważnie na przyszłość w Big Data.
Jakie są kluczowe punkty nauki i wnioski?
Apple mogło być wolniejsze w korzystaniu z Big Data i analityki niż wielu swoich rywali, ale wyraźnie widzieli, że muszą odegrać dużą rolę w swojej przyszłości, jeśli chcą wyprzedzić stado. Wydaje się prawdopodobne, że Apple spróbuje wykorzystać Big Data, aby odejść od bardzo drogich, epizodycznych wydań produktów, aby napędzić ich rozwój jako firmy prowadzącej do bardziej ekologicznego, stale regenerującego się modelu wzrostu preferowanego przez ich konkurentów na rynku oprogramowania i usług. Jeśli Apple może połączyć swój znak rozpoznawczy doskonałości w zakresie projektowania i przyjazność dla użytkownika dzięki innowacyjnym zastosowaniom analiz Big Data, powinny one nadal zaskakiwać nas produktami i usługami, które stają się kulturowo zakorzenione w codziennym życiu, tak jak iMac, iPod i iPhone - zapewniając, że pozostaną najcenniejszą marką na świecie przez jakiś czas chodź. Dla mnie ten przypadek pokazuje, jak nigdy nie jest za późno na
rozpoczęcie pracy z Big Data w twojej firmie. Nawet jeśli uważasz, że twoi konkurenci wyprzedzają cię w kwestii generowania i analizowania danych, zawsze istnieje możliwość nadrobienia zaległości. Innowacje w Big Data nieustannie się rozwijają, więc każda firma może walczyć o to, by być na bieżąco z najnowszymi osiągnięciami, niezależnie od ich wielkości ... ale pamiętaj, że to samo dotyczy twoich konkurentów, więc mogą nie być tak daleko, jak myślisz .
Jak Twitter i IBM dostarczają informacje o klientach z dużych zbiorów danych
TŁO
Twitter jest drugą najpopularniejszą na świecie siecią społecznościową po Facebooku, z 310 milionami aktywnych użytkowników każdego miesiąca. Od czasu swojej premiery w 2006 roku jako witryna "mikro-blogów", stała się bardzo popularna wśród firm, które mają produkty i usługi do promowania. Firma San Francisco zatrudnia prawie 4000 osób i osiągnęła przychód w wysokości 436 milionów USD w pierwszym kwartale 2015 r., Ale nigdy nie osiągnęła zysku - prawie wszyscy użytkownicy korzystają z usługi za darmo, a moc komputera i infrastruktura są potrzebne, aby obsłużyć tak wiele użytkownicy nie są tanie! W ubiegłym roku ogłosili, że IBM stanie się ich pierwszym partnerem w Program partnerski Twittera, oferujący innym firmom szansę współpracy z serwisami Twitter i IBM w celu uzyskania korzyści z danych i analiz.
Jaki problem pomaga rozwiązać Big Data?
Kierownictwo Twittera doskonale wie, że ich sieć musi zdobyć większy udział niż 0,84%, jakie obecnie posiada na globalnym rynku reklamy internetowej, jeśli firma chce stać się rentowna. Około 88% ich przychodów pochodzi z promowanych tweetów, które są wiadomościami firm, które płacą, aby pojawiły się w kanałach Twittera użytkowników, którzy mogą być zainteresowani. To musi pokryć pensje tysięcy pracowników, a także utrzymanie i utrzymanie ogromnej sieci komputerowej potrzebnej do utrzymania usługi na poziomie braku kosztów dla użytkownika końcowego. Twitter wie, że musi znaleźć inne sposoby zarabiania na treściach, które Twoi użytkownicy tworzą, jeśli chcą nadal rozwijać i ulepszać swoją infrastrukturę. Część ich strategii polega na oferowaniu ogromnej ilości danych, które generują co drugi dzień partnerom z zaawansowanymi funkcjami analitycznymi, takimi jak IBM. Następnie mogą sprzedawać swoje usługi analityczne innym, mniejsze firmy, które mogą z tego czerpać własną wartość. W transmisji danych na Twitterze jest ogromna ilość danych, z których większość, w porównaniu do tej udostępnionej na portalu społecznościowym Facebook, jest upubliczniona przez tych, którzy ją udostępniają, i tak jest dostępna dla każdego, kto mógłby ją przeanalizować. Może dać wgląd w to, jak ludzie są ze sobą połączeni, gdzie stoją w kwestiach politycznych, co kupują, gdzie jedzą i prawie we wszystkich aspektach swojego życia - kopalnia informacji dla marketerów. Problem polega na tym, że przeciętny biznes nie ma możliwości analityki, aby wykorzystać jak najlepiej. Każdy może uzyskać dostęp do Twittera i zobaczyć, o czym ludzie mówią, ale przekształcenie go w cenne, przydatne do działania spostrzeżenia jest trudne, chyba że masz mocne pojęcie o technicznych szczegółach gromadzenia i przechowywania danych, programowaniu statystycznym, modelowaniu predykcyjnym i algorytmach programowania. Zasadniczo wartość przechowywana w mediach społecznościowych marnuje się, gdy firmy nie mają umiejętności lub infrastruktury, aby je wykorzystać.
W jaki sposób wykorzystywane są Big Data w praktyce?
W skrócie, IBM tworzy wartość z danych, które Twitter gromadzi jako tweet użytkowników - wszystkie 6000 tweetów wysyłanych co sekundę jest dostępnych dla IBM do analizy w czasie rzeczywistym za
pośrednictwem ich interfejsu API "firehose". Inne firmy mogą wtedy uzyskać dostęp do danych Twittera za pośrednictwem narzędzi IBM, które mogą wykorzystać do uzyskania własnych danych opartych na danych. Mówi się, że tysiące wyspecjalizowanych pracowników zostało przeszkolonych przez IBM i Twittera do pracy z firmami na zasadzie doradztwa, aby pomóc im przetłumaczyć dane z Twittera na działania. W chwili pisania tego tekstu usługa została dopiero co otwarcie udostępniona. Jednak w pierwszej połowie 2015 r. Twitter nawiązał współpracę z różnymi firmami, aby wypróbować tę technologię. Partnerzy ci obejmowali firmę komunikacyjną, która miała na celu zmniejszenie liczby klientów rezygnujących z kierowania, poprzez ustalenie, gdzie ich usługi mogą być narażone na wpływ złej pogody poprzez monitorowanie rozmów w mediach społecznościowych i dystrybucję zasobów w celu skrócenia czasu przestoju usługi. Innym przypadkiem użycia był sklep z żywnością i napojami, który był w stanie wywnioskować, że na modele wydatków najbardziej lojalnych klientów wpłynął obrót pracowników w punktach sprzedaży detalicznej - ustalenie silnego powiązania między wysoką rotacją personelu a niską lojalnością klientów. Innymi słowy, rozpoznawalne, regularne twarze za ladą zachęciły klientów o wysokich nakładach, by częściej wracali.
Jakie były wyniki?
Program dopiero się rozpoczął, w momencie pisania, a więc niewiele danych jest dostępnych na temat wyników w świecie rzeczywistym. Jednak Twitter twierdzi, że nienazwana firma telekomunikacyjna, z którą nawiązała współpracę podczas fazy próbnej, była w stanie zmniejszyć liczbę klientów o 5%, używając swoich danych w połączeniu z narzędziami dostarczonymi przez IBM.
Jakie są szczegóły techniczne?
Twitter to ogromny zasób danych. Ich 310 milionów aktywnych użytkowników miesięcznie wysyła 500 milionów wiadomości dziennie, przy czym każdy z tych wiadomości może oferować cenny wgląd w prawdziwe życie. Twitter i IBM udostępniają swoje narzędzia analityczne za pomocą trzech usług: IBM Big Insights na Twitterze, Watson Analytics z Twitterem oraz jako część usługi Big Hintsop firmy BigInsights.
Wszelkie wyzwania, które trzeba pokonać?
Do tej pory wydaje się, że usługa obejmuje jedynie analizę tekstową pisemnej treści publikowanej na Twitterze. Konsumenci coraz częściej wchodzą w interakcje z mediami społecznościowymi za pomocą zdjęć i filmów wideo, które oferują zupełnie nowy zestaw wyzwań dla górników Big Data szukających wglądu. Usługi mediów społecznościowych oparte na obrazie, takie jak Instagram, wciąż pozostają w tyle za Facebookiem i Twitterem, ale nadrabiają zaległości w zakresie ilości nieustrukturyzowanych danych (zdjęć i filmów) przesyłanych codziennie. Inne usługi już rozpoczęły wydobywanie tych danych w celach informacyjnych. Na przykład jedna usługa pozwala markom rozpoznawać, kiedy zdjęcia z ich produktów są przesyłane, i oceniać nastrój osób pokazanych na zdjęciach za pomocą produktów wykorzystujących systemy rozpoznawania twarzy. Późniejsze zmiany na Twitterze oznaczają teraz ogromne ilości danych wizualnych przesłane do sieci wraz ze 140-tekstowymi wiadomościami tekstowymi, które są chlebem firmowym firmy, ale nie udostępniono żadnych studiów przypadku analizowanych danych za pośrednictwem partnerstwa IBM i Watson.
Jakie są kluczowe punkty nauki i wnioski?
Media społecznościowe są bogatym źródłem wiedzy na temat nastrojów i zachowań konsumentów. Duża część tych danych jest zablokowana ze względu na ogromną ilość, co utrudnia rysowanie znaczących spostrzeżeń - stosunek szumu do sygnału jest ważony w kierunku szumu ze względu na ogromną ilość drgań tła. Nawiązanie partnerstwa umożliwia firmom dysponującym bogatą bazą
danych, takim jak sieci społecznościowe, współpracę z firmami posiadającymi zaawansowane możliwości analityczne. Pomiędzy nimi mogą stworzyć coś cenniejszego, niż którykolwiek z nich mógłby sobie poradzić sam.
Jak duże są dane w centrum działalności firmy Uber w zakresie transportu
TŁO
Uber to aplikacja do rezerwacji taksówek na smartfony, która łączy użytkowników, którzy muszą dotrzeć gdzieś z kierowcami, którzy chcą jeździć. Usługa cieszy się ogromną popularnością. Od czasu uruchomienia w San Francisco w 2009 roku usługa została rozszerzona na wiele dużych miast na wszystkich kontynentach, z wyjątkiem Antarktydy, a firma jest obecnie wyceniana na 41 miliardów dolarów. Firma jest silnie zakorzeniona w Big Data i wykorzystuje te dane w bardziej efektywny sposób niż tradycyjne firmy taksówkarskie odegrały ogromną rolę w ich sukcesie.
Jaki problem pomaga rozwiązać Big Data?
Cały model biznesowy Ubera opiera się na zasadzie crowdsourcingu Big Data: każdy, kto ma samochód, który chce pomóc komuś dostać się tam, gdzie chce się udać, może zaoferować pomoc. Daje to większy wybór tym, którzy mieszkają w obszarach, w których jest mało środków transportu publicznego, i pomaga zmniejszyć liczbę samochodów na naszych ruchliwych ulicach, łącząc podróże.
W jaki sposób wykorzystywane są Big Data w praktyce?
Uber przechowuje i monitoruje dane dotyczące każdej podróży, jaką podejmują ich użytkownicy, i wykorzystuje je do określania popytu, alokowania zasobów i ustalania taryf. Firma przeprowadza także dogłębną analizę sieci transportu publicznego w miastach, które obsługują, dzięki czemu mogą skoncentrować się na zasięgu słabo obsługiwane obszary i zapewniają połączenia z autobusami i pociągami. Uber posiada ogromną bazę danych kierowców we wszystkich miastach, które obejmują, więc gdy pasażer prosi o przejażdżkę, mogą natychmiast dopasować cię do najbardziej odpowiednich kierowców. Firma opracowała algorytmy do monitorowania warunków ruchu oraz czasy podróży w czasie rzeczywistym, co oznacza, że ceny mogą być dostosowywane, ponieważ popyt na zmiany w jeździe, a warunki na drodze oznaczają, że podróże prawdopodobnie potrwają dłużej. To zachęca więcej kierowców do zasiadania za kierownicą, gdy są potrzebni - i pozostania w domu, gdy popyt jest niski. Firma złożyła wniosek o patent na tę metodę cenową opartą na Big Data, którą nazywają "ceną progresywną". Jest to wdrożenie "dynamicznej wyceny" - podobnej do tej stosowanej przez hotel łańcuchy i linie lotnicze dostosowują cenę w celu zaspokojenia popytu - choć zamiast po prostu podnosić ceny w weekendy lub w święta, wykorzystuje modelowanie predyktywne do szacowania popytu w czasie rzeczywistym. Dane również napędzają (wybacz kalambur) usługę UberPool firmy, która pozwala użytkowników, aby znaleźć innych w pobliżu tych, którzy, zgodnie z danymi Uber, często robią podobne podróże w podobnym czasie, aby mogli podzielić się jazdą. Według bloga Ubera, wprowadzenie tej usługi stało się nielogiczne, gdy ich dane powiedziały im, że "przeważająca większość wycieczek [w Uber w Nowym Jorku] ma wyglądający jak wycieczka - podróż, która zaczyna się blisko, kończy w pobliżu i ma miejsce. w tym samym czasie, co kolejna podróż ". Inne inicjatywy testowane lub planowane w przyszłości obejmują UberChopper, oferując przejażdżki helikopterem bogatym, UberFresh dla sklepu spożywczego dostawy i Uber Rush, przesyłka kurierska. Uber opiera się na szczegółowym systemie oceny - użytkownicy mogą oceniać kierowców i na odwrót - do budowania zaufania i pozwól obu stronom podejmować świadome decyzje dotyczące tego, komu chcesz
udostępnić samochód. W szczególności kierowcy muszą być bardzo świadomi, że ich standardy są wysokie, ponieważ spadek poniżej określonego progu może spowodować, że nie będzie im oferowana więcej pracy. Mają też inne dane, o które trzeba się martwić: ich "współczynnik akceptacji". Jest to liczba miejsc pracy, które akceptują w porównaniu do tych, które odrzucili. Kierowcy najwyraźniej zostali poinformowani, że powinni dążyć do utrzymania tego powyżej 80%, w celu zapewnienia stałej dostępności usług dla pasażerów.
Jakie były wyniki?
Dane znajdują się w samym sercu wszystkiego, co robi Uber, co oznacza, że w tym przypadku chodzi mniej o wyniki krótkoterminowe, a bardziej o długoterminowy rozwój modelu biznesowego opartego na danych. Ale można śmiało powiedzieć, że bez ich mądrego wykorzystania danych firma nie dorosłaby do tego zjawiska. Ta informacja ma szerszy obraz, który wykracza daleko poza zmianę sposobu, w jaki rezerwujemy taksówki lub trafiamy do biura każdego dnia. Uber CEO Travis Kalanick twierdzi, że usługa zmniejszy również liczbę prywatnych, właścicieli samochodów na drogach najbardziej zatłoczonych miast świata. Na przykład ma nadzieję, że sam UberPool może pomóc w zmniejszeniu ruchu na ulicach Londynu o jedną trzecią. Usługi takie jak Uber mogą zrewolucjonizować sposób podróżowania po zatłoczonych miastach. Z pewnością istnieją powody zarówno środowiskowe, jak i ekonomiczne, dla których byłoby to korzystne.
Jakie dane zostały użyte?
Firma wykorzystuje mieszankę danych wewnętrznych i zewnętrznych. Na przykład Uber oblicza opłaty automatycznie, korzystając z GPS, danych o ruchu i własnych algorytmów firmy, które dostosowują się do czasu, który prawdopodobnie zajmie podróż. Firma analizuje również dane zewnętrzne, takie jak trasy transportu publicznego, w celu planowania usług.
Jakie są szczegóły techniczne?
Udowodniono, że trudno jest uzyskać szczegółowe informacje na temat dużej infrastruktury danych Uber, ale wydaje się, że wszystkie ich dane są gromadzone w jeziorze danych Hadoop i używają Apache Spark i Hadoop do przetwarzania danych.
Wszelkie wyzwania, które trzeba pokonać?
Oparte na algorytmie podejście do wyrównywania cen czasami powodowało problemy w tak męczącym czasie - artykuł w Forbes zauważył, że jedna pięć-milowa podróż w sylwestra 2014, która normalnie kosztowałaby średnio mniej niż 20 USD, kosztowała 122,1 USD. liczba kierowców na drodze i dodatkowy czas potrzebny na dokończenie podróży. Wielu ludzi twierdzi, że to prosta ekonomia: normalne jest płacenie więcej za produkt lub usługi w czasach szczytowego zapotrzebowania (jak każdy, kto wyjeżdża w czasie wakacji szkolnych, potwierdzi). Ale to nie powstrzymało firmy przed podpaleniem ich polityki cenowej. Pojawiły się inne kontrowersje - w szczególności regularne taksówkarzy twierdząc, że niszczy ich środki do życia, i obawy o brak regulacji kierowców firmy. Reakcją Ubera na protesty taksówkarzy było spróbuj je dokooptować, dodając nową kategorię do swojej floty. Ich usługa UberTaxi oznacza, że możesz zostać odebrany przez licencjonowanego taksówkarza w zarejestrowanym prywatnym pojeździe do wynajęcia. Można śmiało powiedzieć, że nadal istnieją pewne prawne przeszkody do pokonania: usługa jest obecnie zabroniona w kilku jurysdykcjach, w tym w Brukseli i częściach Indii, i jest poddawana intensywnej analizie w wielu innych częściach świata. W Stanach Zjednoczonych było kilka spraw sądowych dotyczących przestrzegania przez firmę zasad z procedurami regulacyjnymi - niektóre z nich zostały oddalone, a niektóre nadal trwają. Jednak biorąc
pod uwagę ich popularność, firma ma ogromną motywację finansową do kontynuowania swoich planów przekształcenia prywatnych podróży.
Jakie są kluczowe punkty nauki i wnioski?
Firma Uber demonstruje, w jaki sposób Twój model biznesowy może być oparty na Big Data - z wyjątkowymi rezultatami. A Uber nie jest sam w tej realizacji. Mają konkurentów oferujących podobne usługi w (do tej pory) mniejszej skali, takich jak Lyft, Sidecar i Haxi. Jeśli uda się rozwiązać problemy regulacyjne, konkurencja wśród tych osób może być bardzo zacięta. Najbardziej udaną firmą jest prawdopodobnie to ta, która najlepiej wykorzystuje dostępne im dane w celu poprawy jakości usług świadczonych klientom.
Big Data w grach wideo
TŁO
Electronic Arts (EA) to jeden z największych na świecie wydawców gier wideo. Został założony przez Tripa Hawinsa, który porzucił pracę jako dyrektor marketingu produktów w Apple, po tym jak zobaczył fenomenalną szybkość, z jaką gry wideo rozwijały się jako hobby we wczesnych latach 80-tych. Od tego czasu branża ta rozrosła się i wzrosła, a jej przychody osiągają obecnie ponad 100 miliardów dolarów na całym świecie. Ponieważ współczesne gry wideo - niezależnie od tego, czy są odtwarzane na konsolach do gier, telefonach komórkowych czy komputerach - są ciągle online, gdy są odtwarzane są w stanie dokładnie monitorować zachowania graczy. Każda decyzja lub strategia, którą się rozgrywa, może być rejestrowana i analizowana, aby dać twórcom gier wgląd w to, co lubią gracze, jak dostosowują się do wyzwań i co jest zbyt trudne, aby być zabawą. W 2012 roku EA miało trudności. Wydawało się, że gracze wydają mniej na podstawowe produkty - strzelanki, symulacje sportowe i epickie gry fantasy, które zdobyły kolejne przeboje z ponad trzydziestoma dziesięcioleciami. Ponadto wiele rozpowszechnionych zmian w modelach branżowych - takich jak dystrybucja i płatności, wraz z pojawieniem się gier "freemium" - zakłócało ich działalność. Szef techniczny Rajat Taneja ujawnił ambitne plany odzyskania utraconych fanów - pracując nad wykorzystaniem wszystkich danych, które gromadzili podczas gier online, aby dać im dokładnie to, czego chcieli.
Jaki problem pomaga rozwiązać Big Data?
Świat gier jest niezwykle konkurencyjny - nie tylko dla graczy, którzy spędzają wolny czas, ścigając się wirtualnymi samochodami rajdowymi lub strzelając sobie nawzajem za pomocą wirtualnych pistoletów. Programiści i wydawcy również muszą nieustannie wprowadzać innowacje, aby prześcignąć swoich konkurentów. Gracze domagają się większych i lepszych gier, aby skorzystać z mocniejszego sprzętu dostępnego dla nich, w wyniku czego koszt produkcji gier wzrasta z każdym rokiem. Do zilustrowania, w 1994 r. Origin, spółka zależna EA, wypuściła Wing Commander 3, który miał budżet rozwojowy w wysokości 5 milionów dolarów - niespotykany w tamtym czasie dla gry komputerowej. W 2013 r. Grand Theft Auto 5 kosztował 100 milionów dolarów. W 2014 r. Activision Blizzard zapowiedział, że w najbliższych latach wyda około pół miliarda na ich serię Destiny. Wielki przebój "AAA" na dużą skalę Gry zazwyczaj zajmują co najmniej dwa lata pracy w pełnym wymiarze godzin przez zespoły setek osób, które tworzą i wprowadzają na rynek. Ale chociaż ryzyko jest wysokie, istnieje potencjał nagrody. Osiągnij trafienie i możesz sprzedać miliony produktów, których przechowywanie lub wysyłka praktycznie nie ma, dzięki przyjęciu cyfrowej dystrybucji w całej branży i sprzedaży detalicznej za 60-100 USD za sztukę.
W jaki sposób wykorzystywane są Big Data w praktyce?
Dawno minęły czasy, kiedy gra w grę wideo była samotnym doświadczeniem, w którym gracz był odłączony od reszty świata i wchodził w interakcje tylko z maszyną przed nimi. Większość współczesnych gier wideo, niezależnie od tego, czy są one odtwarzane na konsolach do gier, telefonach komórkowych czy komputerach, ma obecnie funkcje online. To wszystko jest wymagane w przypadku tytułów AAA. Służy to dwóm celom. Gracze mogą nie tylko ścigać się, walczyć i strzelać z innymi graczami w dowolnym miejscu na świecie, ale firmy obsługujące serwery, na których działają te gry, widzą dokładnie, co robią i jak ich użytkownicy wchodzą w interakcję z ich produktami. Wszystko, co robi gracz, od zakupu gry przez cyfrowy sklep wydawcy, po rozmowy z przyjaciółmi za pomocą funkcji społecznościowych, po samą grę, pozostawia po sobie bogatą ścieżkę danych. Jeśli liczba graczy, którzy stracili wszystkie swoje wirtualne życia i rezygnując z frustracji w danym wyzwaniu, osiągnie pewien punkt, analiza może pokazać, gdzie można wprowadzić korekty, co może prowadzić do bardziej wciągającego i dłuższego doświadczenia. Jeśli gra zauważy, że gracze angażują się w inne gracze na czacie głosowym zazwyczaj grają dłużej, mogą sprawdzić, jakie cechy gry zachęcają użytkowników do komunikowania się i zapewnić, że ich dystrybucja jest bardziej liberalna. Utrzymywanie graczy uzależnionych to w końcu nazwa gry; w przeciwnym razie najprawdopodobniej będą one w niedostatecznym stopniu uszkodzone przez produkty konkurentów. Dostosowania te można wprowadzić globalnie do całej bazy użytkowników dzięki aktualizacjom oprogramowania - lub bardziej osobistym. Poprzez przypisanie graczom unikalnego identyfikatora, który można śledzić na dowolnych platformach, na których grają, można zbudować model preferencji tego użytkownika i style gry. Jak ogłosił Taneja w przemówieniu programowym na konferencji Strata 2013: "Gaming jest obecnie konsumowany w sposób zawsze aktywny, zawsze połączony z wieloma urządzeniami. To wszystko zmienia. Jesteśmy teraz w stanie zebrać tyle wgląd w grze, gra i graczy, że musimy przemyśleć wszystkie nasze podstawowe założenia przeszłości ". Jak również poprawę doświadczeń rozgrywki, Big Data jest oddany do użytku w marketingu, jak również. Większość dużych wydawców gier oferuje obecnie własne sieci dystrybucji online, w których można sprzedawać gry bezpośrednio graczowi i pobierać je bezpośrednio do swojego salonu (lub gdziekolwiek się znajdują, jeśli grają na komórce). EA, podobnie jak inni wielcy gracze, stworzyła kompleksową analizę rekomendacji w swojej usłudze Origin, która dopasowuje gracza do gier i promocji, które najprawdopodobniej będą się podobać, w oparciu o informacje, które system o nich mówi, oraz inne, które pasują do ich profil. Wiele dzisiejszych gier zawiera również mikropożyczki - gdzie gracze mogą wydać niewielką ilość gotówki w świecie rzeczywistym, aby uzyskać korzyści związane z wirtualnym światem. To przynosi dodatkowe dochody dla wydawców, aby pomóc w pokryciu tych kosztów rozwoju, i miejmy nadzieję, że zapewni akcjonariuszom również niewielką premię.
Jakie były wyniki?
W latach 2012-2013 EA odnotowało spadek przychodów o 7% - ich dochody spadły z 4 mld USD do 3,6 mld USD. Do końca 2014 r. Wzrosły one ponownie o 22%, osiągając 4,4 mld USD - najwyższe obroty firmy w swojej 30-letniej historii. Wiele z tego zostało przypisane wysiłkom, które podjęto w celu ponownego połączenia się z niezadowolonymi klientami - co było możliwe dzięki skoncentrowanym wysiłkom używać ich danych do ich zrozumienia.
Jakie dane zostały użyte?
EA zbiera dane, takie jak imiona i dane geograficzne od graczy, gdy rejestrują się w swoich usługach. Następnie śledzą wykorzystanie portalu gier Origin, aby dowiedzieć się, jakie gry lubią przeglądać i ostatecznie kupować. Po zainstalowaniu gry na komputerze użytkownika - konsoli, telefonie lub komputerze - może ona zbierać informacje o tym urządzeniu. Jeśli ich użytkownik łączy się z kontem w
mediach społecznościowych (aby łatwiej znaleźć i grać z przyjaciółmi), może się uczyć wszystkiego, co tam dzielą. W grze każdy ruch i akcja, którą gracz wkłada do kontrolera gry lub interfejsu ekranu dotykowego, można śledzić, aby zbudować profil tego, jak lubią grać. To pozwala im określić, czy są ostrożnym graczem, czy bardziej strzelcem w ich podejściu do przezwyciężania problemów.
Jakie są szczegóły techniczne?
EA generuje 50 miliardów minut gry online w typowym miesiącu, składający się z 2,5 miliarda sesji. W 2013 r. zgłoszono, że tylko jedna gra, Battlefield, generowała codziennie 1 terabajt danych telemetrycznych użytkowników. We wszystkich grach w ich sieci liczba ta wynosiła około 50 terabajtów. Ramy analityczne EA Big Data opierają się na technologiach open-source, w tym Apache Hadoop i Spark.
Wszelkie wyzwania, które trzeba pokonać?
Podobnie jak wiele firm, które po raz pierwszy podjęły walkę z Big Data, EA wkrótce zorientowało się, że jednym z ich pierwszych problemów było to, że dane były zbyt duże, a ich istniejące systemy danych nie zostały wycięte, aby zmierzyć skomplikowane i niechlujne dane, które ich gry zbierały od graczy. . Rozwiązanie, jak mówi Taneja, brzmiało: "wziąć tylko niewielki ułamek tych danych, przechowywać go bardzo elegancko, a następnie przepuścić go przez rurę, aby można było podjąć działania w grze, wokół gry lub w marketingu po grze" . W tym celu firma przebudowała od zera dane, wdrażając Hadoop, aby uruchomić algorytmy uczenia maszynowego i algorytmy predykcyjne, które stworzyły w celu analizy danych. Ostatnim krokiem, wyjaśnił Taneja, było wprowadzenie zunifikowanego identyfikatora klienta, aby powiązać profil użytkownika na wszystkich platformach, na których mogą uruchamiać swoje gry. "Sekretem tego wszystkiego było zasadniczo zmienianie tego, jak myśleliśmy o tożsamości - oddzielanie identyfikatora od zaplecza, tożsamość platformy - przechwytywanie wszystkich zdarzeń z ich telefonu, z konsoli lub komputera, w jedną osobowość - to pozwala wszystkim dane do ich prawidłowego działania. "
Jakie są kluczowe punkty nauki i wnioski?
Gry wideo stanowią ogromną część przemysłu rozrywkowego, a przychody z filmów i muzyki spadły, sprzedaż w tym sektorze stale rośnie. Stwarza to ostrą konkurencję między rywalami dysponującymi ogromnymi zasobami. Analiza Big Data daje doświadczonym graczom wyraźną przewagę w tej grze. Gaming reprezentuje dziką granicę technologii - gdzie dziwaczne i rewolucyjne pomysły mogą zostać prototypowane i przetestowane w warunkach polowych dla odbiorców energicznych, doświadczonych technologią i szybko reagujących na opinię publiczną. Nic więc dziwnego, że Big Data buduje swoje bazy w tej branży. Dzięki potencjałowi do uczenia się coraz więcej graczy, projektanci gier, artyści i programiści będą mogli tworzyć doświadczenia bardziej dopasowane do tego, co ich odbiorcy lubią. Doprowadzi to do bardziej rozrywkowych, wciągających i wymagających gier, które sprawią, że dzisiejsze hity takie jak Grand Theft Auto i Call of Duty będą wyglądać jak Space Invaders lub Pac-Man.
Crowdsourcing Twoich Danych Naukowych
TŁO
Kaggle to platforma konkursowa do analizy danych crowdsourcowanych. Firmy wprowadzają swoje problemy z danymi, a armia naukowców zajmujących się badaniami karoserii Kaggle konkuruje o najlepsze rozwiązanie. To fascynujący pomysł, który do tej pory rywalizowali zawodnicy, aby
rozwiązywać problemy, od analizy dokumentacji medycznej do przewidywania, którzy pacjenci prawdopodobnie będą potrzebować hospitalizacji, do skanowania głębokiego kosmosu w poszukiwaniu śladów ciemnej materii. Firma z siedzibą w San Francisco została założona w 2010 roku, zainspirowana konkursem zorganizowanym przez Netflix w poprzednim roku. Strumieniowa telewizja i wytwórnia filmowa rzuciły wyzwanie publiczności, by zaproponowała lepsze algorytmy przewidywania, co klienci chcieliby oglądać dalej, by pomóc im ulepszyć własne silniki rekomendacji. Od tego czasu Netflix zaczął używać Kaggle do organizowania późniejszych konkursów. Główny naukowiec Google - jednej z wielu firm, które korzystały z usług Kaggle - Hal Varian określił to jako "sposób na uporządkowanie siły roboczej najzdolniejszych naukowców zajmujących się danymi na świecie i udostępnienie jej organizacje każdej wielkości ". Każdy może zarejestrować się w Kaggle i wziąć udział w większości swoich konkursów, rywalizując o nagrody do 100 000 $ w momencie pisania. Poprzednie konkursy, takie jak nagroda Heritage Health Prize w 2012 roku, oferowały nagrody o wartości do 500 000 ?. Niektóre zawody są jednak zarezerwowane dla "mistrzów": strony członkowie, którzy udowodnili swoje umiejętności w poprzednich konkursach.
Jaki problem pomaga rozwiązać Big Data?
Firmy na całym świecie przyznają, że istnieje poważny niedobór wyszkolonych naukowców zajmujących się danymi. W jednym z raportów czołowych analityków Gartner odkrył, że ponad połowa badanych organizacji czuła, że ich ambicje analityczne zostały ograniczone przez brak możliwości znalezienia odpowiednio wykwalifikowanych pracowników. Jest to spowodowane tym, że jest to stosunkowo nowa dziedzina wiedzy informatycznej. Statystycy i eksperci business intelligence zawsze uczyli się podstaw, ale stosowali je do najnowocześniejszej infrastruktury IT potrzebnej do monitorowania, przechwytywania i analizować naprawdę duże, nieustrukturyzowane, niechlujne dane wymagają stosunkowo nowego zestawu umiejętności.
W jaki sposób wykorzystywane są Big Data w praktyce?
Zasadniczo Kaggle działa jako pośrednik: firmy i organizacje dostarczają swoje dane, ustalają problem do rozwiązania, jak również termin i oferują nagrodę. Dane są generalnie symulowane, aby uniknąć problemów związanych z prywatnością w firmach przekazujących informacje poufne, a także danych wrażliwych pod względem handlowym, które mogłyby trafić w ręce konkurentów, gdyby oferowano je na platformie publicznej. Zamiast oferować nagrodę pieniężną, jak zwykle, gdy Walmart, Największy na świecie detalista przyjechał do Kaggle, zaoferowali pracę. Mandar Thakur, starszy wiceprezes ds. Organizacji systemów informatycznych Walmart, mówi mi: "Luka podażowa i popytowa są zawsze obecne, szczególnie jeśli chodzi o powstającą technologię. Dlatego znaleźliśmy innowacyjne i kreatywne sposoby na znalezienie talentu dla naszych zespołów zajmujących się analizą danych i analiz. Zawsze szukamy najlepszych talentów, którzy mogą wejść, przyczynić się i katapultować nas jeszcze bardziej. "Konkurs Kaggle Walmart obejmował dostarczanie zestawu historycznych danych sprzedażowych i wydarzeń marketingowych, takich jak wycofywanie cen, oferty sezonowe i wyprzedaże. Kandydaci otrzymali zadanie opracowania modeli predykcyjnych pokazujących, w jaki sposób harmonogram wydarzeń wpłynąłby na sprzedaż w każdym z departamentów, w których dostępne były dane dotyczące sprzedaży. Oprócz crowdsourcingu i modelowania predykcyjnego, granie w grywalizację jest kolejnym narzędziem stosowanym tutaj. Wiadomo, że ludzki mózg dobrze reaguje na konkursy i wyzwania, szczególnie gdy są one motywowane nagrodami. Oprócz struktury pieniężnej (lub zatrudnienia) struktura konkursowa Kaggle ma na celu umożliwienie uczestnikom zaprezentowania swoich umiejętności i kreatywności zarówno w społeczności "analityk fotela", która rozwinęła się w Kaggle i na całym świecie.
Jakie były wyniki?
W wyniku pierwszego konkursu, który odbył się w 2014 r., Kilka osób zostało zwerbowanych do zespołu analitycznego Walmart, a konkurencja odbyła się ponownie w następnym roku w nadziei na znalezienie więcej. Jeden z nagrodzonych uczestników, Naveen Peddamail, jest obecnie zatrudniony w sprzedaży detalicznej gigant's Bentonville, główna siedziba w Arkansas jako starszy analityk statystyczny. Powiedział mi: "Miałem już pracę z konsultantem, więc naprawdę przeglądałem Kaggle jako hobby. "Widziałem wyzwanie Walmart i myślałem, że spróbuję. Pomyślałem, że spróbuję przeprowadzić analizę predykcyjną. Po przygotowaniu i przesłaniu mojego modelu znalazłem się wśród najlepszych uczestników i zaproszono mnie na spotkanie z Walmart's zespół analityczny. "W tym momencie rzeczy naprawdę się wydały ciekawe - kiedy zobaczyłem, jak zespoły analityczne będą mogły poradzić sobie z problemami, będą mogły pracować przez 20 lub 30 minut, a nie dwa lub trzy tygodnie, jak to zwykle bywa, Znalazłem to bardzo ekscytujące. "Wszystko o czym rozmawiali - jak dostarczyć analitykę predykcyjną w czasie rzeczywistym - pracując nad tym, jak uzyskać prawdziwe spostrzeżenia z tej ogromnej ilości danych, wtedy zobaczyłem prawdziwą wartość w tych" Big Data ", o których wszyscy mówili "Dodatkowo, Thakur mówi, że oprócz obsadzania wolnych miejsc istniały inne korzyści, zarówno dla Walmart, jak i dla całej społeczności analitycznej. Mówi: "Kaggle stworzył szum wokół Walmart i naszej organizacji analitycznej. Ludzie zawsze wiedzieli, że Walmart generuje dużo danych, ale najlepszą częścią było pozwolenie im zobaczyć, jak wykorzystujemy to strategicznie. "
Jakie dane zostały użyte?
W przypadku konkursu Walmart uczestnicy otrzymali symulowane historyczne dane dotyczące sprzedaży z szeregu sklepów, wraz z datami i szczegółami wydarzeń promocyjnych, takich jak sprzedaż i święta, które, jak sądzono, wpłynęłyby na sprzedaż wymienionego przedmiotu. Inne konkursy na stronie wzywają graczy do przewidywania, którzy klienci najprawdopodobniej zareagują na bezpośrednie kampanie marketingowe, wykorzystując symulowane dane osobowe, identyfikując zjawiska fizyczne za pomocą danych z Wielkiego Zderzacza Hadronów CERN i przewidując kategorie przestępstw, które zostaną popełnione w San Francisco, wykorzystanie danych demograficznych i historycznych dotyczących przestępczości.
Jakie są szczegóły techniczne?
Kaggle przekazuje surowe, symulowane zestawy danych od swoich klientów dla "naukowców zajmujących się badaniem foteli" na stronie w celu prowadzenia własnych analiz. Warstwa usług uruchomiona w systemie szkieletowym Unix pozwala na uruchamianie kodu użytkownika na swoich serwerach, aby umożliwić użytkownikom przesyłanie i demonstrowanie algorytmów wprowadzanych do konkursów. Planują rozszerzyć możliwości tego systemu w najbliższej przyszłości, ponieważ obecne wolne miejsce pracy wymaga inżyniera, aby pomóc im w transformacji "Z witryny do prowadzenia konkursów uczenia maszynowego na platformę zaawansowanej nauki o danych".
Wszelkie wyzwania, które trzeba pokonać?
Wraz ze wzrostem popularności analizy Big Data w biznesie, jedną rzeczą, która stała się oczywista, jest to, że czysty talent do dzielenia się liczbami nie zawsze wystarcza, aby stworzyć doskonałego naukowca danych. Zdolność komunikacyjna jest również istotną umiejętnością. Jak to ujął Thakur: "Zasadniczo potrzebujemy ludzi, którzy są absolutnymi geekami danych, ludzi, którzy kochają dane i mogą je kroić, kroić i robić to, co chcą. "Powiedziawszy to, istnieje jeden bardzo ważny aspekt, który może odróżnić analityka danych od innych technologów. To wykładniczo poprawia perspektywy kariery, jeśli mogą dopasować tę wiedzę techniczną danych geek z doskonałymi umiejętnościami komunikacji i prezentacji. Ktoś, kto ma taką kombinację umiejętności, może bardzo szybko awansować. "Aby uwzględnić to w procesie rekrutacji, najlepsi uczestnicy konkursu, po udowodnieniu umiejętności analitycznych, zostali zaproszeni do dalszej oceny w centrali firmy, z miejsca pracy są ostatecznie
przyznawane tym, którzy wykazali się umiejętnością raportowania i komunikacji, a także talentem analitycznym.
Jakie są kluczowe punkty nauki i wnioski?
Świetni naukowcy danych mogą pochodzić z dowolnego miejsca. Nie zawsze będą mieli formalne wykształcenie w zakresie statystyki, matematyki lub informatyki, jak się powszechnie oczekuje. Analityczny sposób myślenia można rozwinąć w wielu dziedzinach życia. Crowdsourcing ma ogromny potencjał w identyfikowaniu pojawiających się talentów. Pozwala pracodawcom stymulować osoby, które wcześniej nie myślały o poważnej karierze jako analityk, być może zaskakujące nawet same siebie z tym, co są w stanie zrobić z analityką i Big Data. Grywalizacja zapewnia nowe sposoby kontaktu z ludźmi, którzy potencjalnie mogą pomóc firmom w rozwiązaniu ich problemów. Rozwijanie elementu konkurencyjnego zachęca do nieszablonowego myślenia, ponieważ osoby biorące udział będą dążyć do tego, aby ich pomysły wyróżniały się na tle innych.
Jak Predictive Analytics są używane, aby uzyskać 360-stopniowy widok konsumentów
TŁO
Amazon dawno temu wyrósł z pierwotnego modelu biznesowego księgarni internetowej. Są teraz jednym z największych na świecie sprzedawców towarów fizycznych, dóbr wirtualnych, takich jak e- booki i streaming video, a ostatnio także serwisów internetowych. Wiele z tego zostało zbudowanych na bazie ich pionierskiego zastosowania technologii "silników rekomendacyjnych" - systemów zaprojektowanych do przewidywania, czego chcemy, kiedy chcemy i oczywiście oferujemy nam szansę, aby dać im na to pieniądze. Z myślą o tym etosie Amazon stał się także producentem towarów i usług, a nie tylko sprzedawcą. Oprócz zlecania filmów i programów telewizyjnych, budują i wprowadzają na rynek elektronikę, w tym tablety, telewizory i sprzęt do transmisji strumieniowej. Jeszcze niedawno zaczęli przejmować supermarkety spożywcze oferując świeże produkty i znacznie szybszą dostawę dzięki usłudze Amazon Now.
Jaki problem pomaga rozwiązać Big Data?
Przeładowanie informacji jest bardzo realnym problemem, a detaliści mają więcej do stracenia niż większość z nas. Internetowa sprzedaż detaliczna polega na udostępnianiu jak największej liczby produktów lub usług, aby zwiększyć prawdopodobieństwo sprzedaży. Firmy takie jak Amazon i Walmart dobrze prosperowały, przyjmując model supermarketu "wszystko pod jednym dachem". Problem polega na tym, że klient często czuje się przytłoczony, gdy przedstawia się go szerokim zakresem możliwych opcji. Psychologicznie, obawy związane z cierpieniem z powodu "wyrzutów sumienia kupującego" - marnowanie pieniędzy poprzez podejmowanie świadomych decyzji o zakupie
- mogą prowadzić do odkładania wydatków, dopóki nie upewnimy się, że przeprowadziliśmy wystarczające badania. Myląca liczba opcji może nawet spowodować, że całkowicie zmienimy zdanie na temat tego, że potrzebujemy zestawu telewizji ultraHD 2,000 USD i zamiast tego postanawiamy jechać na wakacje. To ten sam problem, który często nęka wiele projektów z dużą ilością informacji. Klienci mogą stać się bogatsi o dane (z wieloma opcjami), ale nie mają wglądu w sprawy - nie mając pojęcia, jaka byłaby najlepsza decyzja o zakupie, aby zaspokoić ich potrzeby i pragnienia.
W jaki sposób wykorzystywane są Big Data w praktyce?
Zasadniczo, Amazon korzystał z Big Data pozyskanych od klientów podczas przeglądania witryny w celu zbudowania i dopracowania mechanizmu rekomendacji. Amazon prawdopodobnie nie wymyślił silnika rekomendacji, ale wprowadził go do powszechnego użytku publicznego. Teoria jest taka, że im więcej wiedzą o tobie, tym bardziej prawdopodobne jest, że będą w stanie przewidzieć, co chcesz kupić. Gdy już to zrobią, mogą usprawnić proces przekonywania użytkownika do zakupu, poprzez wyeliminowanie potrzeby przeszukiwania katalogu. Silnik rekomendacji Amazon opiera się na filtrowaniu grupowym. Oznacza to, że decyduje o tym, co myśli, wybierając, kim jesteś, a następnie oferuje produkty, które kupili ludzie o podobnym profilu. W przeciwieństwie do filtrowania opartego na treści - jak widać na przykład w systemie rekomendacji Netflix - oznacza to, że system nie musi nic wiedzieć o niestrukturalnych danych w sprzedawanych produktach. Wszystko, czego potrzebuje, to metadane: nazwa produktu, ile kosztuje, kto go kupił i podobne informacje. Amazon gromadzi dane na temat każdego z ponad ćwierć miliarda klientów korzystających z ich usług.1 Oprócz tego, co kupujesz, monitorują to, na co patrzysz, twój adres wysyłki określa dane demograficzne (mogą zrobić dobry w odgadywaniu twojego poziomu dochodów, wiedząc, w jakim sąsiedztwie mieszkasz) i czy zostawiasz opinie klientów i opinie. Patrzą również na porę dnia, którą przeglądasz, aby określić nawykowe zachowania i dopasować swoje dane do innych, którzy podążają podobnymi wzorcami. Jeśli korzystasz z usług transmisji strumieniowej, takich jak strumieniowe przesyłanie filmów Amazon Prime lub wypożyczalnia ebooków, mogą również określić, ile czasu poświęcasz na oglądanie filmów lub czytanie książek. Wszystkie te dane służą do budowania "widoku 360 stopni" jako indywidualnego klienta. Na tej podstawie Amazon może znaleźć inne osoby, które według nich pasują do tej samej, precyzyjnie wyselekcjonowanej niszy konsumenta (zatrudnionych mężczyzn w wieku od 18 do 45 lat, mieszkających w wynajętym domu z przychodem ponad 30 000 $, którzy lubią filmy zagraniczne, na przykład) i przedstawiających zalecenia w oparciu o to, co lubią. W 2013 roku Amazon zaczął sprzedawać te dane reklamodawcom, aby umożliwić im uruchomienie własnych kampanii marketingowych opartych na Big Data. To stawia ich w konkurencji z Google i Facebookiem, które sprzedają anonimowy dostęp do danych użytkownika reklamodawcom
Jakie były wyniki?
Amazon stał się największym sprzedawcą internetowym w Stanach Zjednoczonych w oparciu o zorientowane na klienta podejście do technologii rekomendacji. W zeszłym roku wzięli na siebie prawie 90 miliardów dolarów ze sprzedaży na całym świecie. Przychody z usług internetowych opartych na chmurze, takich jak Amazon Web Services, wzrosły o 81% w ciągu ostatniego roku do 1,8 miliarda USD. Ponadto podejście firmy Amazon do zakupów i usług dla klientów opartych na Big Data sprawiło, że są one rozpoznawalną na całym świecie marką.
Jakie dane zostały użyte?
Amazon zbiera dane od użytkowników podczas przeglądania witryny - monitorując wszystko od czasu, jaki spędzają na przeglądaniu każdej strony, na języku używanym w opiniach użytkowników, które opuszczają. Dodatkowo używają zewnętrznych zestawów danych, takich jak dane spisu ludności, w celu ustalenia danych demograficznych. Jeśli korzystasz z aplikacji mobilnych na swoim smartfonie lub tablecie z funkcją GPS, mogą oni także zbierać dane o Twojej lokalizacji oraz informacje o innych aplikacjach i usługach, z których korzystasz w swoim telefonie. Korzystanie z usług przesyłania strumieniowego Amazon, takich jak Amazon Prime i Audible, zapewnia im bardziej szczegółowe informacje na temat miejsca, czasu i sposobu oglądania i słuchania telewizji, filmu i dźwięku.
Jakie są szczegóły techniczne?
Podstawowa działalność firmy Amazon jest obsługiwana w centralnej hurtowni danych, na którą składają się serwery Hewlett-Packard z systemem Oracle w systemie Linux, obsługujące 187 milionów
unikalnych miesięcznych odwiedzających witrynę oraz ponad dwa miliony zewnętrznych sprzedawców Amazon Marketplace.
Wszelkie wyzwania, które trzeba pokonać?
Na początku największym wyzwaniem dla Amazon i wszystkich e-sklepów było dostarczanie opinii publicznej wiary w udział w komercyjnej działalności online. W dzisiejszych czasach, dzięki zwiększonemu bezpieczeństwu i presji legislacyjnej (i pomimo coraz częstszych przypadków kradzieży danych), większość z nas nie jest już tak ostrożna podając dane karty sprzedawcy internetowemu, niż w przypadku cegieł i zapraw. jeden. Amazon używa systemów Netscape Secure Commerce Server i SSL do przechowywania wrażliwe informacje w zaszyfrowanej bazie danych.
Jakie są kluczowe punkty nauki i wnioski?
Różnorodność wyboru dla klientów to wielka rzecz, ale zbyt duży wybór i zbyt mało wskazówek może wprowadzić klientów w błąd i zniechęcić ich do podejmowania decyzji o zakupie. Silniki rekomendacji Big Data upraszczają zadanie przewidywania, czego chce klient, poprzez profilowanie ich i przeglądanie historii zakupów osób, które pasują do podobnych nisz. Im więcej firma wie o kliencie, tym lepiej może je sprzedać. Stworzenie 360-stopniowego widoku każdego klienta jako osoby fizycznej jest podstawą marketingu opartego na Big Data i obsługi klienta. Prywatność i bezpieczeństwo informacji to absolutny priorytet. Jeden przypadek naruszenia lub kradzieży danych na dużą skalę może zniszczyć zaufanie konsumentów do biznesu w ciągu jednej nocy.