Podnieś jakość dzięki danym: wskazówki dotyczące tworzenia i utrzymywania solidnych zbiorów danych
Opublikowany: 2023-09-15Dane zmieniają sposób działania świata.
W różnych branżach firmy spieszą się z wdrażaniem metodologii i praktyk opartych na danych.
W ostatnim czasie rozwój sztucznej inteligencji zmienił sposób, w jaki firmy podchodzą do analizy danych. W G2 zidentyfikowaliśmy tę rosnącą potrzebę wdrażania strategii dotyczących danych i opracowaliśmy zoptymalizowane rozwiązania, aby pomóc naszym klientom zdobyć przewagę na rynku.
Tego lata dołączyłem do G2 jako stażysta w naszym zespole ds. rozwiązań danych. Nasz zespół koncentruje się na dostarczaniu alternatywnych wglądów w dane ponad 70 firmom venture capital (VC), private equity (PE), funduszom hedgingowym i firmom konsultingowym w celu wspierania ich strategii inwestycji w oprogramowanie.
Dane alternatywne odnoszą się do rodzaju danych gromadzonych poza tradycyjnymi źródłami. Nasz produkt w zakresie rozwiązań danych, wywodzący się z głównej platformy G2, stanowi mocne źródło informacji dla firm inwestycyjnych w zakresie pozyskiwania, staranności i zarządzania portfelem.
Fascynuje mnie połączenie analizy danych i inwestowania, dlatego dano mi swobodę zaangażowania się w mój własny projekt dotyczący danych. Korzystając ze skalowalnego oprogramowania do chmury danych Snowflake , pracowałem nad jednym z naszych zestawów danych raportów inwestorskich.
Choć ten zbiór danych jest pełen cennych informacji, nieustrukturyzowany charakter tego zbioru danych utrudnia jego przetrawienie i wygenerowanie przydatnych spostrzeżeń. Podczas tygodni pracy nad zbiorem danych udało mi się skondensować dane, określić ilościowo informacje i stworzyć własny, niestandardowy system punktacji, aby zapewnić dane porównawcze dla wielu produktów i harmonogramów.
Chociaż poczułem satysfakcję, dowiadując się o niuansach czyszczenia danych i o tym, jak sprawić, by spostrzeżenia były bardziej widoczne, nadal chciałem zrozumieć, co odróżnia dobry zbiór danych od złego.
Co to są zbiory danych?
Słownik Cambridge definiuje zbiór danych jako zbiór oddzielnych zestawów informacji , które komputer traktuje jako pojedynczą jednostkę .
Najłatwiej jest wyobrazić sobie zbiór danych jako dużą tabelę komórek, podobną do tej, którą można zobaczyć w arkuszu kalkulacyjnym. Każda komórka reprezentowałaby punkt danych wraz z powiązanymi informacjami z wiersza i kolumny, które składają się na zawartość tego punktu danych. W tym przykładzie zbiór danych to cała tabela komórek działająca jako pojedyncza jednostka.
Dane mogą mieć wiele kształtów i form. Chociaż G2 przechowuje duże ilości otwartych danych – danych, do których każdy może uzyskać dostęp, z nich korzystać i je rozpowszechniać – mamy wiele produktów danych, które dostarczają unikalnych spostrzeżeń.
Jak przetwarzamy i analizujemy dane?
Zwykle nasi klienci otrzymują dane za pośrednictwem wiadra AWS S3 lub za pośrednictwem płatka śniegu. Po przesłaniu zbiorów danych do swojego systemu klienci mogą przeprowadzić dowolną analizę danych, która odpowiada ich potrzebom. Analiza danych może obejmować tworzenie narzędzi do wizualizacji danych, tworzenie złożonych algorytmów do przewidywania wyników lub wykorzystywanie sztucznej inteligencji do zwiększania wydajności.
Znaczenie zbiorów danych
Choć obecnie staje się to coraz bardziej powszechne, dane nie zawsze stanowiły dużą część strategii biznesowej. Do niedawna firmy mogły rozwijać się i prosperować bez korzystania ze złożonych zbiorów danych. Nasuwa się pytanie: dlaczego zbiory danych są tak ważne?
Zbiory danych mogą zapewnić firmie dodatkowe korzyści, rozwiązując problemy, ujawniając unikalne spostrzeżenia oraz zapewniając sygnalizację i automatyzację operacji biznesowych.
Każda firma stoi przed wyzwaniami, a przyczyną często może być brak informacji. Dobrze zbudowane zbiory danych eliminują braki informacji, których nie można uzyskać z tradycyjnych źródeł. W artykule opublikowanym przez Man Institute wskazano, że wraz z pojawieniem się alternatywnych źródeł danych „użytkownicy tych danych mogą utrzymać przewagę, wykorzystując swoją wiedzę z zakresu modelowania i wiedzę rynkową do przezwyciężenia luk w informacjach dostępnych dla inwestorów”.
Jeśli firmą jest osoba, dane są jak żywność i woda – niezbędne do przetrwania. Jeśli boli Cię organizm, ważne jest, aby znaleźć dane, które uzupełnią Twoje ogólne spostrzeżenia i uzupełnią wszelkie luki. Jednak zbiory danych nie muszą tylko uzupełniać luk; mogą także ujawnić zupełnie nowe perspektywy przy rozwiązywaniu problemu.
Uzyskanie dostępu do unikalnych spostrzeżeń nie jest niczym nowym w świecie biznesu. Gdyby każdy miał dostęp do tych samych informacji, trudno byłoby wprowadzać innowacje i przewyższać konkurencję.
Wykorzystywanie alternatywnych zbiorów danych to coraz popularniejszy sposób zdobywania przewagi konkurencyjnej. Dzięki większej ilości informacji przedsiębiorstwa zyskują dostęp do nowych perspektyw i mogą wzbogacić proces podejmowania decyzji. Kiedy już nakreślą pełny obraz poprzez zajęcie się własnymi bolączkami i poszerzenie perspektywy rynkowej, dane można również wykorzystać do automatyzacji tych praktyk.
Poprawa dokładności i wydajności to jedna z największych zalet danych. Identyfikując kluczowe sygnały danych, firmy mogą dostosować swoją strategię biznesową do wskaźników KPI opartych na danych. W ten sposób firmy w naturalny sposób tworzą przepływy pracy, które uruchamiają automatyczne działanie po osiągnięciu określonych punktów przegięcia.
Weźmy na przykład prywatną firmę inwestycyjną. Przed pojawieniem się nowoczesnej analityki danych firmy inwestycyjne musiały przeprowadzić szeroko zakrojoną analizę źródeł informacji i przeprowadzić analizę due diligence, zanim zdecydowały, gdzie zainwestować. Mając dostęp do nowoczesnych alternatywnych zbiorów danych, wiele firm może po prostu przesłać swoje zbiory danych do narzędzia agregującego i uruchomić złożone modelowanie i algorytmy, aby przyspieszyć proces decyzyjny. W ten sposób firmy oszczędzają pieniądze, poprawiają dokładność i kontrolują jakość swoich procesów.
Jakość a ilość danych
Chociaż utworzenie zbioru danych zawierającego wszystkie dostępne dane może być kuszące, nie zawsze będzie to najskuteczniejsze w tworzeniu wartości.
Ilość danych jest prostą koncepcją i odnosi się do ilości informacji dostępnych w zbiorze danych. Jakość danych jest jednak pojęciem bardziej złożonym. Chociaż wysoka jakość danych może oznaczać wiele rzeczy, dyrektor generalny Acceldata.io, Rohit Choudhary, stwierdza , że „dążenie do posiadania wiarygodnych, dokładnych i czystych danych powinno nadal zawsze być najwyższym priorytetem”.
Innymi słowy, wartość zbiorów danych nie zależy od zakresu, jaki oferują, ale raczej od ich zdolności do dostarczania użytkownikom przydatnych informacji.
Projektując zbiór danych, chcesz, aby dane były wiarygodne i dokładne . W G2 możemy bezpośrednio łączyć dane z naszych recenzji z użytkownikami oprogramowania, którzy wystawili te recenzje. Kiedy między danymi a rzeczywistością zostaje nawiązane bezpośrednie połączenie, użytkownicy ufają tym danym, ponieważ mogą łatwo zidentyfikować ich źródło i kontekst.
Dokładność nie musi oznaczać perfekcji. Dokładność oznacza, że zbiór danych nie będzie wprowadzał użytkowników w błąd podczas wyciągania wniosków; Dokładność oznacza również, że zbiór danych dostarcza wartości w swoim obszarze kompetencji.
Nasz zbiór danych z recenzjami twierdzi, że kompleksowo reprezentuje opinie klientów na temat produktu, ale zapewnia bezstronne i potwierdzone recenzje od prawdziwych klientów, z których mogą korzystać nabywcy oprogramowania, sprzedawcy i inwestorzy. Jeśli jakość Twoich danych jest zasadniczo dobra, Twój produkt będzie miał wartość.
Nie oznacza to, że posiadanie dużej ilości danych jest czymś złym, ponieważ tak nie jest. Duże ilości danych są cenne w przypadku projektów korporacyjnych lub w przypadku szerszego zakresu przypadków użycia.
Co więcej, duży charakter zbioru danych sprzyja zwiększonej kreatywności w procesie analizy danych i zapewnia więcej możliwości gromadzenia unikalnych informacji.
Aby było to uzasadnione biznesowo, dostawcy danych często są w stanie sprzedawać swoje produkty związane z danymi po wyższej cenie, jeśli w zbiorze danych znajduje się więcej informacji. Z drugiej strony sprzedawcy nie będą w ogóle mogli sprzedać produktu, jeśli nie upewnią się, że ilość nie wpływa negatywnie na jakość.
Wyzwania związane ze zbiorami danych
Chociaż zrozumienie wartości zbiorów danych może otworzyć wrota wyobraźni i innowacji, nadal istnieją powszechne wyzwania związane z tworzeniem zbiorów danych. Identyfikacja i bezpośrednie stawienie czoła tym wyzwaniom jest ważne dla długoterminowego sukcesu zbioru danych
Dwa typowe wyzwania stojące przed zbiorami danych to brak oczywistej przewagi konkurencyjnej i słabe podstawy zbiorów danych, które utrudniają skalowalność.
Brak przewagi konkurencyjnej
Pierwszym wyzwaniem jest stworzenie zbioru danych, który ujawnia unikalne informacje w sposób bardziej efektywny niż inne źródła danych na rynku. Tworzenie i sprzedaż zbiorów danych przebiega podobnie jak w przypadku każdego innego produktu: chcesz, aby był cenniejszy niż produkty konkurencji.
Ostatecznie nabywcy danych mają ograniczone budżety i ograniczoną przepustowość niezbędną do pozyskiwania i analizowania danych. Aby zyskać przewagę konkurencyjną, dostawcy zbiorów danych muszą rozważyć niższą cenę, większą różnorodność danych i stworzyć przydatne spostrzeżenia.
Chociaż prawdą jest, że więcej danych często oznacza lepiej, ważne jest, aby twórcy zbiorów danych rozumieli, gdzie ich zbiór danych pasuje do szerszej strategii dotyczącej danych, aby uniknąć tego wyzwania.
Słabe fundamenty
Tworzenie solidnych podstaw zbioru danych to kolejne wyzwanie, które często jest pomijane podczas tworzenia produktów związanych z danymi.
Mówiąc o podstawach zbioru danych, mam na myśli rodzaj gromadzonych danych, sposób ich gromadzenia i format, w jakim są prezentowane. Brak solidnych podstaw zbioru danych może prowadzić do niskiej jakości danych, wyzwań związanych z wdrażaniem i utrudniać skalowalność.
W rzeczywistości, według raportu opublikowanego przez EY, „niektóre szacunki wskazują, że koszt naprawy błędu w jakości danych jest dziesięciokrotnie wyższy niż koszt zapobiegania mu, a zanim złe dane spowodują niepowodzenie strategicznych decyzji, koszt może wzrosnąć do 100 razy.” Często dostawcy danych są niezwykle skupieni na produkcie i możliwościach, jakie zapewnia zbiór danych, i mogą nie dostrzegać staranności, jaką należy dołożyć, aby przygotować się na przyszłość.
Gdy zbiory danych będą w dalszym ciągu dodawać informacje, muszą być w dalszym ciągu możliwe do zastosowania. Niespełnienie tych wyzwań, jak wspomina EY, będzie prowadzić zarówno do kosztów finansowych, jak i alternatywnych.
Jak zbudować lepszy zbiór danych
Teraz, gdy masz już podsumowanie znaczenia zbiorów danych, tego, jak zapewnić, że w zbiorach danych priorytetem jest jakość nad ilością, oraz kilka typowych pułapek podczas tworzenia zbiorów danych, oto moje dwie najważniejsze wskazówki, dzięki którym możesz mieć pewność, że wdrożysz te pomysły podczas następnej pracy z zbiór danych.
Zrozum swoich interesariuszy
Będąc nabywcą danych, powinieneś być w stanie wyobrazić sobie przypadki użycia, do których będzie odnosił się zbiór danych. Wyobraź sobie, że na miejscu Twojego zespołu sprzedaży sprzedajesz wartość zbioru danych. Będąc członkiem zespołu produktu, powinieneś być w stanie zobaczyć długoterminowy wzrost i rozwój zbioru danych.
Spoglądanie na produkt z różnymi intencjami i celami odkrywa inne perspektywy, które podkreślają ukryte mocne i słabe strony. Jeśli potrafisz rozpoznać wartość każdego interesariusza, Twój zbiór danych ma dobry punkt wyjścia.
Poćwicz wyjaśnianie danych
Jeśli potrafisz nauczyć, co oznacza każdy punkt danych i dlaczego jest przydatny, budujesz wiarygodność zbioru danych, a także możesz zapewnić, że jest on przystępny dla użytkowników. Jeśli nie jesteś w stanie skutecznie wyjaśnić, czym jest punkt danych i dlaczego został uwzględniony, może to oznaczać, że uwzględniłeś zbyt wiele informacji.
Pamiętaj, że nigdy nie możesz pozwolić, aby ilość danych obniżyła ich jakość.
Wdrażaj nowe wnioski
Innowacje w świecie danych postępują szybko. Możliwość zidentyfikowania i wdrożenia najnowszych trendów w danych pomoże Twojemu produktowi zyskać przewagę. Bycie na bieżąco z najnowszymi trendami pomoże zidentyfikować dalsze przypadki użycia, stawić czoła wyzwaniom i przygotować zbiór danych na przyszłość.
Nawet jeśli nie możesz dostosować się do najnowszych innowacji lub najnowszego modelu, świadomość zmian w branży pomoże Ci ukształtować strategię dotyczącą danych tak, aby miała ona długoterminową wartość.
Wszyscy kochają dane
Pracując z naszym zbiorem danych raportów inwestorskich, spotkałem się zarówno z zaletami, jak i wadami pracy ze zbiorami danych.
Dane mogą poprawić wydajność i wygenerować bardziej obliczone wyniki podczas rozwiązywania problemu. Dane mogą również powodować systematyczne nieścisłości i nadmierne poleganie na produkcie, który nie ma zdolności do ewolucji.
Zastanawiasz się, w jaki sposób dane mogą lepiej służyć Twoim zbiorom danych? Dowiedz się więcej o czyszczeniu danych i o tym, dlaczego priorytetem jest nadanie jakości danych.