W pracy omówiono zagadnienia związane z możliwością i perspektywami wykorzystania technologii Big Data w inżynierii. Zdefiniowano pojęcie Big Data. Omówiono wybraną metodę przetwarzania danych w technologii Big Data. Przedstawiono możliwości wykorzystania Big Data w inżynierii. SŁOWA KLUCZOWE: Big Data, hadoop, analiza danychIn the following paper issues related to the possibility and perspectives of using Big Data technology in engineering were presented. The concept of Big Data was defined. The chosen method of processing data in Big Data technologies was discusses. The possibility of using Big Data engineering was shown.
KEYWORDS: Big Data, hadoop, data analysisJeszcze kilkanaście lat temu nikt nie słyszał o Big Data. Aktualnie technologia ta rozwija się w sposób wyjątkowo energiczny i jest wykorzystywana praktycznie na całym świecie. Stanowi jedno z najważniejszych wyzwań współczesnego świata cyfrowego. Big Data umożliwia szybką analizę i wnioskowanie na bazie dużych ilości danych, m.in. w procesach projektowania, wytwarzania czy eksploatacji urządzeń i maszyn. Po raz pierwszy termin Big Data został użyty pod koniec lat dziewięćdziesiątych ubiegłego stulecia. Od tego czasu technologia ta regularnie zyskuje na popularności. Jednak pomimo upływu czasu wciąż nie istnieje jedna, powszechnie stosowana definicja Big Data. Dopiero w ciągu ostatnich kilku lat powstały istotne pozycje literaturowe oraz artykuły naukowe w tej dziedzinie. Przegląd literatury wskazuje, że temat jest wysoce interdyscyplinarny.
Co to jest Big Data?Pojęciem Big Data często określa się niesłusznie każdy duży zbiór danych. Wydaje się zatem, że dalej pojęcie to nie jest w pełni rozumiane. W rzeczywistości z Big Data mamy do czynienia dopiero wówczas, gdy tradycyjna eksploracja danych (data mining) nie jest w stanie wyszukać ukrytych wzorców i znaczeń [1]. McKinsey Global Institute definiuje Big Data następująco: "Big Data odnosi się do zbiorów danych, których rozmiar uniemożliwia przechwytywanie, przechowywanie, zarządzanie i analizowanie przez typowe narzędzia baz danych" [2]. Inna charakterystyka Big Data zaproponowana przez Douga Laneya z firmy Gartner w roku 2001, została pokazana na rys. 1.
Rys. 1. Model 3V10% danych to dane przechowywane w formie uporządkowanych tabel, które można analizować wykorzystując popularne narzędzia baz danych. Pozostałe 90% dostępnych danych to dane nieustrukturyzowane, takie jak nagrania z monitoringów, sygnały GPS, zdjęcia satelitarne ale również dane o temperaturze, przepływach czy częstotliwościach innymi słowy dane pochodzące z różnego rodzaju urządzeń czy maszyn. Uzupełnioną definicję prezentuje firma IBM, która określa dodatkowy atrybut Wiarygodność (ang. Veracity), a model ten można oznaczyć jako 4V. Wiarygodność danych jest istotna z punktu widzenia analizy danych. Jest to również ważna w przypadku analizy danych mających wpływ na przykład na proces projektowania. Z kolei pojęcie Biga Data według Instytutu SAS 4 jest definiowane jako duża ilość danych, strukturalnych i niestrukturalnych, które ciągle ...