Big Data Reduction Methods: A Survey

Rehman, Muhammad Habib ur; Liew, Chee Sun; Abbas, Abdulla; Jayaraman, Prem Prakash; Wah, Teh Ying; Khan, Samee U.

doi:10.1007/s41019-016-0022-0

Cited by 142 publications

(73 citation statements)

References 75 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…estimation problem of large-scale data in the way of data stream computation. In future, we will try to combine the I-KDE with the random sample partition (RSP) model [22,23] of big data and seek the practical applications for the I-KDE, e.g., Bayesian classification, density-based clustering, and big data reduction [24].…”

Section: Discussionmentioning

confidence: 99%

An Incremental Kernel Density Estimator for Data Stream Computation

Jie

Dai

et al. 2020

Complexity

View full text Add to dashboard Cite

Probability density function (p.d.f.) estimation plays a very important role in the field of data mining. Kernel density estimator (KDE) is the mostly used technology to estimate the unknown p.d.f. for the given dataset. e existing KDEs are usually inefficient when handling the p.d.f. estimation problem for stream data because a bran-new KDE has to be retrained based on the combination of current data and newly coming data. is process increases the training time and wastes the computation resource. is article proposes an incremental kernel density estimator (I-KDE) which deals with the p.d.f. estimation problem in the way of data stream computation. e I-KDE updates the current KDE dynamically and gradually with the newly coming data rather than retraining the bran-new KDE with the combination of current data and newly coming data. e theoretical analysis proves the convergence of the I-KDE only if the estimated p.d.f. of newly coming data is convergent to its true p.d.f. In order to guarantee the convergence of the I-KDE, a new multivariate fixed-point iteration algorithm based on the unbiased cross validation (UCV) method is developed to determine the optimal bandwidth of the KDE. e experimental results on 10 univariate and 4 multivariate probability distributions demonstrate the feasibility and effectiveness of the I-KDE.

show abstract

Section: Discussionmentioning

confidence: 99%

An Incremental Kernel Density Estimator for Data Stream Computation

Jie

Dai

et al. 2020

Complexity

View full text Add to dashboard Cite

show abstract

“…Big data in Telecom: Telecom companies require a proper searching and analysis [15] of data to get deeper understanding into customer behavior, their service usage preferences, patterns and real-time interests. Here is where Big Data comes in.…”

Section: Fig2 Application Of Big Datamentioning

confidence: 99%

Big Data Optimization Techniques: A Survey

Roy¹,

Rautaray²,

Pandey³

2018

IJIEEB

View full text Add to dashboard Cite

As the world is getting digitized the speed in which the amount of data is over owing from different sources in different format, it is not possible for the traditional system to compute and analysis this kind of big data for which big data tool like Hadoop is used which is an open source software. It stores and computes data in a distributed environment. In the last few years developing Big Data Applications has become increasingly important. In fact many organizations are depending upon knowledge extracted from huge amount of data. However traditional data technique shows a reduced performance, accuracy, slow responsiveness and lack of scalability. To solve the complicated Big Data problem, lots of work has been carried out. As a result various types of technologies have been developed. As the world is getting digitized the speed in which the amount of data is over owing from different sources in different format, it is not possible for the traditional system to compute and analysis this kind of big data for which big data tool like Hadoop is used which is an open source software. This research work is a survey about the survey of recent optimization technologies and their applications developed for Big Data. It aims to help to choose the right collaboration of various Big Data technologies according to requirements.

show abstract

“…Ši rizika pasireiškia per 5V modelį, kurį sudaro penkios charakteristikos, apibūdinančios didžiuosius duomenis: kiekį, greitį, įvairovę, teisingumą ir vertę; yra nemažai atvejų, kai žinomi analizės metodai negali būti taikomi apdorojant didelius (kiekis), įvairių formatų (įvairovė) duomenų kiekius per priimtiną laiką (mažas greitis), dėl to gaunami netikslūs rezultatai (teisingumas), pagal kuriuos parengiamos klaidingos prognozės (žema vertė) (Krasnow Waterman ir Bruening, 2014). Siekiant tikslesnių rezultatų ir teisingesnių prognozių, didiesiems duomenims tvarkyti turėtų būti naudojamos specialios sistemos ir algoritmai (ur Rehman et al, 2016), kurie garantuotų greitesnį, patikimesnį kompleksiškų duomenų apdorojimą.…”

Section: Didžiųjų Duomenų Naudojimo Rizikosunclassified

Didžiųjų Duomenų Naudojimas Klientui Pažinti / Model of the Big Data Use for Customer Cognition

Politaitė

Sabaitytė

2018

Science - Future of Lithuania

View full text Add to dashboard Cite

Šis straipsnis yra atvirosios prieigos straipsnis, turintis Kūrybinių bendrijų (Creative Commons) licenciją (https://creativecommons.org/licenses/by/4.0/), kuri leidžia neribotą straipsnio ar jo dalių panaudą su privaloma sąlyga nurodyti autorių ir pirminį šaltinį. DIDŽIŲJŲ DUOMENŲ NAUDOJIMAS KLIENTUI PAŽINTISimona POLITAITĖ * , Jolanta SABAITYTĖ Vilniaus Gedimino technikos universitetas, Vilnius, LietuvaGauta 2018 m. balandžio 9 d.; priimta 2018 m. gegužės 11 d.Santrauka. Į klientus orientuotoje rinkoje klientų elgsenos supratimas yra svarbus veiksnys, lemiantis organizacijos sėkmę. Organizacija, siekianti išlikti ir sėkmingai egzistuoti, negali ignoruoti nuolat didėjančių duomenų kiekių -didžiųjų duomenų. Didieji duomenys -sudėtingi duomenų masyvai, kuriuos sunku apdoroti naudojant tradicines duomenų apdorojimo programas. Optimaliai išanalizuoti tokie duomenys suteikia galimybę geriau pažinti klientus, tobulinti sprendimų priėmimo procesą, didinti konkurencinį pranašumą. Organizacijai svarbu suprasti, kaip panaudoti didžiuosius duomenis, kokias apdorojimo priemones ir modelius taikyti. Šiame straipsnyje analizuojamos didžiųjų duomenų koncepcijos ir raida, naudojimo rizikos, gavybos būdai ir taikomi modeliai. Taikomi šie metodai: mokslinių šaltinių sisteminė, loginė analizė, informacijos sugretinimas, sisteminimas.Reikšminiai žodžiai: didieji duomenys, kliento pažinimas, didžiųjų duomenų analizė, naudojimo rizikos, duomenų tyryba, duomenų valdymas. ĮvadasSusiformavus žinių visuomenei informacija ir tikslingas jos panaudojimas bei apdorojimas tapo tolimesnio visuomenės vystymosi pagrindu. Informacija išgaunama iš duomenų. Dėl to atsirado poreikis rinkti ir apdoroti didelius duomenų kiekius -didžiuosius duomenis. Sąvoka "didieji duomenys" -reprezentuoja naujas technologijas, skirtas duomenims, kurie generuojami dideliu greičiu, dideliais kiekiais bei yra įvairios struktūros, apdoroti (Lee, 2017). Optimaliai apdoroti didieji duomenys organizacijoms sukuria palankią informacinę terpę, kuri leidžia pažinti klientą. Dėl to didžiųjų duomenų tyrimams daug dėmesio skiria ne tik akademinė bendruomenė, bet ir verslo atstovai (Marr, 2015;Gartner, 2017;Langkafel, 2016; Beyer ir Laney, 2012;Deloitte, 2015).Nuolatinį duomenų kiekių augimą lemia technologiniai pokyčiai -didėjanti automatizacija ir augantis internetu sąveikaujančių įrenginių (angl. Internet of Things) naudojimas. Kas sekundę visame pasaulyje sukuriama apie 1,7 MB naujų duomenų (Marr, 2015). Šiuose duomenyse užkoduota informacija apie kliento elgseną, interesus ir poreikius. Dėl to vadybininkai patiria nemažą spaudimą, remiantis didžiųjų duomenų analize, identifikuoti klientų požiūrį ir elgesį lemiančius veiksnius.Optimaliai išanalizuoti duomenys didina įmonės konkurencinį pranašumą. Todėl, neretai didieji duomenys įvar-dijami kaip vienas strategiškai svarbiausių išteklių XXI amžiuje, svarba prilygstantis auksui ir naftai (Alharthi, Krotov ir Bowman, 2017). Taip pat didieji duomenys tapatinami su skaitmenine revoliucija, kuri, manoma, iš esmės pakeis tai, kaip ...

show abstract

Big Data Reduction Methods: A Survey

Cited by 142 publications

References 75 publications

An Incremental Kernel Density Estimator for Data Stream Computation

An Incremental Kernel Density Estimator for Data Stream Computation

Big Data Optimization Techniques: A Survey

Didžiųjų Duomenų Naudojimas Klientui Pažinti / Model of the Big Data Use for Customer Cognition

Contact Info

Product

Resources

About