el

Big Data Adaptive Data Mining


Τα τελευταία χρόνια έχουμε γίνει μάρτυρες μιας ραγδαίας ανάπτυξης των τεχνολογιών, των μεθοδολογιών και των εργαλείων ανάλυσης δεδομένων. Τι χρειάζεται για να μπορέσουμε να εξορύξουμε την τεράστια αξία που κρύβουν αυτά τα δεδομένα;

Ηπλειοψηφία των decision makers κατανοούν την αξία της πληροφορίας και αρκετοί CEO ονειρεύονται, ήδη, τη στιγμή που ο υπολογιστής θα αναλύει σε πραγμα- τικό χρόνο εσωτερικά δεδομένα, θα τα συνδυάζει με Big Data και θα τους ειδοποιεί στο κινητό τους για πιθανές ευκαιρίες ή κινδύνους. Πόσο κοντά είμαστε σε αυτή τη στιγμή; Οι περισ- σότεροι ΒΙ & Analytics Vendors θα σας πουν ότι είμαστε, ήδη, εκεί. Είμαστε στην εποχή των Big Data και όλοι ισχυρίζονται πως μπορούν να τα διαχειριστούν. Πράγματι, τα εργαλεία έχουν πλέον δυνατότητες πραγματικού χρόνου, οι βάσεις δεδομένων μπορούν να διαχειριστούν τεράστιους όγκους πληροφορίας και οι υπολογιστές γίνονται όλο και ισχυρότεροι.

Όμως, οι ίδιες παράμετροι που κάνουν πιο γρήγορη την ανάλυ- ση των δεδομένων συμβάλουν, ταυτόχρονα, και στην εκθετική αύξηση του όγκου τους. Μαζί με τους υπολογιστές γίνονται πιο ισχυρά και πιο οικονομικά τα κινητά τηλέφωνα και τα tablets. Το Internet on the go είναι, πλέον, καθημερινή πραγματικότη- τα. Και όλοι μας γινόμαστε περισσότερο «κοινωνικά δικτυωμέ- νοι» και παράγουμε περισσότερα δεδομένα.

Αναγνωρίζοντας τα σημαντικά δεδομένα 

Η πραγματικότητα είναι πως τα δεδομένα που παράγονται κα- θημερινά θα είναι πάντα περισσότερα από τα δεδομένα που μπορούμε να αναλύσουμε. Εκτός κι αν είμαστε η Google, το Facebook και το Twitter μαζί. Οσο πιο σύντομα συνειδητοποι- ήσουμε αυτόν τον περιορισμό τόσο πιο σύντομα μπορούμε να ξεκινήσουμε να τον υπερβαίνουμε με το μόνο όπλο που διαθέ- τουμε: την ευελιξία του ανθρώπινου μυαλού. Μια επιχείρηση δεν μπορεί να είναι επιτυχημένη όταν βασίζεται αποκλειστικά σε μια σειρά διαδικασιών που δεν αλλάζουν ποτέ. Πρέπει να υπάρχει σκέψη και συνεχής προσαρμογή. Μπορεί οι διαδικα- σίες να αποτελούν τη βάση της ανάλυσης και της επανάληψης των επιτυχημένων ενεργειών, ωστόσο οι επιχειρήσεις δεν μπορούν να αυτοματοποιηθούν πλήρως χωρίς την ικανότητα προσαρμογής. Ενας άνθρωπος μπορεί να χάσει μία ευκαιρία και να μάθει από αυτό ή να βασιστεί υπερβολικά στις διεργα- σίες του υπολογιστή και να χάσει 1.000 ευκαιρίες πριν να έχει στατιστικά ικανό όγκο δεδομένων ( ώστε να μάθει το σύστημα ανάλυσης να ενεργεί αυτόνομα). Το στοίχημα είναι, πλέον, στο να αναγνωριστεί η μία χαμένη ευκαιρία και η σημασία της, ώστε να αποφευχθούν οι 1.000 επόμενες. Η αλλιώς να αναγνωριστούν τα σημαντικά δεδομένα και να απομονωθούν από τα Big Data χωρίς να απαιτηθεί η – ανέφικτη - ανάλυση ολόκληρου του όγκου των δεδομένων. Αυτή είναι δουλειά για έναν Data Scientist και για ένα εργαλείο που θα του δίνει τη δυνατότητα να σχηματίζει υποθέσεις σχετικά με την αξία και τη συνάφεια συγκεκριμένων δομών δεδομένων και να τις ελέγ- χει σε πραγματικό χρόνο απέναντι στα Big Data. Ενα τέτοιο σύστημα, εμπνευσμένο από το LHC του CERN, είναι φυσικά δια- νεμημένο σε πολλαπλούς παράλληλους κόμβους για μέγιστη διαθεσιμότητα, πραγματοποιεί διαρκή λήψη στατιστικών δειγ- μάτων από πηγές Big Data και μπορεί να αναλύσει πάνω από
32.5 δισ. «γραμμών» δεδομένων, με ελάχιστες απαιτήσεις σε υπολογιστική ισχύ. Αυτή η διαδικασία είναι στην πραγματικό- τητα μια μορφή preemptive adaptive data mining και, πλέον, υπάρχουν εργαλεία που την καθιστούν εφικτή και προσιτή σε όλους μας, ακόμα κι αν δεν είμαστε η Google. Με τη βοήθεια εξειδικευμένων εργαλείων self-service analytics και sociall analytics, ο Data Scientist χρησιμοποιεί την υποδομή των ίδιων των Big Data hosts σαν προέκταση του Data Warehouse του οργανισμού, εκτελώντας σενάρια υποθέσεων – ελέγχου και μεταφέροντας τo βάρος της επεξεργασίας των δεδομένων στον Big Data host. Ετσι, με τη συμβολή του ανθρώπινου παρά- γοντα στην αναλυτική διαδικασία, δίνουμε σε όλους δυνατότη- τες εφάμιλλες των εταιρειών του Fortune 500.

Share