Перейти до вмісту

Big Data

Матеріал з K2 ERP Wiki

Ingestion

Big Data має обмеження.; * Найдорожча частина Big Data-проєкту часто не storage, а люди, які розуміють інформаційні дані.; Але мільярди таких записів можуть показати тренди, ризики, шахрайство, попит, поведінку користувачів, стан обладнання або слабкі місця бізнесу.;=== Fraud detection ===

!; Який очікуваний обсяг?; * надмірний збір даних;

  • re-identification;
  • витоки;
  • неправильний доступ;
  • зберігання довше, ніж потрібно;
  • використання даних без зрозумілої мети;
  • sensitive logs;
  • data sharing без контролю;
  • training data leakage.; Як інформаційні дані використовуються в BI або ML?;== Big Data і Cloud ==

Приклад data quality checks

Перевага: Big Data надає можливість бачити закономірності, які непомітні в малих вибірках або ручних звітах.; Проста аналогія: batch processing — це прочитати газету вранці, а stream processing — слухати live-ефір.; Ingestion Layer

  • data minimization;
  • anonymization;
  • pseudonymization;
  • access control;
  • encryption;
  • retention limits;
  • audit logs;
  • consent management у відповідних сценаріях;
  • privacy reviews.; Apache Spark — потужний engine для distributed data processing, який широко застосовується в Big Data.; Приклад

Value — користь, яку можна отримати з даних.; Коли користувачу стає “занадто очевидно, що за ним стежать”, довіра падає.; * Big Data і AI тісно пов’язані, але AI не виправляє автономно погані інформаційні дані.;== Distributed Computing ==

Головна перевага: Big Data надає можливість приймати рішення для бізнесу не тільки за відчуттями, а на основі великої кількості реальних сигналів.; Big Data застосовується там, де даних занадто багато або вони надходять занадто оперативно для простих інструментів.; Найлюдяніший факт: Big Data — це не магія великих чисел.; істотно: у фінансах Big Data має бути не тільки швидкою, а й audit-friendly: потрібно пояснити, звідки взялися інформаційні дані й рішення для бізнесу.; Big Data застосовують для:

Data Governance

  • encryption at rest;
  • encryption in transit;
  • IAM;
  • role-based access;
  • network isolation;
  • secrets management;
  • audit logs;
  • data masking;
  • tokenization;
  • secure ingestion;
  • vulnerability management;
  • backup;
  • incident response;
  • least privilege.; Big Data — це підхід до роботи з великими, швидкими й різноманітними даними, який надає можливість зберігати, обробляти, аналізувати й використовувати їх для бізнесу, науки, AI, безпеки, медицини, фінансів, IoT і багатьох інших сфер.; Metadata — інформаційні дані про інформаційні дані.; * Map — обробити частини даних;
  • Reduce — зібрати й агрегувати результати.; Це спроба почути історію, яку розповідають мільйони маленьких подій.; Недоліки:
  • Spark SQL;
  • DataFrames;
  • structured streaming;
  • MLlib;
  • graph processing у частині сценаріїв;
  • інтеграцію з data lakes і cloud storage.; Machine learning часто використовує Big Data для навчання моделей.; Processing Layer

Data catalog має змогу містити:

Кроки:

Проблеми:

  • medical imaging analysis;
  • patient records analytics;
  • epidemiology;
  • drug discovery;
  • hospital operations;
  • personalized medicine;
  • risk prediction;
  • clinical research;
  • public health monitoring.; Це зміна ownership і культури роботи з даними.;
Data engineering — дисципліна, яка створює pipelines, storage, processing і infrastructure для роботи з даними.;

завдяки наявності Цікавий факт: Big Data дала AI багато “палива”, а AI користувачі можуть людям не тонути в океані цих даних.; * гнучке зберігання;

  • дешевий storage у cloud-сценаріях;
  • супровід різних форматів;
  • збереження raw data;
  • підходить для ML і exploration.; Data warehouse — структуроване сховище даних для аналітики, reporting і business intelligence.; * ownership;
  • access control;
  • data catalog;
  • data quality standards;
  • privacy rules;
  • retention policies;
  • compliance;
  • classification;
  • lineage;
  • stewardship;
  • audit;
  • security policies.;== переважні аспекти Big Data ==

Проблеми veracity:

Яке бізнес-питання вирішуємо?;== Big Data Analytics ==

Чи є собою data catalog?;

Data pipeline — послідовність кроків, через які інформаційні дані проходять від джерела до використання.; даних: якщо він поганий забезпечується через Практична роль: data engineering — це водопровід; додатково реалізовано аналітичні інструменти й AI отримують брудну або нерегулярну воду.; Практична роль: Big Data сприяє бізнесу швидше помічати сигнали, які раніше губилися в шумі.; Data Mesh — організаційний і архітектурний підхід, де доменні команди відповідають за data products.; * автоматичну класифікацію;

  • anomaly detection;
  • entity extraction;
  • search;
  • summarization;
  • data cleaning;
  • pattern recognition;
  • natural language querying.; - BI dashboards

Компоненти Hadoop-екосистеми можуть включати: Перевірити, що timestamp має правильний формат

Цікавий факт

  • raw events;
  • logs;
  • CSV;
  • JSON;
  • Parquet;
  • Avro;
  • images;
  • audio;
  • ML datasets;
  • clickstream;
  • IoT data;
  • archived data.;== Data Security ==

Типи NoSQL:

HDFS

Curated storage

Hadoop

застосовується для: HDFS або Hadoop Distributed File System — розподілена файлова платформа Hadoop.; - Quality checks

Reduce: об’єднати підрахунки з усіх файлів

Ідеї Data Mesh:

  • KPI dashboards;
  • sales reports;
  • customer analytics;
  • financial reports;
  • operational monitoring;
  • marketing attribution;
  • product analytics;
  • executive reporting.; Практична роль: pipeline перетворює “сирі події” на інформаційні дані, яким можна довіряти в звітах, моделях і рішеннях.; істотно: великий обсяг сам по собі не робить інформаційні дані корисними.; характеристика

Проблеми distributed computing: DataOps охоплює:

Як зрозуміємо, що проєкт дав value?;
  • швидший старт;
  • менше hardware management;
  • масштабування;
  • integration з іншими сервісами;
  • storage separation від compute.; {| class="wikitable"

Data Warehouse

Проблеми data quality:

Практична роль: IoT Big Data сприяє бачити фізичний світ через цифрові сигнали.; істотно: у cloud Big Data без зайвих зусиль зберігати багато даних, але так само без зайвих зусиль отримати великий рахунок за storage, compute або data transfer.; * зручний SQL access;

  • стабільні звіти;
  • оптимізація для analytics;
  • governance;
  • business-friendly модель;
  • BI integration.; Без етикетки доведеться відкривати все вручну.; * Delta Lake;
  • Apache Iceberg;
  • Apache Hudi;
  • Parquet;
  • object storage;
  • Spark engines;
  • cloud query engines.; Mobile events → Raw data lake → Cleaned events → User metrics table → BI dashboard

Проста думка: data product — це не “таблиця десь у warehouse”, а інформаційні дані, якими інші можуть реально користуватися.; Чи маємо право збирати ці інформаційні дані?; * Hadoop був одним із головних символів першої хвилі Big Data.;== MLOps і Big Data ==

Big Data у медицині

Big Data — це не без ускладнень “багато файлів”.;== Коли Big Data має змогу бути невдалим вибором == Перевірити, що інформаційні дані оновилися за останню годину

Цікавий факт: Hadoop зробив популярною ідею: якщо інформаційні дані не поміщаються на одну машину, можна розподілити їх між багатьма й обробляти паралельно.; * У багатьох компаніях головна проблема не “немає даних”, а “ніхто не знає, яким даним довіряти”.;

Pipeline має змогу бути:

Проста різниця: data lake зберігає багато “сирого матеріалу”, а data warehouse — підготовлені інформаційні дані для звітів і рішень.; Проста ідея: HDFS розбиває великі файли на частини й зберігає їх на багатьох машинах із реплікацією.; Приклад

  • batch processing;
  • ETL;
  • analytics;
  • machine learning;
  • stream processing;
  • SQL queries;
  • data lake processing;
  • large-scale transformations.; Hadoop став одним із символів ранньої хвилі Big Data.; Якщо інформаційні дані перекошені або брудні, модель має змогу масштабувати ці помилки.;== Data Catalog ==

Hadoop — програмний пакет open source інструментів для distributed storage і distributed processing великих даних.; Big Data analytics — аналіз великих даних для отримання висновків.; істотно: MapReduce історично важливий, але не кожен сучасний Big Data-проєкт використовує його напряму.; Практична роль: velocity означає, що інформаційні дані потрібно не без ускладнень зберігати, а встигати обробляти, поки вони ще корисні.; Apache Kafka — distributed event streaming platform, яку часто використовують у Big Data й real-time architectures.; !; NoSQL часто використовують у Big Data через:

  • горизонтальне масштабування;
  • гнучкі schema;
  • високу швидкість запису;
  • великі distributed datasets;
  • спеціалізовані workloads;
  • low-latency access.; MLOps — практики для керування machine learning lifecycle.; * cost surprises;
  • vendor lock-in;
  • неправильний IAM;
  • data egress costs;
  • privacy і region constraints;
  • governance complexity.; Критично: Big Data без data quality — це не конкурентна перевага, а масштабований безлад.; Хто має доступ?; Практична роль: така технічна архітектура показує, що Big Data — це не один інструмент, а цілий шлях даних від джерела до рішення для бізнесу.; Приклади великих обсягів:
; Добрі практики:

Stream processing — обробка даних як безперервного потоку подій.; - Privacy policies

істотно: governance не має душити роботу з даними, але має не давати Big Data перетворитися на некероване сховище всього.; Ознака Популярні формати й технології:

  • Big Data часто цінна не окремим записом, а patterns між мільйонами записів.; - Batch imports
- Stream processing

Big Data часто потребує distributed computing, бо:

Big Data у бізнесі

істотно: data quality checks мають ловити не тільки неправильні значення, а й дивну поведінку pipeline.;
  • descriptive analytics — що сталося;
  • diagnostic analytics — чому сталося;
  • predictive analytics — що має змогу статися;
  • prescriptive analytics — що варто зробити.; це підхід до зберігання, обробки, аналізу й використання дуже великих, швидких або різнорідних наборів даних, які важко результативно обробляти традиційними інструментами виступає ключовою рисою Big Data або великі інформаційні дані.;

Spark застосовують для: Metadata має змогу описувати:

Data governance — правила, процеси й відповідальність за інформаційні дані.; Data Sources

Практична роль: DataOps сприяє зробити data pipelines не ручним ремеслом, а керованим production-процесом.; Це інший набір trade-offs для інших задач.;

ELT

Serving Layer

  • schema;
  • source;
  • owner;
  • update time;
  • data type;
  • sensitivity;
  • quality;
  • lineage;
  • retention;
  • access rights;
  • business meaning.; Які джерела даних потрібні?; Практична порада: Big Data варто використовувати тоді, коли проблема справді в масштабі, швидкості або різноманітності даних, а не без ускладнень з цієї причини, що це модний термін.; Це про те, щоб у цій горі знайти відповідь, яка комусь допоможе.; Це мистецтво перетворити масштабні інформаційні дані на корисне знання, рішення для бізнесу або дію.; Velocity — швидкість появи й обробки даних.; Data lake — сховище для великих обсягів raw і semi-processed даних у різних форматах.; Чим більше даних, тим більша відповідальність.; BI використовує Big Data для:
  • затримка;
  • не підходить для real-time use cases;
  • великі jobs можуть довго працювати;
  • помилки можуть затримати всю партію.; Velocity важлива для:

Kafka підходить для:

Privacy-ризики:

; істотно: unstructured data часто містять багато цінності, але їх складніше шукати, індексувати, аналізувати й захищати.; Завод збирає sensor data з обладнання, щоб прогнозувати поломки й планувати maintenance.; ELT часто використовують у cloud data warehouses і data lakes, де storage дешевший, а обчислення можна масштабувати.; Transformation

Типові помилки початківців

Apache Spark

Проста аналогія: Big Data — це не одна велика таблиця, а складський облік із коробками різних форм, які ще треба правильно підписати й розкласти.; * великих файлів;

  • distributed storage;
  • fault tolerance;
  • batch processing;
  • data locality;
  • масштабування на багато вузлів.; - Data warehouse
  • зберігати інформаційні дані на багатьох машинах;
  • обробляти інформаційні дані ближче до місця зберігання;
  • масштабуватися горизонтально;
  • використовувати commodity hardware у класичній моделі;
  • працювати з великими batch workloads.; Cloud computing сильно змінив Big Data.; Real-time analytics — аналіз даних майже одразу після їх появи.;
  • HDFS;
  • MapReduce;
  • YARN;
  • Hive;
  • Pig у старіших сценаріях;
  • HBase;
  • Sqoop у legacy-сценаріях;
  • Oozie у legacy-сценаріях.; IoT Big Data часто має:
Big Data стало популярним не з цієї причини, що люди раптом почали “любити великі таблиці”.; Big Data часто містить персональні або чутливі інформаційні дані.;

Apache Kafka

Business Intelligence

Business Intelligence або BI — інструменти й процеси для звітності, dashboards і бізнес-аналітики.; Kafka функціонує з поняттями:

Коли варто використовувати Big Data

'''Практична роль:''' MLOps поєднує Big Data і ML так, щоб модель не без ускладнень навчилася один раз, а жила в production.; * Data lake без governance має змогу стати data swamp.; Її варто використовувати там, де швидкість справді дає цінність.; Можливі проблеми:
Data sources
 - SQL transformations
'''Data lineage''' показує, звідки інформаційні дані прийшли, як трансформувалися й куди потрапили.; Stream processing потребує:
Медичні організації аналізують великі datasets для досліджень, планування ресурсів і виявлення ризиків.; Банківська платформа аналізує транзакції в реальному часі, щоб помічати підозрілі patterns і блокувати шахрайство.; Big Data спирається на distributed computing, data lakes, data warehouses, stream processing, Hadoop, Spark, Kafka, NoSQL, cloud platforms і data engineering.; Найкращий Big Data-проєкт — це не той, де найбільше терабайтів, а той, де інформаційні дані якісні, захищені, зрозумілі й реально створюють value.;== DataOps ==
Lineage сприяє:
'''Проста аналогія:''' ETL — це як помити, порізати й розкласти продукти перед тим, як покласти їх на полицю.;== Тематичні мітки ==

* має ясну мету;
* не перевантажена;
* показує контекст;
* має правильні шкали;
* не вводить в оману;
* пояснює важливі зміни.;</div>
AI, у свою чергу, сприяє Big Data через:

== Data Pipeline ==
бізнес-середовище використовує Big Data для:
</div>
У '''Data security''' у Big Data передбачено захист storage, pipelines, access і processing.; переважні аспекти:

* business intelligence;
* fraud detection;
* recommendation systems;
* predictive analytics;
* machine learning;
* customer segmentation;
* risk analysis;
* real-time monitoring;
* anomaly detection;
* personalization;
* logistics optimization;
* advertising analytics;
* healthcare analytics;
* financial modeling;
* security analytics;
* scientific research.; * Extract — отримати інформаційні дані з джерел;
* Transform — очистити й перетворити;
* Load — завантажити в цільове сховище.; Клік на сайті, транзакція в банку, GPS-позиція, перегляд відео, сенсор на заводі, лайк у соцмережі, лог сервера, медичний запис, покупка в магазині — усе це інформаційні дані.;<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">

* anomaly detection;
* intrusion detection;
* threat hunting;
* incident response;
* fraud detection;
* behavior analytics;
* SIEM;
* attack pattern discovery.; Це найочевидніша характеристика Big Data.; * fraud detection;
* real-time recommendations;
* live dashboards;
* alerting;
* cybersecurity;
* stock trading;
* IoT monitoring;
* logistics tracking.;<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">

<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">

<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">

* logs;
* network traffic;
* authentication events;
* endpoint telemetry;
* cloud audit logs;
* firewall events;
* DNS queries;
* vulnerability data;
* user behavior;
* threat intelligence.; '''Практична роль:''' ELT надає можливість спочатку зберегти raw data, а потім робити різні трансформації під різні задачі.; Ризики:

'''Data lakehouse''' — архітектурний підхід, який поєднує ідеї data lake і data warehouse.;== Veracity ==

== MapReduce ==

Validation

Чи є собою lineage?; Як перевіряємо data quality?; * Spark став популярним завдяки наявності швидшій і зручнішій distributed processing моделі.; Analytics / ML / BI
Big Data дає великі функціональні можливості, але має й великі ризики: погана якість даних, privacy-проблеми, security-ризики, висока вартість, складність governance і небезпека збирати інформаційні дані без мети.; |-
| Volume
| Великий обсяг даних
| Петабайти логів або транзакцій
|-
| Velocity
| Висока швидкість надходження
| Події з мобільного застосунку в реальному часі
|-
| Variety
| Різноманітність форматів
| Таблиці, JSON, зображення, відео, logs
|-
| Veracity
| Якість і надійність даних
| Помилки, дублікати, шум, неповні записи
|-
| Value
| Корисність даних
| Прогноз попиту або виявлення шахрайства
|}

=== Healthcare analytics ===
</div>
'''Головна думка:''' Big Data — це не “чим більше, тим краще”.; '''Небезпека:''' Big Data без governance — це як бібліотека без каталогу, де книги постійно падають з полиць.; Помилки мережі, затримки й часткові збої стають частиною реальності.; Яка retention policy?;<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">

Поширені помилки:

</div>

<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">

* domain ownership;
* data as a product;
* self-serve data platform;
* federated governance;
* product thinking for datasets.;== Цікаві факти про Big Data ==

Big Data сприяє AI через:

'''Практична роль:''' data catalog відповідає на просте, але болюче питання: “Де лежать потрібні інформаційні дані й чи можна їм довіряти?”

 - Spark

* ingestion;
* ETL;
* ELT;
* data lakes;
* data warehouses;
* batch processing;
* stream processing;
* orchestration;
* data quality;
* schemas;
* transformations;
* monitoring;
* governance;
* cloud storage;
* distributed processing.;== NoSQL ==
Data product має:
Governance охоплює:

<div style="background:#f0eaff; border-left:6px solid #8e44ad; padding:12px; margin:12px 0;">

== ETL ==

</div>

* event streaming;
* log aggregation;
* real-time analytics;
* microservices communication;
* data pipelines;
* clickstream ingestion;
* IoT data;
* fraud detection;
* event sourcing у частині сценаріїв.;</div>

Приклади:
'''Data catalog''' — інструмент або платформа для пошуку, опису й керування datasets.; інформаційні дані можуть надходити:

== Див.; додатково ==

Де зберігаємо curated data?; Big Data підходить, якщо:

<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">

== Data Quality ==

</div>

* document databases;
* key-value stores;
* column-family stores;
* graph databases;
* time-series databases;
* search engines.; * Найкраща data platform часто непомітна: люди без ускладнень отримують правильні інформаційні дані вчасно.; Data Mesh корисний у великих організаціях, де централізована data team стає bottleneck.; '''Критично:''' Big Data не дає права збирати все “про всяк випадок”.; Перевірити, що user_id не порожній
|-
| Structured data
| Чітка таблична структура
| SQL-таблиці, транзакції
|-
| Semi-structured data
| є собою структура, але гнучка
| JSON logs, XML, events
|-
| Unstructured data
| Немає простої табличної схеми
| Фото, відео, текст, аудіо
|}

Storage Layer
'''Практична роль:''' Spark став популярним, бо дав швидшу й зручнішу модель обробки великих даних, ніж класичний MapReduce.;<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">
'''істотно:''' batch processing чудовий для багатьох задач.;== Приклад Big Data architecture ==

* customer insights;
* персоналізації;
* оптимізації цін;
* керування inventory;
* прогнозування попиту;
* fraud detection;
* аналізу churn;
* автоматизації marketing;
* risk management;
* supply chain optimization;
* product analytics;
* operational efficiency.; * dataset versioning;
* model registry;
* experiment tracking;
* feature pipelines;
* deployment;
* monitoring;
* retraining;
* governance.; Основні переважні аспекти Big Data:

* privacy;
* consent;
* data quality;
* bias control;
* security;
* regulatory compliance;
* explainability;
* ethical review.; '''Підказка:''' хороший Big Data-сценарій має не тільки джерело даних, а й конкретне рішення для бізнесу або дію, яку ці інформаційні дані покращують.; '''Data quality''' — якість даних для використання.;== Data Lineage ==

== Data Lakehouse ==

== Data Mesh ==

</div>

* нічний перерахунок звітів;
* щоденне актуалізація data warehouse;
* місячна фінансова аналітичні інструменти;
* обробка історичних logs;
* навчання ML-моделі;
* генерація рекомендацій раз на добу.; Перевірити, що кількість подій не впала раптово до нуля
Приклад:
== Volume ==

== Big Data і AI ==

<div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;">

Перевірити, що schema не змінилася без попередження

* scalable storage;
* managed data warehouses;
* managed Spark;
* serverless query engines;
* streaming platforms;
* object storage;
* autoscaling;
* pay-as-you-go;
* managed ML services;
* global infrastructure.;<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">

* ризик data swamp;
* потрібна governance;
* складність пошуку;
* schema management;
* access control;
* data quality problems.; - Web events

== Big Data у фінансах ==

* biased data;
* noisy labels;
* privacy leakage;
* data drift;
* unbalanced datasets;
* expensive training;
* weak feature quality;
* training-serving skew.; * Більше даних має змогу погіршити рішення для бізнесу, якщо інформаційні дані biased або low quality.;</div>
Потрібно контролювати:

хмарна інфраструктура дає:

- Logs

Приклади:

- Raw data lake
Data product — dataset, pipeline, API або аналітичний ресурс, який має користувачів, якість, документацію, ownership і цінність.; ETL добре підходить, коли інформаційні дані потрібно підготувати перед завантаженням у warehouse.; Критично: погані інформаційні дані у великому масштабі дають не кращу аналітику, а більшу впевненість у неправильному висновку.;

Добра візуалізація:

  • висока вартість;
  • складність інфраструктури;
  • data quality issues;
  • privacy risks;
  • security risks;
  • складність governance;
  • нестача спеціалістів;
  • vendor lock-in;
  • складне debugging;
  • biased data;
  • overcollection;
  • погані dashboards;
  • повільні pipelines;
  • непотрібне зберігання всього;
  • складність compliance.;
- IoT sensors

Хороші практики Big Data

Big Data часто пояснюють через модель 5V.; - Access control Але тут особливо важливі:

Найлюдяніший сенс: візуалізація перетворює таблицю, яку ніхто не хоче читати, на історію, яку можна зрозуміти.; Не все має бути real-time.; * Kafka часто застосовується як “нервова платформа” real-time data architecture.;
Недоліки:
'''істотно:''' персоналізація має не переходити межу приватності.; MapReduce був дуже важливим для Big Data, але для багатьох сучасних задач його замінили швидші й зручніші engines, як ілюстрація Apache Spark.; Big Data часто пов’язують із distributed computing, data lakes, Hadoop, Apache Spark, Kafka, NoSQL, cloud storage, data engineering, machine learning, analytics і real-time processing.; Без структури, якості й задачі це без ускладнень дороге сховище.;<div style="background:#fef2f2; border-left:6px solid #ef4444; padding:12px; margin:12px 0;">

!;</div>
Але більше даних не завжди означає кращу модель.; Приклади:

Lakehouse намагається дати:

* fraud detection;
* live dashboards;
* online advertising;
* monitoring;
* dynamic pricing;
* personalized recommendations;
* risk scoring;
* supply chain tracking;
* gaming analytics;
* cybersecurity.;<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">
{{SEO
|title=Big Data — великі дані, аналітика, data lakes, Hadoop, Spark, streaming, AI і data engineering
|description=Big Data — Wiki-стаття про великі дані як підхід до зберігання, обробки й аналізу масивних, швидких і різнорідних наборів даних. Розглянуто 5V Big Data, Hadoop, Spark, data lake, data warehouse, data lakehouse, ETL, ELT, streaming, Kafka, NoSQL, distributed computing, data engineering, machine learning, privacy, governance, переваги, ризики, цікаві факти і хороші практики.
|keywords=Big Data, великі дані, data engineering, data lake, data warehouse, data lakehouse, Hadoop, Apache Spark, Kafka, NoSQL, distributed computing, data analytics, machine learning, ETL, ELT, batch processing, stream processing, real-time analytics, data governance, data quality, data privacy, 5V Big Data
|alternativeTo=традиційні spreadsheets для великих обсягів даних; ручна аналітика; single-server database для надвеликих workloads; локальні CSV-файли без governance; siloed data; data warehouse без raw data layer; звичайний BI без streaming; ручні reports без automation; data processing без distributed systems
}}
Як контролюємо cloud costs?; * Матеріали з data engineering, distributed systems і Big Data architecture.; '''NoSQL''' — клас баз даних, які не обмежуються класичною relational table model.;<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">
== Приклади сценаріїв використання ==
== Stream Processing ==

'''істотно:''' іноді правильна відповідь — не Big Data cluster, а чистіші інформаційні дані, краща модель метрик і одна добре спроєктована база.;== Batch Processing ==
MLOps охоплює:
Перевірити, що order_total >= 0

== Джерела ==

<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
'''істотно:''' красивий dashboard не гарантує правильні інформаційні дані.; Cybersecurity використовує Big Data для аналізу:

Data warehouse зазвичай містить:

* fraud detection;
* risk scoring;
* credit analysis;
* anti-money laundering;
* transaction monitoring;
* market analysis;
* customer segmentation;
* algorithmic trading;
* compliance reporting;
* anomaly detection.;<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">
Чи потрібен real-time, чи достатньо batch?; Хто owner dataset?; Де зберігаємо raw data?; '''Практична роль:''' Big Data analytics сприяє перейти від “здається” до “інформаційні дані показують”.; Ключові ідеї Hadoop:
<div style="background:#f0eaff; border-left:6px solid #8e44ad; padding:12px; margin:12px 0;">

 - Kafka

</div>

</div>

* version control;
* automated tests;
* pipeline monitoring;
* data quality checks;
* CI/CD for data;
* reproducibility;
* orchestration;
* observability;
* incident response;
* collaboration between data teams.;<div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;">

</div>

* економія коштів;
* кращі рішення для бізнесу;
* швидше виявлення шахрайства;
* персоналізація;
* прогнозування попиту;
* оптимізація логістики;
* покращення продукту;
* зменшення downtime;
* нові бізнес-моделі;
* кращий customer experience;
* автоматизація процесів.; Value має змогу бути:
<syntaxhighlight lang="text">

</div>

</div>

* збирати всі інформаційні дані без мети;
* не мати data owner;
* не перевіряти data quality;
* будувати data lake без catalog;
* плутати data lake з data warehouse;
* робити real-time там, де достатньо batch;
* ігнорувати privacy;
* давати всім доступ до всього;
* не рахувати cloud costs;
* не документувати schemas;
* не мати lineage;
* не моніторити pipelines;
* вважати dashboard правдою без перевірки;
* навчати ML на брудних даних;
* створювати data swamp замість data lake.; IoT створює величезні потоки sensor data.;== 5V Big Data ==
== Data Privacy ==
переважні аспекти:

== Big Data у кібербезпеці ==

Map: порахувати слова в кожному файлі

'''Veracity''' — достовірність, якість і надійність даних.; Критерії:
 ↓
'''Критично:''' distributed system не стає простішою лише з цієї причини, що її назвали “кластером”.; * batch;
* streaming;
* real-time;
* scheduled;
* event-driven;
* cloud-native;
* hybrid.;
  • accuracy;
  • completeness;
  • consistency;
  • timeliness;
  • uniqueness;
  • validity;
  • freshness;
  • reliability.;

Big Data має змогу бути зайвим, якщо:

  • audience segmentation;
  • campaign performance;
  • attribution modeling;
  • personalization;
  • churn prediction;
  • customer lifetime value;
  • A/B testing;
  • recommendation engines;
  • ad targeting;
  • sentiment analysis.;== Приклад checklist для Big Data-проєкту ==
'''ELT''' означає '''Extract, Load, Transform'''.;</div>
<syntaxhighlight lang="text">
'''Головне правило:''' Big Data має бути не без ускладнень великою, а зрозумілою, керованою, якісною й корисною.; * простіша модель;
* результативно для великих обсягів;
* комфортно для історичних даних;
* легше тестувати й повторювати.; Це ситуація, коли інформаційні дані стають настільки великими, швидкими, складними або різноманітними, що потрібні спеціальні архітектури, інструменти й процеси.;</div>

Типи analytics:

* щосекунди;
* мільйонами подій на хвилину;
* як streaming events;
* з IoT devices;
* з payment systems;
* з user activity;
* з monitoring systems;
* з security systems.; ↓

* дублікати;
* missing values;
* неправильні типи;
* різні формати дат;
* inconsistent IDs;
* late-arriving data;
* bot traffic;
* schema drift;
* broken pipelines;
* manual input errors.; Кроки:

 - Curated data lake

'''ETL''' означає '''Extract, Transform, Load'''.;<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
</div>

Raw storage

== Data Visualization ==

<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">

* training datasets;
* embeddings;
* user behavior signals;
* feedback data;
* evaluation datasets;
* logs;
* real-world interactions;
* multimodal data;
* synthetic data у частині сценаріїв.; * даних дуже багато;
* інформаційні дані надходять оперативно;
* є собою різні формати даних;
* потрібна distributed processing;
* звичайна база або BI вже не справляється;
* потрібна real-time аналітичні інструменти;
* потрібне ML на великих datasets;
* є собою чітка бізнес-цінність;
* потрібна обробка logs, events або IoT;
* потрібна масштабована data platform.;<div style="background:#f0eaff; border-left:6px solid #8e44ad; padding:12px; margin:12px 0;">

</div>

* глибша аналітичні інструменти;
* кращі прогнози;
* real-time insights;
* персоналізація;
* fraud detection;
* оптимізація бізнес-процесів;
* супровід AI і ML;
* виявлення patterns;
* краще розуміння клієнтів;
* автоматизація процесів рішень;
* monitoring великих систем;
* наукові відкриття;
* конкурентна перевага;
* масштабованість data processing.; '''DataOps''' — практики, які застосовують ідеї DevOps до data pipelines.; * recommendation systems;
* fraud detection;
* natural language processing;
* computer vision;
* forecasting;
* customer segmentation;
* anomaly detection;
* ranking;
* personalization;
* predictive maintenance.;<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">
Команда аналізує user events, funnels, retention і feature usage, щоб покращувати застосунок.;== Structured, Semi-Structured і Unstructured Data ==

* дублікати;
* пропущені значення;
* неправильні формати;
* застарілі записи;
* помилки sensors;
* bot traffic;
* inconsistent IDs;
* неточні timestamps;
* biased datasets;
* noise;
* data drift;
* human input errors.;== Big Data у маркетингу ==
'''Головне правило:''' Big Data-проєкт має починатися не з “давайте зберемо все”, а з питання “яку цінність ми хочемо отримати?”
=== IoT monitoring ===

'''Variety''' — різноманітність даних.; * dataset names;
* schemas;
* owners;
* descriptions;
* lineage;
* classifications;
* quality metrics;
* access policies;
* tags;
* business glossary;
* sample data;
* freshness information.; Big Data важлива для MLOps через:
<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">
'''Помилка:''' думати, що більше даних автономно означає кращі рішення для бізнесу.; Приклади:

== Data Product ==

* інформаційні дані поміщаються в одну нормальну relational database;
* достатньо простого BI;
* немає чіткої задачі;
* команда не має data engineering skills;
* бюджет малий;
* інформаційні дані поганої якості;
* privacy-ризики не продумані;
* інформаційні дані збираються “про всяк випадок”;
* простий SQL warehouse вирішує проблему;
* потрібна не кількість, а краще формулювання метрик.; BI залежить від якості pipelines, definitions і governance.; Значення

'''Data visualization''' сприяє бачити patterns у даних.; Big Data має змогу включати:
== Metadata ==

'''Проста аналогія:''' Kafka — це як дуже швидка й надійна стрічка подій, до якої різні системи можуть писати й з якої можуть читати.; Сучасний AI часто залежить від великих наборів даних.; Тип даних

 - API collectors

<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">

<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">

</div>

</div>

Типовий pipeline:

</div>

'''Критично:''' у медицині погані інформаційні дані або неправильно інтерпретована аналітичні інструменти можуть вплинути не лише на бізнес-середовище, а й на життя людей.; Governance Layer
 - Mobile events

== Machine Learning і Big Data ==
</div>
Перевірити, що немає дублікатів transaction_id
!; ↓

* high velocity;
* time-series structure;
* edge processing;
* noisy signals;
* device failures;
* network delays;
* real-time alerting.; HDFS призначена для:

'''Проста думка:''' Big Data важливі не з цієї причини, що даних багато, а з цієї причини, що з них можна отримати value.; - APIs
Data lake має змогу зберігати:
'''Критично:''' у security Big Data важлива швидкість: сигнал атаки має змогу бути серед мільйонів нормальних подій.; * network failures;
* data partitioning;
* coordination;
* consistency;
* latency;
* retries;
* partial failures;
* resource management;
* debugging complexity.; * debug reports;
* audit;
* compliance;
* impact analysis;
* trust;
* root cause analysis;
* data quality;
* migration planning.; '''істотно:''' Data Mesh — це не без ускладнень новий інструмент.; Приклади джерел Big Data:
<div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;">
</div>
== Velocity ==

Окремо один запис має змогу бути майже непомітним.;<div style="background:#fef2f2; border-left:6px solid #ef4444; padding:12px; margin:12px 0;">
</div>
</div>

Data engineers працюють із:

'''істотно:''' ML-модель вчиться з даних.; '''MapReduce''' — модель distributed processing, де обчислення діляться на два основні кроки:

* event ingestion;
* message broker;
* windowing;
* state management;
* fault tolerance;
* exactly-once або at-least-once semantics;
* late events handling;
* monitoring.; * Практики data lake, data warehouse, data lakehouse, ETL, ELT, batch processing і stream processing.; * Практики machine learning, MLOps, DataOps, BI, analytics, real-time processing і cloud cost management.; '''Distributed computing''' — обчислення, розподілені між багатьма машинами.; - ML models

* owner;
* SLA або expectations;
* documentation;
* schema;
* quality checks;
* access policy;
* lineage;
* support process;
* business meaning.; * topics;
* partitions;
* producers;
* consumers;
* consumer groups;
* offsets;
* retention;
* replication.; * інформаційні дані не поміщаються на одну машину;
* обробка на одному сервері надто повільна;
* потрібна fault tolerance;
* потрібно паралелити workloads;
* дешевше масштабувати горизонтально;
* інформаційні дані розподілені географічно.;
  • structured data;
  • semi-structured data;
  • unstructured data;
  • CSV;
  • JSON;
  • XML;
  • Parquet;
  • Avro;
  • images;
  • audio;
  • video;
  • text;
  • logs;
  • graph data;
  • geospatial data;
  • time-series data.;
переважні аспекти:

* web analytics;
* mobile apps;
* social networks;
* e-commerce;
* banking transactions;
* IoT sensors;
* server logs;
* clickstream data;
* video platforms;
* telecom networks;
* medical records;
* satellite imagery;
* industrial equipment;
* supply chain systems;
* smart cities;
* search engines;
* recommendation systems;
* cybersecurity logs;
* AI training datasets.; * Матеріали щодо data governance, data catalog, data lineage, data quality, privacy і security.; - Lineage

'''істотно:''' без lineage складно зрозуміти, чому показник у dashboard раптом змінився.;== Висновок ==
переважні аспекти:
Spark підтримує роботу:

<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">

Big Data корисні для:

== Data Lake ==

* Extract — отримати інформаційні дані;
* Load — завантажити в сховище;
* Transform — обробити вже всередині потужної data platform.; '''Практична роль:''' checklist сприяє не перетворити Big Data-проєкт на дороге накопичення даних без користі.;== Data Engineering ==

</div>

== Загальний характеристика ==

* smart factories;
* connected cars;
* smart meters;
* wearable devices;
* logistics sensors;
* smart agriculture;
* industrial monitoring;
* environmental sensors;
* smart homes.;</div>

</div>
  • line charts;
  • bar charts;
  • heatmaps;
  • maps;
  • scatter plots;
  • dashboards;
  • network graphs;
  • time-series visualizations;
  • anomaly charts.;== Big Data в IoT ==
істотно: data lake без каталогів, ownership і якості оперативно перетворюється на data swamp — болото даних.;

Рекомендовано:

Real-Time Analytics

  • training datasets;
  • feature stores;
  • model artifacts;
  • evaluation data;
  • monitoring data;
  • drift detection;
  • feedback loops;
  • batch inference;
  • streaming inference.;

Практична роль: security має бути вбудована в data platform, а не додана після того, як усі вже отримали доступ до всього.; Проста аналогія: metadata — це етикетка на коробці з даними.; Основна ідея: Big Data — це спосіб перетворити величезні потоки й масиви даних на корисні рішення для бізнесу, прогнози, аналітику або автоматизацію.; Причина простіша: цифровий світ почав залишати сліди всюди.; * мільярди подій clickstream;

  • терабайти logs;
  • петабайти відео;
  • мільйони транзакцій;
  • великі datasets для AI;
  • історичний розвиток sensor data за роки;
  • архіви медичних зображень;
  • інформаційні дані телеком-мереж.; Batch processing — обробка даних великими порціями за розкладом або подією.; * Документація Hadoop, Apache Spark, Apache Kafka, NoSQL databases і cloud data platforms.; - Catalog

Обмеження Big Data

У healthcare Big Data має змогу використовуватися для:

Найлюдяніший факт: Big Data — це не про те, щоб скласти гору даних.;=== Recommendation system ===

  • дешеве масштабоване storage;
  • підтримку raw і curated data;
  • SQL analytics;
  • ACID transactions у частині форматів;
  • schema evolution;
  • governance;
  • ML-friendly access;
  • BI-friendly access.; * починати із бізнес-питання;
  • не збирати зайві персональні інформаційні дані;
  • мати data governance;
  • створити data catalog;
  • контролювати data quality;
  • документувати datasets;
  • використовувати lineage;
  • розділяти raw, cleaned і curated data;
  • налаштувати access control;
  • шифрувати чутливі інформаційні дані;
  • моніторити pipelines;
  • тестувати transformations;
  • контролювати cloud costs;
  • мати retention policy;
  • думати про privacy з початку;
  • використовувати правильний формат файлів;
  • автоматизувати data pipelines.; Платформа аналізує перегляди, кліки, покупки й оцінки користувачів, щоб рекомендувати фільми, товари, музику або статті.;== Variety ==
- Transactions

Приклади:

Product analytics

істотно: real-time analytics дорожча й складніша.;

Цікавий момент: lakehouse з’явився як відповідь на проблему: data lakes гнучкі, але хаотичні; warehouses зручні, але не завжди достатньо гнучкі для всіх типів даних.; * fraud detection під час платежу;

  • live analytics dashboard;
  • real-time alerts;
  • recommendation updates;
  • IoT monitoring;
  • security event detection;
  • clickstream analysis;
  • logistics tracking.;

Volume — обсяг даних.; Маркетинг використовує Big Data для: </syntaxhighlight>

- Alerts

Приклад ідеї:

  • очищені інформаційні дані;
  • structured schemas;
  • fact tables;
  • dimension tables;
  • aggregates;
  • історичні інформаційні дані;
  • business metrics;
  • curated datasets.; Задачі:
  • прогноз продажів;
  • аналіз поведінки користувачів;
  • churn prediction;
  • risk scoring;
  • fraud detection;
  • demand forecasting;
  • campaign optimization;
  • supply chain analytics.;

Value

істотно: NoSQL не означає “краще за SQL”.;</syntaxhighlight>

Фінансові організації використовують Big Data для: