Pojem Big Data se občas překládá do češtiny jako velká data nebo veledata a zpravidla se objevuje v oblasti informačních technologií (ICT). Označuje se jím tak velké množství dat, že je není možné v reálném čase zpracovat pomocí běžně dostupných nástrojů.
Zpravidla se jedná o všechny možné informace, které lze o uživateli zjistit a uložit na základě toho, co on sám za informace poskytne a jak se chová na sledovaných stránkách, aplikacích, místech apodobně. Získaná data jsou nejčastěji použita k cílení reklamy, ale na podobném principu funguje i ověření solventnosti žadatele o úvěr.
Existují tři základní charakteristické rysy big dat:
- volume – objem (aktuálně větší než 10 TB, tempo nárůstu dat se ale každý rok zvyšuje);
- velocity – rychlost (rychlost generování či pohybu dat vč. streamovaní);
- variety – typ (různorodost dat, jejich forma a struktura).
Jako další se uvádějí:
- veracity – věrohodnost (důvěryhodnost na základě vytěženého zdroje);
- value – hodnota (např. pro podnikání);
- složitost (provázání, porovnání, sloučení, transformace).
Big data se uchovávají v tzv. datových skladech (Data Warehouse), což je prakticky databáze optimalizovaná pro analýzu, pokládání dotazů a tvorbu výstupů. Kromě marketingu se big data zpracovávají, analyzují a vytěžují i v oblastech vědy a výzkumu a zdravotnictví. Největším zdrojem je v současné době společnost Google.