Большие данные (Big Data) можно определить, как массив структурированных или неструктурированных данных, выраженный в десятках/сотнях тысячах переменных. Big Data обрабатывают с помощью автоматизированных систем анализа статистических данных.
В России основными источниками больших данных выступают сотовые операторы. Как правило, массив данных для анализа Big Data предоставляется в формате .CSV, имеет от десятков до миллионов строк. Результатом анализа больших данных выступает подготовка аналитического отчета, или дашборда изменяемого в реальном времени.
Основной сложностью в работе с Big Data выступает однозначность и корректность собранных данных, правильная их интерпретация.
В виду огромного и деталезированного массива данных, может создаться впечатление тотальной информированности о происходящем социальном процессе. При этом часто большие данные не застрахованы от системной скошенности, в том числе ввиду построения математической модели без учета всех рисков.
В своих проектах, помимо больших данных, мы стараемся использовать альтернативные способы сбора данных, следуя принципу триангуляции.