Як збирати та аналізувати дані кількісно та якісно. Корисний досвід для бізнес-аналітиків як не забути найважливіше
- Inna Prohorenko

- 2 бер.
- Читати 8 хв
Вступ
Сучасна аналітика передбачає роботу в умовах невизначеності: дані надходять із різних джерел, мають різний рівень якості та структури, а запити стейкхолдерів часто не збігаються між собою. У таких умовах ключовим завданням бізнес-аналітика є перетворення розрізненої інформації на цілісну та обґрунтовану картину для прийняття рішень.
Нижче наведено практичний кейс реалізації такого підходу на прикладі аналізу донорської підтримки України.
Метою дослідження було надати клієнту цілісну та структуровану картину донорської допомоги Україні: визначити, які сектори отримують фінансування, у яких обсягах та які залишаються недостатньо покритими.
Аналіз дозволив:
- виявити потенційні прогалини у фінансуванні;
- оцінити концентрацію ресурсів;
- проаналізувати секторні пріоритети донорів;
підготувати аналітичні висновки для подальшого стратегічного планування та ефективного управління донорськими ресурсами.Для реалізації поставленої задачі було використано наступний алгоритм:
1. Визначення джерел даних
2. Збір та первинна верифікація
3. Нормалізація та стандартизація
4. Класифікація та агрегація
5. Кількісний аналіз
6. Якісний аналіз
7. Візуалізація результатів
8. Формування висновків та рекомендацій
Наступні розділи деталізують кожен із кроків цього алгоритму.
1. Визначення джерел даних
Початковим етапом дослідження стала системна ідентифікація джерел даних із подальшою оцінкою їх релевантності, повноти, достовірності та актуальності.
Командою було сформовано централізований реєстр джерел (source inventory), який забезпечив прозорість методології та уніфікований підхід до подальшої роботи з даними.
Базовим джерелом для кількісного аналізу визначено офіційний реєстр матеріально-технічної допомоги (МТД) Кабінету Міністрів України. Він містить структуровану інформацію про проєкти, бюджети, донорів, бенефіціарів та строки реалізації, що дозволило сформувати ядро аналітичної бази.
Додаткові джерела (офіційні звіти, пресрелізи міжнародних організацій, відкриті дашборди, експертні матеріали) використовувалися для розширення контексту та перевірки повноти картини.
2. Збір та первинна верифікація
Збір даних здійснювався за принципом поєднання структурованих і неструктурованих джерел.
Реєстр МТД використовувався як основна база для проведення кількісного аналізу — агрегування за донорами, секторами та типами допомоги.
Публічні та експертні матеріали залучалися для якісної інтерпретації даних: уточнення змісту проєктів, визначення стратегічних пріоритетів, аналізу нових програм та зобов’язань, які не завжди відображені у формалізованих реєстрах.
Первинна верифікація передбачала перехресну перевірку даних між джерелами, виявлення розбіжностей та уточнення критичних показників із залученням стейкхолдерів. Такий підхід дозволив мінімізувати ризики неповноти або інтерпретаційних помилок на ранньому етапі аналізу.
3. Нормалізація та стандартизація
Після збору даних в одному Excel-файлі виникла потреба їх очистити, уніфікувати формат, конвертувати суми в єдину валюту та призначити кожному проєкту відповідний сектор економіки для подальшого групування.
Отож було проведено такі дії:
a) Стандартизація валют
- Усі бюджети проєктів, надані в різних валютах, були конвертовані у долари США за курсом на визначену дату
- В таблицях зберігали як оригінальні суми, так і еквівалент у USD для порівняння
b) Класифікація секторів
- Оскільки вхідні дані не містили єдиної секторної класифікації, було розроблено власну систему категоризації. Вона базувалася на міжнародних підходах до секторного поділу та враховувала опис проєкту, його цілі, визначених бенефіціарів, а також консультації з експертами. Такий підхід дозволив забезпечити послідовність класифікації та можливість подальшого коректного агрегування даних.Для цього використовували опис проекту, цілі, бенефіціарів, а також консультації з експертами.
c) Агрегація даних
- Всі проекти групували за донорами, секторами, типами допомоги (гранти, кредити, технічна допомога)
- Для великих донорів та проектів формували окремі зрізи: ТОП-n донорів, ТОП-5 проектів, тощо
d) Обробка неструктурованих даних
- Інформацію з прес-релізів та новин структурували вручну: виділяли ключові параметри (дата, сума, сектор, статус), так щоб структура таблиці відповідала структурі
- Для уніфікації використовували шаблони Excel.
Для обробки неструктурованих даних використовувалися інструменти штучного інтелекту. Зокрема, ШІ застосовувався для:
- формування та розширення бази релевантних джерел (пошук і первинний відбір матеріалів);
- парсингу текстових матеріалів;
- витягування ключових параметрів (дата, сума фінансування, сектор, тип допомоги);
- попередньої класифікації проєктів за секторами;
- формування стислих аналітичних витягів (executive highlights).
Подальша верифікація та фінальна класифікація здійснювалися вручну, що дозволило мінімізувати ризик інтерпретаційних помилок та забезпечити узгодженість даних.
4. Аналітичні підходи
4.1 Два основні підходи до проведення будь-якого аналізу
Основними підходами до аналізу є кількісний та якісний аналіз.
Кількісні показники дають відповідь на запитання “скільки?”, але не пояснюють “чому?” і “що це означає?”. Саме тому в межах дослідження було застосовано якісний аналіз — для інтерпретації фінансування у ширшому стратегічному та політичному контексті.
Зокрема, якісний аналіз дозволив:
- співвіднести напрями фінансування зі стратегічними пріоритетами держави;
- оцінити вплив політичних рішень на перерозподіл ресурсів;
- пояснити зміни у динаміці підтримки;
- проаналізувати відповідність донорської допомоги середньо- та довгостроковим зобов’язанням сторін.
Такий підхід дозволив перейти від простого опису розподілу коштів до розуміння логіки прийняття рішень та потенційних стратегічних наслідків.
a) Кількісний аналіз - це робота з числовими даними: суми, кількості, частки, середні значення, медіани, стандартні відхилення. Візуалізація: бари, пай-чарти, гістограми, heatmap, таблиці. В проекті було використано для:
- Розрахунок частки кожного донора/сектора у загальному обсязі допомоги
- Визначення концентрації ресурсів (наприклад, 80% фінансування у 20% проектів)

У таблиці секторів застосовано heatmap-підхід: колір відображає відносне значення показника в межах кожного стовпця (Amount, Share, Q-ty).
Колірна шкала формувалася за принципом min–max нормалізації:
- 🔴 найвищі значення,
- 🟢 найнижчі,
- проміжні — пропорційно між ними.
Окрема нормалізація для фінансування та кількості проєктів дозволила виявити структурні дисбаланси: високі бюджети при невеликій кількості проєктів або навпаки.
b) Якісний аналіз - це інтерпретація стратегій, пріоритетів, політик донорів, аналіз контексту, причин змін у фінансуванні. Візуалізація: Аналітичні схеми, інфографіка, текстові executive summary. В проекті було використано для:
- Вивчення стратегій донорів, їхніх середньо- та довгострокових пріоритетів.
- Аналіз впливу змін у політиці донорів (наприклад, скорочення програм USAID).

4.2 Стандартні підходи які можна завжди використати для візуалізацій та аналізу даних
4.2.1 ТОП-10 (Top-N Analysis) - Виділення найбільш значущих елементів (донорів, секторів, проєктів) за певним критерієм (сума, кількість, вплив).
Як застосовували:
- Побудова таблиць і діаграм із ТОП-10 донорів за обсягом фінансування та кількістю проєктів.
- Візуалізація частки ТОП-10 у загальному обсязі (наприклад, ТОП-6 донорів забезпечують ~80% фінансування).
Приклад візуалізації ТОП 10 донорів в грошах за допомогою барчарту:


Чому bar chart для TOP-N?
Для TOP-10 донорів обрано bar chart, оскільки:
- категорій більше ніж 5–6;
- важливо показати ранжування;
- потрібно підкреслити розрив між лідерами та іншими.
Наприклад, чітко видно домінування США за обсягом фінансування порівняно з іншими донорами.
Приклад візуалізації в вигляді таблиці ТОП 6 донорів, якими було надано 83% від загальної суми наданих коштів:

Приклад візуалізації в вигляді таблиці ТОП 6 донорів, якими було покрито 80% від загальної кількості проектів:

Переваги:
- Дозволяє швидко ілюструвати концентрацію ресурсів.
- Полегшує фокусування уваги стейкхолдерів на ключових гравцях.
4.2.2 Правило Парето (80/20 Rule)
80% результату забезпечують 20% причин. У фінансовому аналізі часто 80% фінансування припадає на 20% проєктів чи донорів.
Як застосовували:
- Аналіз розподілу проєктів за донорами: близько 80% усіх проєктів було ініційовано п’ятьма основними донорами.
- Візуалізація цього ефекту через кумулятивні діаграми (наприклад, cumulative bar chart).
Приклад візуалізації Правила Парето (80/20 Rule) у вигляді кумулятивної діаграми

Переваги:
- Виявляє “ключові точки впливу” для оптимізації зусиль.
- Дозволяє аргументовано рекомендувати пріоритети для інвестицій чи моніторингу
Чому кумулятивна діаграма для правила Pareto?
Pareto chart дозволяє одночасно показати:
- абсолютні значення,
- накопичувальну частку,
- точку концентрації (≈80%).
Аналіз показав, що близько 80% проєктів ініційовані п’ятьма основними донорами. Такий формат краще демонструє концентрацію, ніж звичайний bar chart.
4.2.3 Розподіл Гауса (Normal/Gaussian Distribution)
Аналіз розподілу даних навколо середнього значення. Дозволяє оцінити, чи є “довгі хвости” (outliers), чи більшість проєктів/донорів мають схожі бюджети.
Як застосовували:
- Побудова гістограм розподілу бюджетів проєктів.
- Виявлення, що більшість проєктів мають невеликі бюджети, а основна маса фінансування сконцентрована у “хвості” (кілька великих проєктів).
Приклад візуалізації розподілу Гауса у вигляді стовпчикової діаграми


Переваги:
- Дозволяє ідентифікувати аномалії та “нетипові” проєкти.
Пояснює, чому середнє значення може бути не репрезентативним.Чому гістограма для розподілу бюджетів?
Гістограма дала змогу оцінити характер розподілу:
- більшість проєктів мають невеликі бюджети;
- основна маса фінансування зосереджена у «довгому хвості» великих проєктів.
Гістограму обрано замість box-plot через кращу зрозумілість для ширшої аудиторії.
4.2.4 Аналіз структури фінансування та кількості проєктів
Використовується для порівняння двох ключових вимірів: обсяг фінансування та кількість проєктів у різних секторах. Дозволяє виявити дисбаланс між фінансовими та соціальними пріоритетами.
Як застосовували:
- Побудова TreeMap, що показує розподіл фінансування по секторах (розмір блоку = обсяг бюджету).
- Побудова Pie Chart, що відображає кількість проєктів у кожному секторі (у штуках і відсотках).
- Порівняння двох візуалізацій для визначення секторів із високим фінансуванням, але малою кількістю проєктів, та навпаки.
Приклад візуалізації розподілу фінансування по секторах за допомогою TreeMap:

Приклад візуалізації кількості проєктів по секторах за допомогою Pie Chart:

Переваги:
- Дозволяє одночасно оцінити фінансову концентрацію та відносну активність секторів.
- Підвищує якість прийняття рішень завдяки аналізу двох вимірів замість одного.
- Полегшує комунікацію зі стейкхолдерами, наочно демонструючи співвідношення між великими бюджетами та кількістю реалізованих ініціатив.
Логіка вибору TreeMap vs Pie Chart
- Для відображення структури фінансування по секторах було використано TreeMap, оскільки цей формат дозволяє компактно представити велику кількість категорій та наочно показати їх відносну вагу в загальному обсязі бюджету.
- Для демонстрації кількості проєктів застосовано Pie Chart, де основний акцент зроблено на відсотковій структурі та частці кожного сектору у загальній кількості ініціатив.
Порівняння двох візуалізацій дало змогу проаналізувати співвідношення між фінансовими обсягами та кількістю проєктів і виявити можливі дисбаланси.
5. Робота зі стейкхолдерами
Залучення експертів
- Консультації з представниками урядових структур, міжнародних організацій.
- Верифікація даних та уточнення деталей по проектах за допомогою відкритих джерел
Регулярний збір фідбеку
- В процесі підготовки звіту організовували review-сесії з ключовими стейкхолдерами проекту як зі сторони клієнта так і з внутрішніми колегами
- Враховували коментарі щодо структури, інтерпретації, акцентів.
Прозорість та відкритість
- Всі джерела даних та методологія були чітко задокументовані та відкриті для перевірки.
- Додатково готували executive summary для швидкого ознайомлення.
Окрім review-сесій, обговорювалися також:
- доцільність вибраних типів візуалізації;
- формат подання для різних рівнів управління (детальна аналітика vs executive summary);
- глибина деталізації (TOP-5 vs TOP-10).
У деяких випадках діаграми адаптувалися після фідбеку, якщо вони були складними для швидкого сприйняття.
6. Виклики з якими зіштовхнулися та рішення
- Фрагментованість даних – це поширена ситуація, яка може вирішуватись шляхом комбінування різних джерел та ручної обробки.
- Відсутність єдиного стандарту – також типова проблема, тому створили власну систему категоризації та нормалізації.
- Динамічність ситуації – завжди поки проводиш певне дослідження та оформлюєш звіт, ситуація не стоїть на місці, а динамічно змінюється, тому вже на самому фінальному кроці необхідно оновити дані.
7. Висновки для бізнес-аналітиків
- Робота з фрагментованими даними вимагає системності, дисципліни та чіткої методології. Гібридний підхід , поєднання структурованих реєстрів із публічними та експертними джерелами, дозволяє сформувати повну картину навіть за умов обмеженої або неоднорідної інформації.
- Якість аналітики значною мірою залежить від етапу нормалізації та класифікації. Навіть за наявності автоматизованих інструментів саме аналітик несе відповідальність за логіку структурування даних, їх узгодженість та інтерпретацію.
- Комунікація зі стейкхолдерами не є окремим етапом, вона інтегрована в процес аналізу. Перехресна перевірка даних, уточнення контексту та регулярний фідбек знижують ризик помилкових висновків і підвищують довіру до результатів.
- Документування джерел, припущень і методології - обов’язкова умова прозорості та можливості повторного використання результатів у майбутньому.
- Окремий управлінський інструмент — правильний вибір візуалізації. Формат подання повинен відповідати аналітичній задачі:
o порівняння і ранжування — bar chart;
o структура — pie chart або treemap;
o концентрація — Pareto chart;
o розподіл і аномалії — гістограма;
o швидке порівняння кількох метрик — heatmap.
- Візуалізація - це не оформлення, а спосіб мислення. Неправильно обраний формат може спотворити акценти, тоді як коректний - допомагає швидко виявити дисбаланси, концентрацію ресурсів і стратегічні точки впливу.
- Зрештою, завдання бізнес-аналітика не просто зібрати та показати дані, а перетворити їх на управлінські інсайти: пояснити, що важливо, чому це важливо і які рішення мають бути прийняті далі.
Невеликий лайфхак для БА
На жаль, замовник майже ніколи не оцінить, скільки поту і сліз ви залишили на етапі збору, очистки, нормалізації та структурування даних, якщо у звіті немає якісних висновків або саммері.
Тому робіть саммері на початку звіту, ще до аналізу. Чому? Бо по той бік часто сидять дуже зайняті люди, які ведуть кілька проєктів одночасно. У них немає часу читати лонгріди, але є потреба отримати цінні інсайти для прийняття рішень.
Ваше завдання, щоб у саммері було зрозуміло: що важливо, чому це важливо і що робити далі.
Новини та статті з бізнес-аналізу:


