Простое и эффективное руководство по использованию цвета для создания более впечатляющих историй данных.
Делиться

Это третья статья из моей серии, посвящённой визуализации данных. См. Часть 1: «Визуализация данных: что это такое и почему она важна» и Часть 2: «Визуализация данных: введение в визуальные переменные».
Сколько цветов вы видите на картинке ниже?

Большинство людей видят четыре: белый, зелёный и два разных оттенка розовато-красного. На самом деле эти два оттенка совершенно одинаковы: на изображении всего три цвета.
Эта популярная оптическая иллюзия иллюстрирует важный факт, который следует учитывать при визуализации данных: неудачно подобранные цветовые сочетания могут обмануть человеческий глаз. Для полного понимания цвета мне потребовалось бы углубиться в физиологические особенности человеческого глаза и понять, как мы на самом деле «видим» цвет.
Однако, поскольку это не статья по оптометрии, я вместо этого сосредоточусь на основах использования цвета, которые вам понадобятся для создания четких визуализаций данных.
Разница между цветовым оттенком и значением цвета
Когда в предыдущей статье я рассказывал о каналах визуального кодирования, я представил два разных канала, связанных с цветом: оттенок и яркость. Давайте рассмотрим их формально.
Цветовой тон — это то, что вы обычно представляете себе, когда слышите слово «цвет». Красный, зелёный, синий, розовый, жёлтый и т. д. — это разные оттенки. Цветовая насыщенность , с другой стороны, относится к «яркости» отдельного оттенка. На изображении ниже показаны различные значения цветов радуги, показывающие, как один и тот же оттенок может сильно различаться по яркости/насыщенности:

Хотя оба эти способа могут быть эффективными визуальными кодировками (см. мою предыдущую статью в этой серии, где подробно обсуждалось визуальное кодирование), значение цвета имеет одно заметное преимущество перед оттенком: его все равно можно воспринять, если визуализация напечатана в оттенках серого.
Типы цветовых шкал
Если вы хотите использовать цвет для визуального кодирования, вам необходимо начать с выбора цветовой шкалы. При этом следует учитывать несколько характеристик:
- Если ваши данные номинальные, то вы можете использовать категориальную цветовую шкалу, которая основана исключительно на цветовом оттенке.
- Для количественных данных вам нужно будет принять два дополнительных решения: 1) будет ли ваша шкала последовательной или дивергентной (т.е. будет ли она использовать один или два оттенка) и 2) будет ли ваша шкала непрерывной или разделенной на классы.
Таким образом, в нашем распоряжении имеется пять цветовых шкал, все из которых мы рассмотрим ниже: 1) последовательная и неклассифицированная, 2) последовательная и классифицированная, 3) расходящаяся и неклассифицированная, 4) расходящаяся и классифицированная и 5) категориальная [1].
Последовательные шкалы (одного оттенка) удобны для визуализации числовых значений, расположенных от самых низких к самым высоким. Дивергентные шкалы могут быть полезны, когда значения меняются от отрицательных к положительным или когда дизайнер хочет подчеркнуть разницу между цветами на двух концах шкалы.
Конечно, это лишь общие правила. В зависимости от конкретной визуализации лучше всего подходят разные типы шкал, и иногда может подойти несколько.
Последовательный и неклассифицированный
На следующей карте используется последовательная, неклассифицированная цветовая шкала, иллюстрирующая долю австралийцев, идентифицировавших себя как англикане на момент переписи 2011 года. Мы видим, что один оттенок, зелёный, увеличивается по интенсивности от светлого к тёмному. Поскольку используется только один цвет, расхождений нет, а поскольку шкала непрерывна, классов нет.

Последовательный и классифицированный
В отличие от представленной выше визуализации, карта США ниже содержит дискретные классы, различающиеся по цветовой гамме. Она по-прежнему последовательна, поскольку используется только розовый оттенок. Цветовая гамма увеличивается по мере увеличения доли взрослых в возрасте около 20 лет в округе.

Расходящиеся, классифицированные и неклассифицированные
Расходящиеся шкалы немного сложнее для понимания, поэтому давайте рассмотрим оба типа вместе в сравнительном примере. При этом мы также увидим различные преимущества классифицированных и неклассифицированных шкал.
Две диаграммы ниже были созданы на Python с использованием фиктивных данных. Данные состоят из следующих визуальных представлений (т.е. каналов визуального кодирования):
- Ось X состоит из чисел, обозначающих местоположение магазина.
- Ось Y представляет месяцы года.
- Цвет представляет собой «показатель удовлетворенности клиентов», собираемый вымышленными магазинами посредством ежемесячных опросов.

Соотношение классифицированных и неклассифицированных данных в этих визуализациях во многом похоже на последовательные шкалы, представленные выше. В левой (неклассифицированной) шкале представлена вся совокупность значений, тогда как в правой (классифицированной) шкале цвета представляют сгруппированные группы значений. Левая визуализация обеспечивает большую точность, но правая проще для интерпретации и применения.
Расхождение этих шкал более запутанное. Давайте разберёмся:
- В расходящейся шкале здесь используются два цвета: красный и зеленый (не самые доступные цвета в мире, как мы увидим далее в статье).
- Нейтральный белый цвет (или два светлых цвета в классифицированной шкале) представляет собой логическую «среднюю точку» в данных, которая в данном случае равна значению 0.
- Эта средняя точка имеет ключевое значение, поскольку она создаёт ситуацию, когда расходящаяся шкала естественным образом подходит для данных. Нет смысла использовать более одного цвета, если значения движутся только в одном направлении без осмысленного центра.
Категорический
Последний и, пожалуй, самый простой тип цветовой шкалы — категориальный. Наглядным примером служит представленная ниже диаграмма, показывающая распределение государственного финансирования в разных странах.

Если вы до сих пор внимательно следили за принципами, обсуждаемыми в этой главе, то, вероятно, заметили, что эта визуализация данных не слишком хорошо продумана. Она передаёт общую идею, но в ней слишком много разных цветов, что приводит к путанице в конечном дизайне.
Тем не менее, это эффективное использование категориальной шкалы, корректное применение этого типа шкалы к номинальным данным (данным, содержащим отдельные, неупорядоченные категории). Распространенная ошибка при визуализации данных, которой следует избегать, — это использование категориальной шкалы с несколькими различными оттенками, когда ваши данные демонстрируют явный числовой рост или убывание. В таких ситуациях обратитесь к одной из цветовых шкал, рассмотренных выше, в зависимости от ваших данных.
Итак, мы изложили основы цветовых шкал, которые необходимо знать для эффективной визуализации данных. В заключение давайте рассмотрим ещё несколько советов по грамотному использованию цвета.
(Не) используйте цвет избыточно
Может возникнуть соблазн использовать цвет в визуализации, когда это не требуется. Например, довольно часто встречаются столбчатые диаграммы с чёткими обозначениями по оси X, чтобы различать столбцы, которые всё ещё имеют разные цвета.
Это не ошибка, но может быть излишним. Если категорий всего несколько и они связаны с другими визуализациями, обязательно используйте цвет для дополнительной визуальной подсказки. Однако, если визуализация прекрасно работает и без него, не стоит её использовать.
В целом, следует избегать любых избыточных кодировок (представлений), если только они не обеспечивают дополнительную простоту интерпретации для наблюдателя. Это либо расточительно, поскольку этот канал кодировки может быть использован для другой переменной, либо сбивает с толку, поскольку наблюдателю приходится самому решать, отображает ли дополнительная кодировка что-то, что он не понимает.
Сделайте цветовые палитры доступными
Последний пункт краток, но невероятно важен. Не думайте, что если вы различаете цвета на визуализации, то и все остальные тоже. Визуализация данных должна быть доступна всем, включая людей с различными типами дальтонизма [2].
Например, рассмотрим визуализацию на Python в разделе о дивергентных цветовых шкалах выше. Как вы думаете, сможет ли человек с красно-зелёной цветовой слепотой правильно её интерпретировать? Маловероятно.
К счастью, нам не нужно прилагать слишком много усилий для обеспечения доступности наших визуализаций. Существует множество онлайн-инструментов [3, 4, 5], которые автоматически проверяют доступность выбранных вами цветовых палитр. Некоторые даже помогут вам их сгенерировать. Воспользуйтесь ими, чтобы сделать свои визуализации максимально доступными.
Заключительные мысли
Поздравляем! В третьей статье этой серии вы узнали основные принципы, необходимые для создания впечатляющих визуализаций данных. В следующих статьях мы наконец-то начнём проектировать и создавать собственные визуализации! До свидания!
Ссылки
[1] https://blog.datawrapper.de/which-color-scale-to-use-in-data-vis/
[2] https://www.nei.nih.gov/learn-about-eye-health/eye-conditions-and-diseases/color-blindness/types-color-vision-deficiency
[3] https://coolors.co/contrast-checker/112a46-acc8e5
[4] https://webaim.org/resources/contrastchecker/
[5] https://accessibleweb.com/color-contrast-checker/
Источник: towardsdatascience.com



























