Data Journalism: новая журналистика больших чисел

Тина БережнаяТина Бережная,
советник Генерального директора
по информационным технологиям

Телеканала «RussiaToday»
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.

 

Аннотация
Наша жизнь давно перестала быть только чередой событий и действий: теперь наши покупки в магазинах, встречи с друзьями, семейные события и все другие наши жизненные ситуации становятся потоком данных. Данные генерируют люди, организации, правительства, общественные и спортивные события, учебный процесс – всё, что так или иначе соприкасается с современными технологиями. Поэтому возникновение нового направления журналистики, основанного на анализе данных и его понятном, ясном предоставлении обществу, совершенно логичная ступень эволюции журналистской работы.

Ключевые слова: дата-журналистика, данные, компьютерная отчетность, анализ данных, визуализация данных.

Примечание: полный текст с иллюстрациями находится в файле .pdf


Data Journalism: new journalism of big data

Tina Berezhnaya,
IT adviser to CEO

Summary
Our lives have stopped being a sequence of events and actions with the advent of digital technologies: now every purchase we make or a friend we meet are a data stream. Data is generated by people, companies, governments, social events, sports, studies… Everything that is now digitized is a part of this data stream. Thus the new trend in journalism based in gathering data and analyzing it to present the audience with humanly-readable information is only a logical development and possibly the future of journalism as an industry.

Key words: data journalism, data, journalism, computer-assisted reporting, data analyzing, data visualization

Cкачать статью в .pdf

 Такой способ получения и представления получил название datajournalism (в русском языке иногда это прямолинейно переводится как «журналистика данных», хотя это не совсем верно, но общепринятого термина, описывающего явление, пока не выработано, поэтому будем прибегать к англоязычному определению во избежание путаницы). Этот способ предоставления данных обществу очень популярен в США и Европе, где уже не только профессиональные журналисты и крупные СМИ занимаются datajournalism, но и активисты общественных движений и добровольцы, заинтересованные в той или иной теме.

Что же такое datajournalism? По сути, это перевод с языка данных на язык нашего повседневного общения. Например, некое министерство публикует информацию о расходах своего бюджета на отдельный социально-значимый проект. Почти в 100% случаев эти данные будут огромной таблицей с цифровыми значениями, разобраться в которой смогут только профессиональные финансисты. Работа с этими данными в специальных программах и предоставление их в другом виде, понятном для широкой общественности, является основой datajournalism.

Данные можно использовать в новом визуальном представлении – например, инфографике, интерактивных проектах, информативных видео, а можно применить при написании текста – не вся информация, извлечённая их баз данных, нуждается в визуализации.
Одной из пионеров визуализации данных ещё в 1856 году стала ФлоренсНайтингейл: она представила информацию о причинах смертности в британской армии за минувший год в виде очень понятной, простой диаграммы. До этого своего рода datajournalismтоже существовал: например, публиковались в таблицах данные о публичных школах, выборах и сводки с фронтов.

Сегодня работа с данными – это поиск новых историй, которые сейчас скрыты от общества непроходимыми таблицами с непонятными цифрами, это исследование разных социальных трендов и событий с максимальной точностью, это предоставление информации для общества в открытом и понятном виде, чтобы аудитория СМИ могла сама делать необходимые выводы.

Вот пример значимых для общества данных, полученных из открытых источников и представленных в яркой визуализации пользователям: проект WhereDoesMyMoneyGo?  Жители Великобритании могли увидеть, как расходуются их налоги. В частности, налоги Шотландии. Если бы этот проект не стал резонансным, вероятно, разрыв в голосовании на референдуме о независимости Шотландии был бы больше десяти процентов.

Datajournalism – это:

  • Фильтр массивов данных и объяснение ценности данных обществу. Далеко не все данные, которые журналист может получить, релевантны. Но обратить внимание на социально значимые показатели, объяснить их значение для общества – задача datajournalism.
  • Мост между данными и обществом. Раскрытие данных вовсе не означает, что они будут понятны обществу и применимы к нашей повседневной жизни. Datajournalismпозволяет создать необходимое понимание между обществом и владельцем данных: государственной или общественной организацией, общественным советом и т.д. Таким образом появляется совершенно новый уровень прозрачности в работе как бюджетных структур и государственных ведомств, так и общественных организаций, например, благотворительных фондов.
  • Независимая оценка официальных данных.Работа с данными от министерств и ведомств предоставляет обществу прекрасную возможность видеть, насколько эффективна государственная машина, насколько действия власти соответствуют ожиданиям граждан. Кроме того, появился ещё один инструмент оценки этих данных и независимого анализа – как профессиональными специалистами, так и активистами гражданского общества.
  • Раскрытие информации, ранее недоступной обществу.Данные открыто публикуются уже довольно давно, однако только недавно появились инструменты работы с ними, позволяющие превратить сухие, ни о чём не говорящие цифры, в важные для повседневной жизни факты. Так можно работать не только с современными данными, но и с архивными документами – не исключено, что именно инструментарий datajournalism позволит нам много нового узнать об истории.

Разумеется, сразу возникает вопрос: где же брать данные для работы с ними? В первую очередь, можно воспользоваться открытыми источниками – много данных выложено в сеть Интернет, есть специальные сообщества в сети, занимающиеся отслеживанием и публикацией баз данных. Материалы для работы есть на сайтах государственных организаций, общественных организаций, различных союзов и фондов. 

Во-вторых, за данными всегда можно обратиться непосредственно к их производителям – министерствам, исследовательским центрам, социальным центрам и т.д. Если эти данные не являются государственной или коммерческой тайной, их предоставят – для этого журналисту необходимо знать законы о СМИ и понимать, какие именно документы могут относиться к «закрытой» категории. Знание законов и правил поможет оперировать необходимой терминологией в запросе материалов.

В-третьих, могут помочь эксперты в интересующей вас области: они не только могут помочь с данными, но и подсказать, какие связанные темы необходимо исследовать для наиболее полного освещения той или иной новости.

Четвёртая опция – собрать данные у пользователей: некоторые события можно описать в цифрах через опрос их участников. При таком подходе надо особенно чётко определить релевантные критерии оценки, чётко составить вопросы  в листе-опроснике, чтобы не было возможности двояких толкований и шутливых ответов, а также убедиться, что число опрошенных – достаточное, чтобы составить верное представление о событии. Опросы можно проводить онлайн при помощи множества бесплатных или недорогих готовых приложений в Интернете, например, GoogleSurvey.
И пятый вариант: воспользоваться чисто технологическими методами сбора информации, например, webscraping – в этом случае придётся либо освоить техническую составляющую работы, либо обратиться к техническим специалистам.
Благодатная почва для анализа баз данных – результаты и процесс выборов, криминальные сводки, результаты социологических исследований, статистические данные и их изменение с течением времени, расходование и формирование бюджетов. Впрочем, всё, что можно описать цифрами, может стать основой проекта datajournalism.

Данные можно получить в очень разном формате, и хотя мы надеемся, что полученные данные будут системно и чётко представлены, с корректно пронумерованными полями и правильно заполненными цифровыми значениями, чаще данные выглядят как праздник хаоса. Можно ли с ними работать? Да, конечно! Для этого необходима техническая экспертиза, умение обращаться с программами для расшифровки таких данных или писать собственные. Поэтому в команде, занимающейся datajournalism, обязательно необходим технический специалист – программист.

Если же вы решаете, что для полученной в результате работы информации необходима визуализация, обязательно потребуется дизайнер: какие угодно интересные данные будут скучны и неинтересны аудитории, если они представлены в нечитаемых таблицах и бесконечных списках.

Разумеется, не все СМИ могут позволить себе такую команду отдельно, но поскольку у большинства уже есть как минимум свои сайты в сети Интернет, можно воспользоваться услугами штатных программистов и дизайнеров, просто чётко объяснить задачу. Кроме того, существуют несколько компаний в США и Европе, которые специализируются на аутсорсе проектов datajournalism для медийных компаний. Совсем недавно стали появляться бесплатные онлайн-инструменты, которые позволяют работать с данными и будут наверняка востребованы и профессионалами, и активистами. Их набор возможностей пока ограничен, но при растущей популярности datajournalism будет расти и количество опций в таких инструментах.

В случае если вы решили создать инфографику или интерактивный онлайн-проект для своих изысканий, следует придерживаться нескольких простых правил:

  • Надо выбирать информацию, важную для вашей аудитории, резонирующую с их образом жизни и интересами, иначе проекты datajournalism останутся без заслуженного внимания. Вряд ли спортивному изданию стоит заниматься расследованиями в области бюджетных расходов министерства культуры, а изданию об образовании – ростом цен на футбольные матчи.
  • Ключ к успеху – яркий и понятный дизайн.
  • Не надо перегружать визуализации цифрами: выделите основные, а все сопроводительные можно вынести в дополнительные экраны, например, чтобы заинтересованные в более детальной информации потребители могли легко её получить.
  • Все интерактивные проекты нуждаются в простых и понятных инструментах управления: не стоит менять стандартные и общепринятые элементы навигации, например, шкалу с плюсом и минусом для изменения масштаба картинки или кнопку-треугольник «воспроизвести». Чем меньше пользователь тратит внимание на то, чтобы разобраться с управлением и поиском, тем больше внимания он уделяет самому проекту.
  • Категорически важна социальная составляющая: сделайте всё возможное, чтобы вашими данными можно было делиться в соцсетях, данные можно было вставить в другую веб-станицу (embed). «Сарафанное радио» вокруг такого проекта – один из главных способов его популяризации. Кроме того, проекты datajournalismсоздаются не на короткий срок, и являются генераторами посещений долгое время.

Здесь возникает вполне резонный вопрос: если так много работы делается по расшифровке данных программистами и их визуализации дизайнерами, в чём же состоит работа журналиста?

В первую очередь, идея проекта всегда за журналистом. Он решает, какая информация важна сегодня, с какой стоит работать, как перевести бесконечный поток цифр на язык понятных обществу фактов. Даже в расшифрованных данных надо уметь видеть новость – и это тоже работа журналиста. Бывает, что одна база данных может породить много интересных журналистских работ. А бывает, что для одного расследования надо поработать с несколькими базами данных, связанных одной темой. Задача журналиста – увидеть это ещё в начале работы над проектом.

Кроме того, умение видеть связь между разными массивами данных и общественно-значимыми событиями и тенденциями – часть профессионального мастерства. Данные не существуют сами по себе, и способность видеть «большую картину», в которой существуют эти данные, видеть последствия их обнародования – задача журналиста.

Есть несколько примеров datajournalism, которые вполне можно считать уже классическими. Самый яркий из них, наверное, проект организации ProPublica «Доллары для докторов»: были собраны данные фармацевтических компаний о том, сколько они заплатили каждому отдельному врачу в США за рекламу, рекомендацию и выписку их лекарственных препаратов. Каждый житель Штатов может ввести имя своего лечащего врача и узнать, сколько денег он или она получили от фармацевтических гигантов, и сделать соответствующие выводы.

В Европе существует открытый проект OpenSpending: все желающие могут загрузить туда файлы с данными о бюджете стран, министерств, регионов и т.д. в формате Excelи получить визуализированное представление этих данных. Здесь можно увидеть, как правительства и государственные органы расходуют деньги от нашего имени, и понять, как это влияет на нашу жизнь. На данный момент на сайте выложены в открытом доступе 880 баз данных, к ним обращались почти 26 миллионов раз. Здесь можно найти и российские документы – всего их 11, при этом можно сравнить уровень детализации в отчётности разных стран  и регионов внутри одной страны и увидеть качество предоставленной ими информации. Что тоже может быть интересным источником наблюдений.

Этот же сайт создал отдельный проект: государственные субсидии фермерам в Европе. Предполагалось, что правительства выделяют средства на поддержку мелких и средних фермерских хозяйств, чтобы их продукты могли конкурировать с продукцией больших аграрных предприятий.

В результате обработки и публикации этих данных выяснилось, что всё происходит ровно наоборот: мелкие и средние хозяйства по-прежнему выживают, получая от государства минимальную поддержку, и большие средства уходят крупным аграрным компаниям. Это расследование дало жизнь множеству журналистских материалов во всех 28 странах, данные о которых представлены в проекте. Посмотреть этот проект можно здесь: http://www.FarmSubsidy.org

Как одна база данных может послужить источником многих журналистских работ, так и наоборот: некоторые истории требуют информации из самых разных баз данных и предоставления разных видов информации, чтобы рассказать (и, что важнее, проанализировать) новость во всей её полноте.

Прекрасным образцом такого подхода служит проект британской газеты The Guardian «Читаем бунты: что мы знаем. И чего не знаем». В этом проекте журналисты проанализировали причину и размах каждой из вспышек насилия во время беспорядков в Великобритании; узнали, каким транспортом и в какое время пользовались участники беспорядков; наложили информацию о точках, где происходили общественные беспорядки, на карту бедных и благополучных районов городов; рассмотрели, какие слухи и сплетни о беспорядках распространялись в социальных сетях, какие из них пользовались большей популярностью.

Все данные были получены в результате опроса тысяч участников и свидетелей событий, из сводок полиции и министерства внутренних дел, данных министерства юстиции, сведений национального центра социальных исследований.  В этом обширном проекте видны не только все известные на момент журналистского расследования факты о лондонских беспорядках и их участниках, но и лакуны, оставшиеся после предоставления информации всеми ведомствами: есть ли прямая связь между участием в беспорядках и уровнем дохода, является ли национальность участников решающим фактором, почему в некоторых районах Великобритании беспорядки сопровождались мародёрством, а в других –вандализмом? В этом случае журналисты прибегали к традиционным методам получения информации и анализа, поскольку даже в нашем цифровом веке ещё не все данные можно оцифровать.

Datajournalism – несомненно, очень перспективное и необходимое в цифровом мире направление журналистской работы. Есть надежда, что в обозримом  будущем правительственные и общественные организации примут единый стандарт формирования данных, предоставляемых общественности, как это уже начали делать в Великобритании. Это приведёт не только к новым стандартам открытости и прозрачности работы правительственных и общественных организаций, но и к волне популярности datajournalism как метода предоставления информации обществу как профессиональными СМИ, так и гражданскими журналистами и активистами общественных движений.

 

Источники:

  1. The Data Journalism Handbook by Jonathan Gray, Liliana Bounegru, and Lucy Chambers [электронный ресурс] http://datajournalismhandbook.org/1.0/en/ (дата обращения: 16.05.2015).
  2. The Guardian data blog [электронный ресурс] http://www.theguardian.com/data (дата обращения: 16.05.2015).

Дополнительная информация