Добрый день!
Рост открытых данных сыграл решающую роль в улучшении доступа к данным аналитиков, работающих над собственными проектами, государственных чиновников, разрабатывающих политику, и ученых, проводящих передовые исследования в широком спектре областей.
Поскольку любой человек, имеющий компьютер и некоторые навыки программирования, может загрузить и получить доступ к этим высококачественным наборам данных, открытые данные представляют собой радикальный сдвиг в сторону демократизации знаний. Готовы узнать больше о новом захватывающем ресурсе в аналитике? Давайте начнем!
Что такое открытые данные?
Открытые данные означают, что данные могут быть использованы кем угодно в любых целях. Это позволяет любому преобразовывать, дополнять, распространять и создавать на их основе как некоммерческие, так и коммерческие приложения.
Открытые данные появились вместе с более широким стремлением в технологиях к программному и аппаратному обеспечению с открытым исходным кодом.
Многие компании, академические институты, аналитические центры, некоммерческие организации и отдельные исследователи объединились для свободного обмена своими данными.
Если вы заинтересованы в том, чтобы освоить профессию аналитика данных, то мы советуем вам обратить свое внимание на курс от образовательной платформы Netology «Аналитик данных».
Благодаря данному курсу вы сможете стать универсальным аналитиком, который сможет работать в любой сфере, изучить технологии и получите навыки, востребованные у работодателей. Вы сможете начать работать по специальности уже через 6 месяцев обучения.
Почему важны открытые источники данных?
Важно использовать данные, которые вы имеете право использовать и публиковать, особенно если вы делаете свою работу публичной или создаете что-то для коммерческого использования. Пишете ли вы для деловой, академической или неспециализированной аудитории, вашим читателям будет интересно узнать, откуда взялись ваши данные или как они были собраны и получены.
Большинство патентованных наборов данных запрещают использование данных в коммерческих целях, что означает, что вы не можете использовать их, если вы хотите продать что-то на основе этих данных, без получения прямого разрешения от создателя. Поскольку получение разрешения может занять довольно много времени, почти всегда лучше выбрать один из многочисленных открытых наборов данных, доступных в Интернете.
Более того, в последние годы правительства и некоммерческие организации стали активно публиковать свои наборы данных в Интернете, чтобы повысить прозрачность и подотчетность. В США, например, был принят Закон об открытых правительственных данных, призванный стимулировать разработку политики, основанной на фактических данных.
Лучшие бесплатные источники открытых данных
Открытые источники данных: Журналистика и исследования
1. FiveThirtyEight – это новостной сайт, который хорошо известен своими запоминающимися визуализациями с фирменным стилем и форматированием.
Они опубликовали некоторые из своих данных и код, которые используются для создания графиков. Они размещены на Github и являются идеальным набором данных для начинающих, поскольку они были очищены для облегчения анализа.
Их наборы данных варьируются от спорта (прогнозы на НФЛ 2022 года), политики (политические пожертвования) до культуры (тест Бехделя, примененный к фильмам).
2. Как один из самых популярных новостных сайтов в мире, New York Times не нуждается в представлении. На своем портале для разработчиков они упрощают работу с одним из десяти API, которые позволяют получить доступ к метаданным статей, спискам бестселлеров, лучшим историям и т.д. Данные возвращаются в виде JSON-файлов, так что вам потребуется приличное знание основ программирования.
3. Pew Research Center – это известный аналитический центр, который регулярно проводит опросы общественного мнения и другие исследования, основанные в основном на данных и использующие строгие методологические стандарты.
Они работают по широкому кругу тем и часто выходят за рамки американского анализа. Например, они проводят межнациональные исследования с помощью международного опроса Global Attitudes, а также создали Data Labs для создания новых способов получения данных с целью улучшения их текущего сбора.
Открытые источники данных: Правительство
4. Правительство США опубликовало более 335 221 набора данных, которые можно отфильтровать по формату, геопространственным границам, категориям и организациям.
Доступные здесь наборы данных охватывают широкий спектр категорий: сельское хозяйство, климат, энергетика, местные органы власти, морское хозяйство, океан и здоровье пожилых людей.
В настоящее время они выделяют набор данных по рекам, включенным в программу электронных навигационных карт внутренних районов (IENC), которая охватывает тысячи миль судоходных водных путей.
5. Канадская провинция Онтарио стремится к тому, чтобы данные были «открытыми по умолчанию»; это означает, что у вас есть доступ к богатому источнику из более чем 2700 перечисленных наборов данных по таким категориям, как правосудие и общественная безопасность, окружающая среда и природные ресурсы, а также инфраструктура и транспорт. Хотя не все из них еще готовы для публичного доступа, стоит сохранить эту закладку, чтобы следить за появлением новых наборов данных.
6. Портал открытых правительственных данных Индии содержит 4 738 позиций в своем каталоге наборов данных. Вы можете изучить наборы данных по секторам (перепись населения, водоснабжение и санитария, финансы, животноводство), группам, штатам или API. Если вы не знаете, с чего начать, на главной странице вы найдете несколько полезных разделов, которые могут вдохновить вас на следующий проект. В разделе «Карусель визуализаций» вы можете просмотреть наиболее просматриваемые визуализации. Также вы можете посмотреть, что представляет собой «набор данных высокой ценности» в настоящее время.
7. Домашняя страница Сингапурского открытого набора данных выглядит как приборная панель, потому что частично является таковой: вы можете изучить визуализации в разделе «Сингапур с первого взгляда», чтобы посмотреть на национальную статистику, которая может дать вам идею для вашего проекта.
Более продвинутые аналитики оценят страницу ресурсов для разработчиков, где объясняется, как можно получить доступ к одному из четырнадцати наборов данных в режиме реального времени, включая доступность такси, индекс ультрафиолета, прогноз погоды и индекс стандартов загрязняющих веществ.
8. City of London в Великобритании опубликовал 1 101 набор данных, начиная от спорта, планирования, искусства и культуры.
Их можно загрузить в различных форматах и отфильтровать по уровню географических границ (например, местный орган власти, район или округ) и издателю источника. Особенно интересный набор данных отслеживает ежедневные уровни водохранилищ в Лондоне с 1989 года по настоящее время.
Открытые источники данных: Наука и техника
9. Если вы заинтересованы в использовании тех же данных, с которыми работают исследователи в разных областях и дисциплинах, зайдите на сайт Open Science Data Cloud. Эта платформа позволяет научному сообществу делиться своими чрезвычайно большими наборами данных – терабайтного и петабайтного размера, что требует более глубоких знаний программирования для обработки и обучения больших наборов данных.
10. НАСА публикует свои наборы данных, полученные в ходе научных миссий; вы можете ознакомиться с удобной визуализацией здесь для обзора того, к чему вы можете получить доступ, включая все – от национальных геопространственных данных, химии океана до карт времени таяния снега.
Также стоит обратить внимание на два других сайта данных НАСА: Система планетарных данных и Система данных и информации системы наблюдения Земли (EOSDIS). Это отличные наборы данных для любого проекта, ориентированного на экологию.
11. Европейская организация ядерных исследований, более известная как CERN, опубликовала более трех петабайт данных, полученных в результате исследований в области физики частиц.
Их портал открытых данных содержит данные с Большого адронного коллайдера (LHC), крупнейшего и самого мощного в мире ускорителя частиц. Например, вы можете использовать данные ATLAS, эксперимента в области экспериментальной физики частиц.
12. А если ваш проект связан с производством и потреблением энергии? Международное энергетическое агентство (МЭА) ведет сайт «Атлас энергетики», на котором представлены данные временных рядов с 1973 года до сегодняшней статистики по энергетике.
Это часть более широкой экосистемы аналитических инструментов МЭА, включая данные на уровне стран, базы данных и уникальный потоковый энергетический баланс в виде диаграммы Санки. Доступно множество наборов данных: вы получаете данные о глобальных уровнях выбросов CO2 на душу населения, производстве возобновляемых источников энергии и выработке электроэнергии.
Открытые источники данных: Международные организации
13. Европейские базы данных государственного сектора собраны и опубликованы на сайте Европейской комиссии data.europa. Они охватывают более 1,5 миллиона наборов данных по 36 странам, что делает их одним из крупнейших хранилищ данных в Интернете. Вы можете проверить качество определенного набора данных, проверив качество метаданных, которые позволяют оценить данные на основе таких показателей, как совместимость, возможность повторного использования и контекстуальность.
14. Всемирный банк публикует открытые наборы данных о глобальном развитии – это означает, что вы можете просматривать их наборы данных по любой стране или показателю (например, ВВП или население). Их сайт не ограничивается предоставлением каталога наборов данных.
Обратите внимание на их инструмент DataBank, который представляет собой веб-приложение, позволяющее проводить быстрый анализ и простую визуализацию с использованием данных временных рядов прямо на сайте, а также экспортировать или обмениваться созданными графиками и таблицами.
Некоторые из их интересных наборов данных включают потоки задолженности 120 развивающихся стран, собственную финансовую отчетность Всемирного банка и исследование по измерению уровня жизни, в рамках которого собираются микроданные о домохозяйствах для более точной количественной оценки их поведения.
15. Всемирная организация здравоохранения приглашает вас воспользоваться ее Глобальной обсерваторией здравоохранения, в которой представлен полный спектр данных о состоянии здоровья населения многих стран.
Их данные сгруппированы по длинному списку тем, включая: вспомогательные технологии, иммунизацию, забытые тропические болезни и борьбу с табаком. Если вы ищете вдохновения, посмотрите одну из их тематических информационных панелей в нижней части страницы. Приборная панель «Три миллиарда» отслеживает улучшение здоровья миллиардов людей к 2023 году на основе нескольких ключевых показателей.
Сводка
Мы провели для вас экскурсию по некоторым из лучших источников открытых данных, доступных для бесплатного использования прямо сейчас. Давайте быстро рассмотрим, что вам нужно знать, когда вы приступаете к следующему проекту в поисках набора данных для использования.
Рассмотрите возможность использования открытого источника данных: Важно использовать данные, которые вы имеете право использовать и публиковать, а открытые данные обычно включают лицензию, которую вы можете использовать и цитировать в своей работе.
Кроме того, вы получаете доступ к растущему числу бесплатных и открытых наборов данных в Интернете, что может только обогатить ваш анализ.
Получайте высококачественные данные от заслуживающих доверия организаций: В нашей статье мы привели полезный путеводитель по пятнадцати лучшим источникам, которые вы можете использовать в журналистике, исследованиях, государственном секторе, науке и технике, а также международных тенденциях.
До новых встреч!