О мероприятии.
Несмотря на все проблемы открытых данных в Украине есть одна, которую общими усилиями можно решить уже сейчас.
Дело в том, что в открытом доступе уже существует достаточно много данных, но они скрыты в недрах множества ресурсов и в разнообразных форматах, что сильно затрудняет их использование.
Так, например, данные могут быть в виде HTML-страниц, doc, excel, pdf-файлов или в виде изображений(сканов).
Поэтому, чтобы объединить силы для решения проблемы, мы организовываем онлайн-хакатон "Шахта Открытых Данных" - отличный способ с пользой прокачать свои способности в data mining'е.
Правила.
- Участие:
- индивидуально;
- и командой до 5 чел:
- участники должны зарегистрироваться до отправки первых результатов;
- для регистрации нужно отправить email с темой "Регистрация команды", названием команды и со списком имен(ников, ссылка на профиль в GitHub) участников команды;
- но в любом случае ведется и индивидуальный и командный зачет.
- Источники данных:
- официальные первоисточники, без коммерческих прав;
- наши ресурсы открытых данных;
- (!) перед началом посмотрите в списке данных в работе, что еще никто не занимается обработкой желаемых данных. И если их там нет - внести или отправьте письмо с темой "Начало работы", с ником и ссылкой на данные в тексте.
- Оформление результатов:
- в виде csv или Excel;
- должны содержать ссылку на источник(документ) в последней колонке. Если данные были получены через запрос, то нужно указать организацию, куда подавался запрос, соответствующий контакт и исходные данные(ответ).
- Результаты принимаются:
- Оценка результатов:
- простая конвертация(например, Excel <-> csv и т.п.) форматов в зачет не идет;
- оценивается кол-во ячеек данных;
- за сложность исходных данных применяется коэффициент:
- х1: табличные данные: пример;
- х1.2: табличные данные с доп. обработкой: пример;
- х1.4: документ со сложной(слабой) структурой: пример 1, пример 2;
- х1.8: разбор простого текста: пример;
- х2: получение данных отсутствующих в открытом доступе через запрос к первоисточнику;
- коэффициенты могут объединяться;
- Правила могут изменяться.