Вход / Регистрация

Какие инструменты для создания открытых данных используются в проекте?...

На главную О нас Блог Открытые данные Участие Поддержать
Обсуждения Обратная связь

20.05.2014
    Статья будет интересна тем, кто интересуется data mining'ом, созданием открытых данных, и, в частности, хотел бы принять участие в нашем онлайн-хакатоне.

    Часто данные, который вас интересуют могут быть в открытом доступе, но формат, в котором они представлены, сильно усложняет их использование. Например, данные могут быть в виде простого текста, HTML-документов со сложной структурой, изображений(сканов), PDF и т.п.

    И для решения этой проблемы в нашем проекте используется следующий набор инструментов.
    Python - в качестве среды общего назначения. В последние годы он стал одним из самых популярных инструментов в области обработки и анализа данных и обладает серьезным списком соответствующих библиотек. О тех, которыми мы пользуемся ниже.
    lxml - для разбора HTML(XML)-документов.
    pandas/xlrd - для работы с Excel-документами.
    OpenCV - может понадобиться для распознавания изображений.
    Selenium - используется для обработки HTML-документов с динамическим содержимым, генерируемым на стороне клиента. А также для тех случаев, когда с помощью lxml доступ не возможен.
    Тут же нельзя забывать про использование таких технологий как: XPath и регулярные выражения.

    Кроме того, в последнее время стал использовать связку текстовый редактор(Notepad++)-регулярные выражения-табличный процессор(Excel, Calc), чего зачастую может быть достаточно, при меньших затратах времени.

    На этом, пожалуй, все.


Предыдущая: Мы запускаем онлайн-хакатон "Шахта Открытых Данных".
Следующая:   Ход и результаты президентских выборов.

Другие публикации.
Партнерская поддержка конкурса "Дані міст/Apps4Cities".
Локальная преступность в Украине за 2016 год
Коммунальные тарифы, открытые данные и гос. органы.
О прошедших встречах по открытым данным
Из жизни открытых данных в Украине.


blog comments powered by Disqus
На главную О нас Блог Открытые данные Участие Поддержать
Обсуждения Обратная связь
CityScale © 2013 - 2017