Вхід / Реєстрація

Які інструменти для створення відкритих даних використовуються в проекті?...

На головну Про нас Блог Відкриті дані Участь Підтримати
Обговорення Зворотній зв'язок

20.05.2014
(Цю публікацію ще не перекладено українською.)
    Статья будет интересна тем, кто интересуется data mining'ом, созданием открытых данных, и, в частности, хотел бы принять участие в нашем онлайн-хакатоне.

    Часто данные, который вас интересуют могут быть в открытом доступе, но формат, в котором они представлены, сильно усложняет их использование. Например, данные могут быть в виде простого текста, HTML-документов со сложной структурой, изображений(сканов), PDF и т.п.

    И для решения этой проблемы в нашем проекте используется следующий набор инструментов.
    Python - в качестве среды общего назначения. В последние годы он стал одним из самых популярных инструментов в области обработки и анализа данных и обладает серьезным списком соответствующих библиотек. О тех, которыми мы пользуемся ниже.
    lxml - для разбора HTML(XML)-документов.
    pandas/xlrd - для работы с Excel-документами.
    OpenCV - может понадобиться для распознавания изображений.
    Selenium - используется для обработки HTML-документов с динамическим содержимым, генерируемым на стороне клиента. А также для тех случаев, когда с помощью lxml доступ не возможен.
    Тут же нельзя забывать про использование таких технологий как: XPath и регулярные выражения.

    Кроме того, в последнее время стал использовать связку текстовый редактор(Notepad++)-регулярные выражения-табличный процессор(Excel, Calc), чего зачастую может быть достаточно, при меньших затратах времени.

    На этом, пожалуй, все.


Попередня: Ми запускаємо онлайн-хакатон "Шахта Відкритих Даних".
Наступна:   Хід і результати президентських виборів.

Інші публікації.
CityScale серед фіналістів EU Datathon 2021.
Партнерська підтримка конкурсу "Дані міст/Apps4Cities".
Оновлені форми даних мап нерухомості.
Нові дані про злочинність вже на мапі.
Локальна злочинність в Україні за 2016 рік


blog comments powered by Disqus
На головну Про нас Блог Відкриті дані Участь Підтримати
Обговорення Зворотній зв'язок
На русском
CityScale © 2013 - 2021