Обговорення Зворотній зв'язок
Які інструменти для створення відкритих даних використовуються в проекті?...
20.05.2014(Цю публікацію ще не перекладено українською.)
Статья будет интересна тем, кто интересуется data mining'ом, созданием открытых данных, и, в частности, хотел бы принять участие в нашем онлайн-хакатоне.Часто данные, который вас интересуют могут быть в открытом доступе, но формат, в котором они представлены, сильно усложняет их использование. Например, данные могут быть в виде простого текста, HTML-документов со сложной структурой, изображений(сканов), PDF и т.п.
И для решения этой проблемы в нашем проекте используется следующий набор инструментов.
Python - в качестве среды общего назначения. В последние годы он стал одним из самых популярных инструментов в области обработки и анализа данных и обладает серьезным списком соответствующих библиотек. О тех, которыми мы пользуемся ниже.
lxml - для разбора HTML(XML)-документов.
pandas/xlrd - для работы с Excel-документами.
OpenCV - может понадобиться для распознавания изображений.
Selenium - используется для обработки HTML-документов с динамическим содержимым, генерируемым на стороне клиента. А также для тех случаев, когда с помощью lxml доступ не возможен.
Тут же нельзя забывать про использование таких технологий как: XPath и регулярные выражения.
Кроме того, в последнее время стал использовать связку текстовый редактор(Notepad++)-регулярные выражения-табличный процессор(Excel, Calc), чего зачастую может быть достаточно, при меньших затратах времени.
На этом, пожалуй, все.
Наступна: Хід і результати президентських виборів.
Інші публікації.
blog comments powered by Disqus