Main page About us Blog Open data Support
Discussions Feedback

Post

20.05.2014

(This post has not been translated in English yet.)

    Статья будет интересна тем, кто интересуется data mining'ом, созданием открытых данных, и, в частности, хотел бы принять участие в нашем онлайн-хакатоне.

    Часто данные, который вас интересуют могут быть в открытом доступе, но формат, в котором они представлены, сильно усложняет их использование. Например, данные могут быть в виде простого текста, HTML-документов со сложной структурой, изображений(сканов), PDF и т.п.

    И для решения этой проблемы в нашем проекте используется следующий набор инструментов.
    Python - в качестве среды общего назначения. В последние годы он стал одним из самых популярных инструментов в области обработки и анализа данных и обладает серьезным списком соответствующих библиотек. О тех, которыми мы пользуемся ниже.
    lxml - для разбора HTML(XML)-документов.
    pandas/xlrd - для работы с Excel-документами.
    OpenCV - может понадобиться для распознавания изображений.
    Selenium - используется для обработки HTML-документов с динамическим содержимым, генерируемым на стороне клиента. А также для тех случаев, когда с помощью lxml доступ не возможен.
    Тут же нельзя забывать про использование таких технологий как: XPath и регулярные выражения.

    Кроме того, в последнее время стал использовать связку текстовый редактор(Notepad++)-регулярные выражения-табличный процессор(Excel, Calc), чего зачастую может быть достаточно, при меньших затратах времени.

    На этом, пожалуй, все.

Previous: Post on 13.05.2014.

Next: Хід і результати президентських виборів.