Главная > Сайтостроение > Teleport Pro универсальный парсер контента

Teleport Pro универсальный парсер контента

Некоторые сателлитостроители озабоченны тем, где и как можно взять много контента для своих сатов. Ведь если производство их поставить на поток, то контента нужно будет много и постоянно, а вручную копипастить будет затруднительно. А парсеры в основном заточены под один или группу сайтов, которые запарсели до дыр. Я расскажу вам как я собираю материал для сайтов.

Прошу любить и жаловать универсальный парсер — Teleport Pro. Вообще-то эта программа создана для скачки и оффлайнового просмотра сайтов. Телепорт качает весь сайт с дизайном и контентом и всем остальным. Но нам нужен только текст, для этого в программе есть подходящие настройки.

Для начала качаем саму программу. Потом устанавливаем и разбираемся с интерфейсом. Когда вы насмотритесь на прогу, начинаем работать. Выбираем себе жертву. Например, вы захотите спарсить статьи с сайта про двери. Заходим на страницу со статьей и смотрим на урл. Например, он выглядит так: dveri.ru/article/dveri/statia.html. Создаем новый проект ив поле урл для копирования вставляем dveri.ru/article/dveri/ (это если хотите только статьи по дверям, а если все статьи, то оставляем только dveri.ru/article/) нажимаем далее, от начала следовать ставим 3, а что скачивать ставим галочку – только текст, указываем, куда хотим, чтоб сохранился сайт и нажимаем старт. Проект создан теперь нажимаем кнопку в виде зеленой стрелочки плей и Телепорт начнет скачивать ту часть сайта которую вы указали.
Потом когда все будет скачано, заходим в папку с сайтом. Там будут лежать сохраненные страницы с текстов, если хотите можете открывать каждый файл и копировать текст, а можете воспользоваться программой TextKit которая из html страниц оставит только нужный вам тест.

А какие парсить сайты я говорить вам не буду, вы итак все знаете, а если не знаете, проявите смекалку. Ну а если совсем нет мыслей, то для начала можете попробовать парсить биржы статей.

Оставить коммент