+7
Завершен
Парсинг источников в сюжетах новостей Яндекса
Идея: реализовать инструмент, который будет парсить акцепторов (источники) со страниц доноров (новостные страницы), найденных в подборках новостей Яндекса (https://news.yandex.ru/).
Входные данные:
- URL сюжетов вида: https://news.yandex.ru/yandsearch?lr=213&cl4url=https%3A%2F%2Fwww.interfax.ru%2Frussia%2F639699&content=alldocs&stid=14djy7dnsUiwsWoExO3Z&from=story
На выходе:
Донор | Количество ссылок | Акцептор |
kp.ru | 1 | tass.ru |
Механика работы:
- Идём в сюжет по ссылке.
- Берём все URL из подборки (условный base_list).
- Парсим все ссылки на источники из контента каждой страницы (условный donor_to_acceptor_list).
Сравниваем два полученных списка (donor_to_acceptor_list и base_list), удаляем все несоответствия и получаем нужный список (условный acceptor_list)
0
Завершен
Пиксель Тулс 6 лет назад
Сервис поддержки клиентов работает на платформе UserEcho