Завершен

Парсинг источников в сюжетах новостей Яндекса

8 лет назад • обновлен 7 лет назад • 1

Идея: реализовать инструмент, который будет парсить акцепторов (источники) со страниц доноров (новостные страницы), найденных в подборках новостей Яндекса (https://news.yandex.ru/).

Входные данные:

URL сюжетов вида: https://news.yandex.ru/yandsearch?lr=213&cl4url=https%3A%2F%2Fwww.interfax.ru%2Frussia%2F639699&content=alldocs&stid=14djy7dnsUiwsWoExO3Z&from=story

На выходе:

Донор	Количество ссылок	Акцептор
kp.ru	1	tass.ru

Механика работы:

Идём в сюжет по ссылке.
Берём все URL из подборки (условный base_list).
Парсим все ссылки на источники из контента каждой страницы (условный donor_to_acceptor_list).

Сравниваем два полученных списка (donor_to_acceptor_list и base_list), удаляем все несоответствия и получаем нужный список (условный acceptor_list)

Голос

Ответы 1
Старые сверху
- Новые сверху
- Старые сверху

Завершен

7 лет назад

Ответить
|

Сервис поддержки клиентов работает на платформе UserEcho