Utiliser 'rvest' pour extraire des liens

Question

J'essaie de supprimer les données de Yelp. Une étape consiste à extraire les liens de chaque restaurant. Par exemple, je recherche des restaurants à New York et j'obtiens des résultats. Ensuite, je veux extraire les liens des 10 restaurants que Yelp recommande à la page 1. Voici ce que j'ai essayé:

library(rvest) page=read_html("http://www.Yelp.com/search?find_loc=New+York,+NY,+USA") page %>% html_nodes(".biz-name span") %>% html_attr('href')

Mais le code renvoie toujours 'NA'. Est-ce que quelqu'un peut m'aider avec cela? Merci!

Bharath · Accepted Answer

library(rvest) page <- read_html("http://www.Yelp.com/search?find_loc=New+York,+NY,+USA") page %>% html_nodes(".biz-name") %>% html_attr('href')

J'espère que cela simplifierait votre problème

Oliver · Answer

J'ai également pu nettoyer les résultats d'en haut qui pour moi étaient assez bruyants

links <- page %>% html_nodes("a") %>% html_attr("href")

avec une simple correspondance de chaînes d'expression régulière

links <- links[which(regexpr('common-url-element', links) >= 1)].