Tutorial de Chrome Web Scraper de Semalt Expert

Si está utilizando Google Chrome, hay una extensión para su navegador que puede ayudar a raspar páginas web. Se conoce como "Scrapper" y se puede utilizar sin problemas. Scrapper ayudará a raspar el contenido de un sitio web y subir los resultados a los documentos de Google.

¿Cómo desechar un sitio web usando la extensión Scraper?

1. Seleccione Chrome Web Store en Google Chrome;

2. En extensiones, realice una búsqueda de "Scrapper";

3. El primer resultado de búsqueda es la extensión conocida como '' Scrapper '';

4. Seleccione el botón listado como '' Agregar a Chrome '';

5. Regrese a la lista de parlamentarios del Reino Unido;

6. Haga clic en el siguiente enlace ;

7. Ahora busque un MP y asegúrese de que la entrada esté marcada;

8. Haga clic derecho para elegir la opción "Raspar similar ...";

9. La consola para scrapper aparecerá en otra ventana;

10. Vea el contenido raspado en la consola del raspador;

11. Para asegurarse de que el contenido se guarde como una hoja de cálculo de Google, seleccione "Guardar en Google Docs ..."

Raspado extendido

Antes de seguir con esta receta, es útil comprender los conceptos básicos de HTML. Por ejemplo, puede leer una breve introducción a HTML a través de este enlace

Imaginemos que estamos interesados en todas las películas protagonizadas por Asia Argento, una famosa actriz italiana.

1. Existe un archivo muy detallado de actores en IMDB. El sitio de Asia Argento es: http://www.imdb.com/name/nm0000782/;

2. Aquí, puede ver todos los roles interpretados por la actriz. Comencemos por desechar la información que nos interesa;

3. Intente rasparlo como se describió anteriormente;

4. Verá que la lista está un poco distorsionada. Esto se debe al hecho de que la lista aquí puede estructurarse de manera diferente;

5. Dirígete a la consola del raspador. Arriba a la izquierda, verá el pequeño cuadro que dice XPath;

6. Xpath es una especie de lenguaje de consulta que funciona para XML y HTML;

7. XPath puede ayudar a localizar las partes de la página que le interesan. Lo siguiente es encontrar un elemento apropiado y escribir el XPath para él;

8. Ahora arreglemos nuestra mesa;

9. Verá que nuestro XPath existente, que tiene todos los datos necesarios es "// div [3] / div [3] / div [2] / div";

10. XPath informa al sistema para ver el documento HTML y elegir el tercer elemento, luego el segundo elemento y luego todos;

11. Pero, nos gustaría tener nuestros datos separados;

12. Utilice la sección de columnas en la consola para scrapper para hacer esto;

13. Primero busquemos nuestro título – Use Inspect Element para ver el título;

14. Verifique el título dentro de una etiqueta. Agregue la etiqueta a XPath;

15. La expresión parece funcionar apropiadamente, así que conviértela en nuestra primera columna;

16. En la sección "Columnas", reemplace el nombre de la primera columna por "título";

17. Agregue el XPath a él;

18. En la sección de la columna, las XPaths son relativas y significa que "./b" elegirá el elemento <b>

19. En XPath para la columna de título, agregue "./b" y seleccione "raspar";

20. Ahora sigamos por un año. Los años se pueden encontrar dentro de un lapso;

21. Cree una nueva columna seleccionando la pequeña más al lado de la columna para su título;

22. Usando XPath "./span" crea una columna para "año";

23. Haga clic en raspar y vea cómo se agregó el año;

24. ¡Listo!

mass gmail