Coin Pub
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
-20%
Le deal à ne pas rater :
Drone Dji DJI Mini 4K (EU)
239 € 299 €
Voir le deal

Féminin Inscrit le : 18/08/2021
Messages : 11
nanami1933
Membre

nanami1933
Hier, j'ai vu quelqu'un demander "quel langage de programmation est le meilleur pour créer un web crawler ? PHP, Python ou Node.js ?" et en mentionnant quelques exigences ci-dessous.


1 La capacité d'analyse des pages web

2 Capacité opérationnelle de la base de données (MySQL)

3 Efficacité du crawling

4 La quantité de code

Quelqu'un a répondu à la question.

"Lorsque vous allez scraper des sites Web à grande échelle, alors l'efficacité, l'évolutivité et la maintenabilité sont les facteurs que vous devez prendre en compte."

L'exploration de sites Web à grande échelle implique de nombreux problèmes : multithreading, mécanisme d'E/S, exploration distribuée, communication, vérification des doublons, planification des tâches, etc. Et puis le langage utilisé et le cadre choisi jouent un rôle important à ce moment-là.

PHP
La prise en charge du multithreading et de l'asynchronisme est assez faible et n'est donc pas recommandée.

Node.js
Il peut crawler certains sites Web verticaux. Mais en raison du support pour l'exploration distribuée et les communications est relativement plus faible que les deux autres. Vous devez donc porter un jugement.

Python
Il est fortement recommandé et prend mieux en charge les exigences mentionnées ci-dessus, notamment le framework Scrapy. Le framework Scrapy présente de nombreux avantages :

Prise en charge de XPath:
1.Bonnes performances en fonction des torsades
2.Outils de débogage

Si vous souhaitez effectuer une analyse dynamique de JavaScript, il n'est pas approprié d'utiliser casperjs sous le framework scrapy et il est préférable de créer votre propre moteur javescript basé sur le moteur Chrome V8.

C & C ++
Je ne recommande pas les deux. Bien qu'ils aient de bonnes performances, nous devons toujours considérer de nombreux facteurs tels que le coût. Pour la plupart des entreprises, il est recommandé d'écrire un programme de crawler basé sur un framework open source. Faites le meilleur usage des excellents programmes disponibles. Il est facile de faire un crawler simple, mais il est difficile d'en faire un excellent.

En réalité, il est difficile de créer un crawler parfait. Mais s'il existe un tel logiciel qui peut répondre à vos différents besoins, voulez-vous l'essayer ?
Les caractéristiques des crawlers web :

Gratuit mais puissant
Supporte l'extraction de données d'éléments HTML arbitraires
Prise en charge de l'exploration distribuée
Haute concurrence
Traite les pages statiques et les pages AJAX
Fournit une API de données
Connexion à une base de données pour exporter des données

Publié à l'origine sur le site: www.octoparse.fr/blog
Féminin Inscrit le : 18/08/2021
Messages : 11
nanami1933
Membre

nanami1933
Quel est le Meilleur Langage pour le Web Scraping? 1f449  Quel est le Meilleur Langage pour le Web Scraping? 1f449  Quel est le Meilleur Langage pour le Web Scraping? 1f449  Quel est le Meilleur Langage pour le Web Scraping? 1f449 Qu'est-ce que le Web scraping et A quoi sert-il?
Quel est le Meilleur Langage pour le Web Scraping? A6lne-10
Féminin Inscrit le : 18/08/2021
Messages : 11
nanami1933
Membre

nanami1933
Data Mining VS Data Scraping : Quelle est la différence?
L'exploration et l'extraction de données, deux mots à la mode dans le domaine de la science des données, sont source de confusion pour beaucoup de gens. L'exploration de données est souvent considérée à tort comme l'extraction et l'obtention de données, mais elle est en fait beaucoup plus compliquée que cela. Dans cet article, nous allons découvrir la différence entre l'exploration de données (data mining) et l'extraction de données (data scraping).
Quel est le Meilleur Langage pour le Web Scraping? 1f601  Quel est le Meilleur Langage pour le Web Scraping? 1f601  Quel est le Meilleur Langage pour le Web Scraping? 1f601  Quel est le Meilleur Langage pour le Web Scraping? 1f601  Quel est le Meilleur Langage pour le Web Scraping? 1f601
https://octoparse.fr/blog/data-mining-vs-data-scraping
Féminin Inscrit le : 18/08/2021
Messages : 11
nanami1933
Membre

nanami1933
🧐La pagination, c'est quoi?
💻Pourquoi dois-je configurer la pagination pour le web scraping?
📌Comment ça marche?
Vous trouverez les réponses à toutes ces questions dans cet article:

La Pagination: comment scraper des données à partir de plusieurs pages d'un site Web?
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum