Tarification de l'API Archive

Optimisez les pipelines avancés d'entraînement de modèles et de recherche Web grâce au plus grand référentiel de données Web au monde.

pay as you go plan icon
Pay as you go
$0.2 /1 000 HTMLs
Sans engagement
C'est parti !
Comprend :
  • Accès API avec filtrage avancé (domaines, catégories, dates, langues, pays, chemins)
  • Livraison flexible : AWS, GCP, Snowflake, Databricks et plus
  • Support standard
  • Données historiques (+72 heures) à partir de 1$/1 000 HTMLs
2nd plan icon
ENTERPRISE
Contactez-nous pour un
devis personnalisé
Parlez à un expert en ventes
Comprend :
  • Accès API avec filtrage avancé (domaines, catégories, dates, langues, pays, chemins)
  • Livraison flexible : AWS, GCP, Snowflake, Databricks et plus
  • Support standard
  • Gestionnaire de compte dédié
  • Support premium 24/7
  • Garanties SLA
  • Réductions pour de grands besoins en données
  • Support d'intégration personnalisé
  • Options de livraison étendues
* Des remises sur volume sont disponibles pour de grands volumes de données, des engagements à long terme ou des projets multi-solutions.
Nous acceptons ces méthodes de paiement:
AWS logoVous utilisez AWS ? Vous pouvez désormais payer avec AWS Marketplace
C'est parti !

Customer favorite features

  • Référentiel à l'échelle du pétaoctet
  • Pages HTML complètes et métadonnées
  • Filtrage et recherche avancés
  • ~2,5 Po ajoutés quotidiennement
  • Texte, images, vidéo et audio
  • Options de livraison flexibles
  • Plus de 5 To de jetons de texte ajoutés chaque jour
  • Accès API en priorité
  • Données prêtes pour l’IA
  • Plus de 2,5 milliards d'URL d'images/vidéos ajoutées chaque jour
  • Sans maintenance
  • Disponibilité de 99,99 % + assistance 24 h/24, 7 j/7
RATIONALISÉ

Paiements avec AWS Marketplace

Tirez parti de vos achats pour respecter vos engagements AWS et bénéficiez d’un processus d’approvisionnement et de facturation simplifié, le tout en un seul endroit. Profitez des contrôles de validation et de conformité rigoureux d’AWS pour ses partenaires.

CONFORME

Conformité à la pointe du secteur

Nos pratiques en matière de confidentialité sont conformes aux lois sur la protection des données, y compris le cadre réglementaire européen sur la protection des données, le RGPD et le CCPA, et respectent les demandes d’exercice des droits à la vie privée, entre autres.

FAQ sur l'API d'archivage

Archive API est un immense référentiel mis en cache et en constante expansion, développé par Bright Data, conçu pour capturer et fournir des données web publiques à grande échelle. Il fournit des pages web complètes et des métadonnées, ce qui le rend idéal pour la formation en IA, l'apprentissage automatique et l'analyse de données à grande échelle. Contrairement aux crawlers web traditionnels, Archive API donne la priorité à la pertinence, à l'actualité et à la facilité d'utilisation, vous donnant accès aux parties les plus importantes d'Internet, qui sont scrapées quotidiennement.

Vous pouvez commencer à accéder immédiatement aux données via notre API Archive. L'API vous permet de rechercher, récupérer et filtrer de manière transparente et efficace des instantanés de données à partir d'Archive.

  • Données des 3 derniers jours : le délai de livraison est de quelques minutes à quelques heures (selon la taille de l'instantané).
  • Données datant de plus de 3 jours : le traitement et la livraison prendront de quelques heures à 3 jours (selon la taille de l'instantané).

Archive propose deux options de livraison pour garantir une intégration transparente dans vos flux de travail existants :

  • Bucket Amazon S3: recevez votre instantané de données directement dans votre bucket S3.
  • Webhook: récupéré via webhook pour une intégration en temps réel dans vos systèmes.

Absolument ! L'API Archive permet de filtrer par catégorie, domaine, date, langue et pays avant de récupérer les données, ce qui vous garantit d'obtenir uniquement ce dont vous avez besoin.

Lorsque vous travaillez avec des données web à grande échelle, la fraîcheur, la pertinence et l'accessibilité sont essentielles. Alors que Common Crawl fournit un aperçu historique général du web, l'API Archive de Bright Data offre des données en temps réel, mises à jour en continu, avec des options avancées de filtrage et de livraison. Voici une comparaison entre les deux :

Fonctionnalité Archive de Bright Data Common Crawl
Collecte de données Capture en continu les données Web publiques en temps réel, fournissant des résultats aussi récents que « maintenant ». Exploration périodique du Web (pas en temps réel), mise à jour tous les mois ou tous les deux mois. Les données peuvent être obsolètes.
Volume de données 17,5 Po collectés en 8 mois, couvrant 118 milliards de pages (28 milliards d'URL uniques provenant de 40 millions de domaines). Ajoute environ 2,5 Po et des milliards d'URL uniques par semaine. 250 milliards de pages collectées en 18 ans.
Couverture et pertinence des sites web Se concentre sur les données de sites web pertinentes et à forte valeur ajoutée, en fonction des besoins réels des entreprises en matière de scraping. Explore sans distinction, y compris les pages obsolètes ou de mauvaise qualité.
Types de données Pages web complètes (rendues en JS) 98,6 % HTML et texte
Filtrage et livraison Plateforme complète de découverte et de livraison - filtrage par catégorie, domaine, langue, date, etc. Livraison via Amazon S3 ou webhook. Pas de filtrage ni de livraison intégrés. Nécessité de traiter manuellement d'énormes fichiers WARC bruts.

Vous ne savez pas exactement ce dont vous avez besoin ?