Tarification de l'API Archive

Optimisez les pipelines avancés d'entraînement de modèles et de recherche Web grâce au plus grand référentiel de données Web au monde.

Inscrivez-vous maintenant et nous égalerons votre premier dépôt dollar pour dollar, jusqu'à $500 !

Commencer

Pay as you go

$0.2 /1 000 HTMLs

Sans engagement

C'est parti !

Comprend :

Accès API avec filtrage avancé (domaines, catégories, dates, langues, pays, chemins)
Livraison flexible : AWS, GCP, Snowflake, Databricks et plus
Support standard
Données historiques (+72 heures) à partir de 1$/1 000 HTMLs

ENTERPRISE

Contactez-nous pour un
devis personnalisé

Parlez à un expert en ventes

Comprend :

Accès API avec filtrage avancé (domaines, catégories, dates, langues, pays, chemins)
Livraison flexible : AWS, GCP, Snowflake, Databricks et plus
Support standard
Gestionnaire de compte dédié
Support premium 24/7
Garanties SLA
Réductions pour de grands besoins en données
Support d'intégration personnalisé
Options de livraison étendues

* Des remises sur volume sont disponibles pour de grands volumes de données, des engagements à long terme ou des projets multi-solutions.

Nous acceptons ces méthodes de paiement:

Vous utilisez AWS ? Vous pouvez désormais payer avec AWS Marketplace

C'est parti !

Approuvé par 20,000+ clients dans le monde entier

Customer favorite features

Référentiel à l'échelle du pétaoctet
Pages HTML complètes et métadonnées
Filtrage et recherche avancés
~2,5 Po ajoutés quotidiennement
Texte, images, vidéo et audio
Options de livraison flexibles
Plus de 5 To de jetons de texte ajoutés chaque jour
Accès API en priorité
Données prêtes pour l’IA
Plus de 2,5 milliards d'URL d'images/vidéos ajoutées chaque jour
Sans maintenance
Disponibilité de 99,99 % + assistance 24 h/24, 7 j/7

RATIONALISÉ

Paiements avec AWS Marketplace

Tirez parti de vos achats pour respecter vos engagements AWS et bénéficiez d’un processus d’approvisionnement et de facturation simplifié, le tout en un seul endroit. Profitez des contrôles de validation et de conformité rigoureux d’AWS pour ses partenaires.

CONFORME

Conformité à la pointe du secteur

Nos pratiques en matière de confidentialité sont conformes aux lois sur la protection des données, y compris le cadre réglementaire européen sur la protection des données, le RGPD et le CCPA, et respectent les demandes d’exercice des droits à la vie privée, entre autres.

FAQ sur l'API d'archivage

Qu'est-ce que l'API Archive ?

Archive API est un immense référentiel mis en cache et en constante expansion, développé par Bright Data, conçu pour capturer et fournir des données web publiques à grande échelle. Il fournit des pages web complètes et des métadonnées, ce qui le rend idéal pour la formation en IA, l'apprentissage automatique et l'analyse de données à grande échelle. Contrairement aux crawlers web traditionnels, Archive API donne la priorité à la pertinence, à l'actualité et à la facilité d'utilisation, vous donnant accès aux parties les plus importantes d'Internet, qui sont scrapées quotidiennement.

En combien de temps puis-je accéder aux données ?

Vous pouvez commencer à accéder immédiatement aux données via notre API Archive. L'API vous permet de rechercher, récupérer et filtrer de manière transparente et efficace des instantanés de données à partir d'Archive.

Données des 3 derniers jours : le délai de livraison est de quelques minutes à quelques heures (selon la taille de l'instantané).
Données datant de plus de 3 jours : le traitement et la livraison prendront de quelques heures à 3 jours (selon la taille de l'instantané).

Comment mes données peuvent-elles être livrées ?

Archive propose deux options de livraison pour garantir une intégration transparente dans vos flux de travail existants :

Bucket Amazon S3: recevez votre instantané de données directement dans votre bucket S3.
Webhook: récupéré via webhook pour une intégration en temps réel dans vos systèmes.

Puis-je filtrer les données de l'archive pour n'obtenir que ce dont j'ai besoin ?

Absolument ! L'API Archive permet de filtrer par catégorie, domaine, date, langue et pays avant de récupérer les données, ce qui vous garantit d'obtenir uniquement ce dont vous avez besoin.

Comment l'archive de Bright Data se compare-t-elle à Common Crawl ?

Lorsque vous travaillez avec des données web à grande échelle, la fraîcheur, la pertinence et l'accessibilité sont essentielles. Alors que Common Crawl fournit un aperçu historique général du web, l'API Archive de Bright Data offre des données en temps réel, mises à jour en continu, avec des options avancées de filtrage et de livraison. Voici une comparaison entre les deux :

Fonctionnalité	Archive de Bright Data	Common Crawl
Collecte de données	Capture en continu les données Web publiques en temps réel, fournissant des résultats aussi récents que « maintenant ».	Exploration périodique du Web (pas en temps réel), mise à jour tous les mois ou tous les deux mois. Les données peuvent être obsolètes.
Volume de données	17,5 Po collectés en 8 mois, couvrant 118 milliards de pages (28 milliards d'URL uniques provenant de 40 millions de domaines). Ajoute environ 2,5 Po et des milliards d'URL uniques par semaine.	250 milliards de pages collectées en 18 ans.
Couverture et pertinence des sites web	Se concentre sur les données de sites web pertinentes et à forte valeur ajoutée, en fonction des besoins réels des entreprises en matière de scraping.	Explore sans distinction, y compris les pages obsolètes ou de mauvaise qualité.
Types de données	Pages web complètes (rendues en JS)	98,6 % HTML et texte
Filtrage et livraison	Plateforme complète de découverte et de livraison - filtrage par catégorie, domaine, langue, date, etc. Livraison via Amazon S3 ou webhook.	Pas de filtrage ni de livraison intégrés. Nécessité de traiter manuellement d'énormes fichiers WARC bruts.

Vous ne savez pas exactement ce dont vous avez besoin ?

Contactez-nous