Skip to content

bright-jp/GitHub-dataset-samples

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 

Repository files navigation

GitHub データセットサンプル

1001件のGitHubリポジトリのサンプルデータセット

GitHub dataset header

1000件を超えるリポジトリのGitHubデータセットサンプルです。データセットは Bright Data API を使用して抽出されました。

データセットに含まれるデータポイントの一部:

  • url: リポジトリのWebアドレス
  • id: 一意のリポジトリID
  • code_language: メインのプログラミング言語
  • code: リポジトリのソースコード
  • num_lines: コードの総行数
  • user_name: リポジトリ所有者のユーザー名
  • user_url: 所有者のプロフィールURL
  • size: リポジトリサイズ
  • size_unit: リポジトリサイズの単位
  • size_num: リポジトリサイズの数値
  • breadcrumbs: リポジトリのナビゲーションパス
  • num_issues: issue総数
  • num_pull_requests: pull request総数
  • num_projects: 関連プロジェクト数
  • num_fork: fork数
  • num_stared: star数
  • last_feature: 最新の機能変更
  • latest_update: 最終更新日

ほかにも多数あります。

これは「GitHub Repositories (public data)」から派生したサンプルサブセットです。 このデータセットには 2,200,000件以上のリポジトリ が含まれます。

利用可能なデータセットのファイル形式:JSON, NDJSON, JSON Lines, CSV, または Parquet。必要に応じてファイルを .gz に圧縮できます

データセット配信タイプのオプション:Email, API download, Webhook, Amazon S3, Google Cloud storage, Google Cloud PubSub, Microsoft Azure, Snowflake, SFTP

更新頻度:Once, Daily, Weekly, Monthly, Quarterly, または Custom basis

抽出されたデータポイントに追加できるデータエンリッチメント:Based on request.

GitHubデータセットのフル版を入手

GitHubデータセットのユースケースは何ですか?

1. Developer Engagement

コミット履歴、pull request、issueでのディスカッションなどのデータポイントを追跡することで、オープンソースプロジェクトの活動状況や健全性に関するインサイトを得られます。このデータは、企業が影響度の高いプロジェクトを特定し、トレンドを監視し、オープンソースコミュニティにおけるコラボレーション機会を見つけるのに役立ちます。

2. Community Engagement

star数やfork数などの指標を分析することで、オープンソースプロジェクトの人気やコミュニティからの支持を評価できます。この情報により、どのプロジェクトが勢いを増しているかを把握し、採用に関する意思決定を適切に行い、技術トレンドを特定できます。

3. Community Advocacy

公開されているGitHubプロフィールデータを活用して、オープンソースコミュニティ内でのエンゲージメントとアドボカシーを促進できます。ご自身の分野においてリポジトリにstarやforkを付けたり、貢献したりしているアクティブユーザーを特定し、プロジェクトを拡散して協調的なイノベーションを加速できる支援者ネットワークを構築します。

学術研究者およびNGO向けのWebスクレイピングツールとデータセットへの無料アクセス

Bright Initiative は、環境および社会的なさまざまな活動を推進する主要な学術機関の教員・研究者、NGOおよびNPOに対して、Bright Data の Web Scraper APIs および すぐに使えるデータセット へのアクセスを提供しています。申請は こちら から提出できます。

About

Bright Data API を使用して抽出した 1000 件以上の GitHub リポジトリのサンプルデータセットです。開発者エンゲージメント、コミュニティエンゲージメント、アドボカシーに最適です。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors