1000件を超えるリポジトリのGitHubデータセットサンプルです。データセットは Bright Data API を使用して抽出されました。
url: リポジトリのWebアドレスid: 一意のリポジトリIDcode_language: メインのプログラミング言語code: リポジトリのソースコードnum_lines: コードの総行数user_name: リポジトリ所有者のユーザー名user_url: 所有者のプロフィールURLsize: リポジトリサイズsize_unit: リポジトリサイズの単位size_num: リポジトリサイズの数値breadcrumbs: リポジトリのナビゲーションパスnum_issues: issue総数num_pull_requests: pull request総数num_projects: 関連プロジェクト数num_fork: fork数num_stared: star数last_feature: 最新の機能変更latest_update: 最終更新日
ほかにも多数あります。
これは「GitHub Repositories (public data)」から派生したサンプルサブセットです。 このデータセットには 2,200,000件以上のリポジトリ が含まれます。
利用可能なデータセットのファイル形式:JSON, NDJSON, JSON Lines, CSV, または Parquet。必要に応じてファイルを .gz に圧縮できます。
データセット配信タイプのオプション:Email, API download, Webhook, Amazon S3, Google Cloud storage, Google Cloud PubSub, Microsoft Azure, Snowflake, SFTP。
更新頻度:Once, Daily, Weekly, Monthly, Quarterly, または Custom basis。
抽出されたデータポイントに追加できるデータエンリッチメント:Based on request.
コミット履歴、pull request、issueでのディスカッションなどのデータポイントを追跡することで、オープンソースプロジェクトの活動状況や健全性に関するインサイトを得られます。このデータは、企業が影響度の高いプロジェクトを特定し、トレンドを監視し、オープンソースコミュニティにおけるコラボレーション機会を見つけるのに役立ちます。 star数やfork数などの指標を分析することで、オープンソースプロジェクトの人気やコミュニティからの支持を評価できます。この情報により、どのプロジェクトが勢いを増しているかを把握し、採用に関する意思決定を適切に行い、技術トレンドを特定できます。 公開されているGitHubプロフィールデータを活用して、オープンソースコミュニティ内でのエンゲージメントとアドボカシーを促進できます。ご自身の分野においてリポジトリにstarやforkを付けたり、貢献したりしているアクティブユーザーを特定し、プロジェクトを拡散して協調的なイノベーションを加速できる支援者ネットワークを構築します。Bright Initiative は、環境および社会的なさまざまな活動を推進する主要な学術機関の教員・研究者、NGOおよびNPOに対して、Bright Data の Web Scraper APIs および すぐに使えるデータセット へのアクセスを提供しています。申請は こちら から提出できます。