spark/scraper.go at main · securezeron/spark

190 lines (166 loc) · 3.99 KB
package main
	"net/http"
	"golang.org/x/net/html"
type Result struct {
	URL     string
	Content string
	Error   error
func main() {
	if len(os.Args) < 2 {
		fmt.Println("Usage: go run scraper.go <domain>")
	domain := os.Args[1]
	baseURL := domain
	if !strings.HasPrefix(baseURL, "http") {
		baseURL = "https://" + domain
	maxPages := 15
	concurrency := 5
	timeout := 10 * time.Second
	visited := &sync.Map{}
	results := make(chan Result, maxPages)
	queue := make(chan string, maxPages*2)
	// Keywords for relevant subdomains and paths
	relevantKeywords := []string{"security", "privacy", "compliance", "trust", "legal", "investors", "governance", "certification", "faq"}
	// Seed the queue
	queue <- baseURL
	visited.Store(baseURL, true)
	// Try subdomains
	for _, kw := range []string{"trust", "security", "compliance", "docs"} {
		sd := fmt.Sprintf("https://%s.%s", kw, domain)
		queue <- sd
		visited.Store(sd, true)
	var wg sync.WaitGroup
	crawlerMutex := sync.Mutex{}
	// Start crawlers
	for i := 0; i < concurrency; i++ {
		wg.Add(1)
		go func() {
			defer wg.Done()
				crawlerMutex.Lock()
				if len(results) >= maxPages {
					crawlerMutex.Unlock()
					return
				crawlerMutex.Unlock()
				select {
				case targetURL := <-queue:
					content, links, err := scrape(targetURL, timeout)
					results <- Result{URL: targetURL, Content: content, Error: err}
					if err == nil {
						for _, link := range links {
							if isRelevant(link, domain, relevantKeywords) {
								if _, loaded := visited.LoadOrStore(link, true); !loaded {
									select {
									case queue <- link:
									default:
				case <-time.After(2 * time.Second):
					return
	go func() {
		wg.Wait()
		close(results)
	// Collect results
	var finalContent strings.Builder
	count := 0
	for res := range results {
		if res.Error == nil && len(res.Content) > 200 {
			finalContent.WriteString(fmt.Sprintf("\n--- SOURCE: %s ---\n%s\n", res.URL, res.Content))
		if count >= maxPages {
	fmt.Print(finalContent.String())
func scrape(targetURL string, timeout time.Duration) (string, []string, error) {
	client := &http.Client{Timeout: timeout}
	resp, err := client.Get(targetURL)
	if err != nil {
		return "", nil, err
	defer resp.Body.Close()
	if resp.StatusCode != http.StatusOK {
		return "", nil, fmt.Errorf("bad status: %d", resp.StatusCode)
	doc, err := html.Parse(resp.Body)
	if err != nil {
		return "", nil, err
	var content strings.Builder
	var links []string
	var f func(*html.Node)
	f = func(n *html.Node) {
		if n.Type == html.ElementNode && n.Data == "a" {
			for _, a := range n.Attr {
				if a.Key == "href" {
					abs := absoluteURL(targetURL, a.Val)
					if abs != "" {
						links = append(links, abs)
		if n.Type == html.TextNode {
			parent := n.Parent
			if parent.Data != "script" && parent.Data != "style" && parent.Data != "nav" && parent.Data != "footer" {
				content.WriteString(strings.TrimSpace(n.Data) + " ")
		for c := n.FirstChild; c != nil; c = c.NextSibling {
	return strings.Join(strings.Fields(content.String()), " "), links, nil
func absoluteURL(base, href string) string {
	u, err := url.Parse(href)
	if err != nil {
		return ""
	b, err := url.Parse(base)
	if err != nil {
		return ""
	return b.ResolveReference(u).String()
func isRelevant(link, domain string, keywords []string) bool {
	u, err := url.Parse(link)
	if err != nil {
		return false
	// Stay on domain (or subdomains)
	if !strings.Contains(u.Host, domain) {
		return false
	lowURL := strings.ToLower(link)
	for _, kw := range keywords {
		if strings.Contains(lowURL, kw) {
			return true
	return false
Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

scraper.go

Latest commit

History

scraper.go

File metadata and controls