agent-safety

Star

Here are 110 public repositories matching this topic...

wuyoscar / ISC-Bench

Star

Internal Safety Collapse: Turning the LLM or an AI Agent into a sensitive data generator.

benchmark jailbreak ai-safety red-teaming large-language-models llm-safety safety-evaluation agent-safety

Updated Apr 17, 2026
Python

XSafeAI / XSafeClaw

Star

Introducing XSafeClaw: The Open-Source Agent Safety Platform from Fudan University

ai-safety red-teaming prompt-injection llm-security agentic-ai agent-safety openclaw safe-claw

Updated Apr 18, 2026
Python

kajogo777 / the-agent-sandbox-taxonomy

Star

An open taxonomy and scoring framework for evaluating AI agent sandboxes: 7 defense layers, 7 threat categories, 3 evaluation dimensions, 27 "sandboxes" scored.

security devops taxonomy sandbox threat-modeling ai-agents container-security microvm defense-in-depth infrastructure-security llm-agents agent-safety scoring-framework compute-isolation

Updated Apr 14, 2026
Go

corv89 / shannot

Star

Human-in-the-loop execution for LLM agents

python linux cli security devops automation mcp sandbox sysadmin python3 developer-tools human-in-the-loop llm llm-agents agent-safety supervised-execution

Updated Apr 13, 2026
Python

AgentSafe-AI / tooltrust-scanner

Star

Security scanner for AI agent tool definitions

golang mcp gateway security-scanner ai-security supply-chain-security prompt-injection ai-security-tool model-context-protocol mcp-server mcp-tools agent-safety

Updated Apr 15, 2026
Go

schmitthub / clawker

Star

Claude Code agent-in-container orchestration and automation

go docker golang ai containerization ai-agents claude agent-container ai-agent agent-sandbox llm claude-code ai-sandboxes agent-safety ai-container ai-sandbox agent-sandboxes agent-containment

Updated Apr 17, 2026
Go

aerosta / rewardhackwatch

Star

Runtime detector for reward hacking and misalignment in LLM agents (89.7% F1 on 5,391 trajectories).

Updated Apr 13, 2026
Python

Audit log + guard for AI agents. Passive logging, human-in-the-loop approval for dangerous ops (rm, drop, transfer) via Telegram. Diary, daily digest, timeline UI. Cursor & MCP ready. Cloudflare Workers + Hono + D1.

typescript telegram mcp guard audit d1 hono human-in-the-loop ai-agents cloudflare-workers durable-objects agent-safety

Updated Mar 9, 2026
TypeScript

choihyunsus / n2-ark

Sponsor

Star

Deterministic Guardrails for AI Agents. Ark acts as a logic-based firewall, preventing unauthorized actions through a rigorous rule engine. Ensure your AI behaves exactly as intended.

rule-engine mcp firewall ai-security guardrails agent-safety deterministic-logic

Updated Apr 3, 2026
TypeScript

Pro-GenAI / Agent-Action-Guard

Star

🛡️ Safe AI Agents through Action Classifier

Updated Apr 13, 2026
Python

AngeYobo / oxdeai

Star

Deterministic execution authorization for AI agents

distributed-systems protocol policy-engine autonomous-systems policy-enforcement llm-agents deterministic-systems ai-infrastructure infrastructure-ai agent-runtime agent-safety authorization-protocol runtime-guardrails policy-engine-devops-security execution-authorization

Updated Apr 19, 2026
TypeScript

shcherbak-ai / tethered

Star

Runtime network egress control for Python. One function call to restrict which hosts your code can connect to.

security egress-filtering network-security devsecops egress supply-chain-security llms agent-safety

Updated Mar 29, 2026
Python

oathe-ai / otc

Star

Open Threat Classification (OTC) — 10 threat patterns for AI agent skills, MCP servers, and plugins. CC-BY-4.0.

ai-security behavioral-analysis mcp-security agent-safety threat-taxonomy

Updated Feb 26, 2026

SafellmHub / hguard-go

Star

Guardrails for LLMs: detect and block hallucinated tool calls to improve safety and reliability.

middleware machine-learning ai language-models ai-safety prompt-engineering llms toolformer hallucination-detection tool-calling agent-safety

Updated Jul 18, 2025
Go

agentralabs / agentic-contract

Star

Policy engine for AI agents — enforceable rules, risk limits, approval gates, obligation tracking, and violation detection. One .acon file. Rust core + MCP server.

python rust mcp contract cursor governance risk-management policy-engine ai-agents claude binary-format agentic model-context-protocol agent-safety

Updated Mar 14, 2026
Rust

MSApps-Mobile / claude-plugins

Star

27 free, open-source plugins for Claude Code & Cowork — Google Drive, WhatsApp, YouTube, WordPress, Apollo & more. Built on the SOSA™ security framework.

mcp autonomous-agents ai-agents claude ai-security cowork sosa ai-tools ai-automation ai-governance anthropic llm-tools model-context-protocol claude-code agent-safety plugin-marketplace claude-plugins sosa-agents

Updated Apr 19, 2026
TypeScript

hexitlabs / vigil

Star

🛡️ Open-source safety guardrail for AI agent tool calls. <2ms, zero dependencies.

security ai mcp guardrails llm langchain agent-safety tool-validation

Updated Feb 15, 2026
TypeScript

azender1 / SafeAgent

Star

Execution control layer for AI agents — prevents duplicate or incorrect real-world actions under retries, uncertainty, and stale context.

agent automation reliability reliable ai-agents idempotency execution-control workflow-system ai-infrastructure agent-safety agent-infrastructure

Updated Apr 18, 2026
Python

Agent-Sudo-Org / agent-sudo

Star

The missing safety layer for AI Agents. Adaptive High-Friction Guardrails (Time-locks, Biometrics) for critical operations to prevent catastrophic errors.

ai-safety human-in-the-loop ai-agents guardrails llm-security agent-security agent-safety

Updated Jan 28, 2026
TypeScript

paolosyloslabini / ethics

Star

ETHICS.md — A statement of ethical principles for AI agents. Drop it in your repo root.

readme developer-tools ai-safety ethics ai-agents claude ai-ethics ai-alignment responsible-ai llm prompt-injection agent-safety ethics-md

Updated Feb 19, 2026

Improve this page

Add a description, image, and links to the agent-safety topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the agent-safety topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

agent-safety

Here are 110 public repositories matching this topic...

wuyoscar / ISC-Bench

XSafeAI / XSafeClaw

kajogo777 / the-agent-sandbox-taxonomy

corv89 / shannot

AgentSafe-AI / tooltrust-scanner

schmitthub / clawker

aerosta / rewardhackwatch

jetywolf / claw-diary

choihyunsus / n2-ark

Pro-GenAI / Agent-Action-Guard

AngeYobo / oxdeai

shcherbak-ai / tethered

oathe-ai / otc

SafellmHub / hguard-go

agentralabs / agentic-contract

MSApps-Mobile / claude-plugins

hexitlabs / vigil

azender1 / SafeAgent

Agent-Sudo-Org / agent-sudo

paolosyloslabini / ethics

Improve this page

Add this topic to your repo