Reformatted checkf for is_fim_request

aponcedeleonch · aponcedeleonch · commit 4ee938ffb9cd · 2024-11-28T11:49:24.000+02:00
diff --git a/src/codegate/pipeline/fim/secret_analyzer.py b/src/codegate/pipeline/fim/secret_analyzer.py
@@ -1,7 +1,10 @@
 from litellm import ChatCompletionRequest
 
+from codegate.codegate_logging import setup_logging
 from codegate.pipeline.base import PipelineContext, PipelineResponse, PipelineResult, PipelineStep
 
+logger = setup_logging()
+
 
 class SecretAnalyzer(PipelineStep):
     """Pipeline step that handles version information requests."""
@@ -34,8 +37,9 @@ async def process(
         # message_with_secrets = any(messages_contain_secretes)
 
         # For the moment to test shortcutting just treat all messages as if they contain secrets
-        message_with_secrets = True
+        message_with_secrets = False
         if message_with_secrets:
+            logger.info('Blocking message with secrets.')
             return PipelineResult(
                 response=PipelineResponse(
                     step_name=self.name,
diff --git a/src/codegate/providers/anthropic/completion_handler.py b/src/codegate/providers/anthropic/completion_handler.py
@@ -0,0 +1,27 @@
+from typing import AsyncIterator, Optional, Union
+
+from litellm import ChatCompletionRequest, ModelResponse
+
+from codegate.providers.litellmshim import LiteLLmShim
+
+
+class AnthropicCompletion(LiteLLmShim):
+    """
+    LiteLLM Shim is a wrapper around LiteLLM's API that allows us to use it with
+    our own completion handler interface without exposing the underlying
+    LiteLLM API.
+    """
+
+    async def execute_completion(
+        self,
+        request: ChatCompletionRequest,
+        api_key: Optional[str],
+        stream: bool = False,
+    ) -> Union[ModelResponse, AsyncIterator[ModelResponse]]:
+        """
+        Execute the completion request with LiteLLM's API
+        """
+        model_in_request = request['model']
+        if not model_in_request.startswith('anthropic/'):
+            request['model'] = f'anthropic/{model_in_request}'
+        return await super().execute_completion(request, api_key, stream)
diff --git a/src/codegate/providers/anthropic/provider.py b/src/codegate/providers/anthropic/provider.py
@@ -4,18 +4,24 @@
 from fastapi import Header, HTTPException, Request
 
 from codegate.providers.anthropic.adapter import AnthropicInputNormalizer, AnthropicOutputNormalizer
-from codegate.providers.base import BaseProvider
-from codegate.providers.litellmshim import LiteLLmShim, anthropic_stream_generator
+from codegate.providers.anthropic.completion_handler import AnthropicCompletion
+from codegate.providers.base import BaseProvider, SequentialPipelineProcessor
+from codegate.providers.litellmshim import anthropic_stream_generator
 
 
 class AnthropicProvider(BaseProvider):
-    def __init__(self, pipeline_processor=None):
-        completion_handler = LiteLLmShim(stream_generator=anthropic_stream_generator)
+    def __init__(
+                self,
+                pipeline_processor: Optional[SequentialPipelineProcessor] = None,
+                fim_pipeline_processor: Optional[SequentialPipelineProcessor] = None
+            ):
+        completion_handler = AnthropicCompletion(stream_generator=anthropic_stream_generator)
         super().__init__(
             AnthropicInputNormalizer(),
             AnthropicOutputNormalizer(),
             completion_handler,
             pipeline_processor,
+            fim_pipeline_processor
         )
 
     @property
@@ -40,5 +46,6 @@ async def create_message(
             body = await request.body()
             data = json.loads(body)
 
-            stream = await self.complete(data, x_api_key)
+            is_fim_request = self._is_fim_request(request, data)
+            stream = await self.complete(data, x_api_key, is_fim_request)
             return self._completion_handler.create_streaming_response(stream)
diff --git a/src/codegate/providers/base.py b/src/codegate/providers/base.py
@@ -1,15 +1,17 @@
 from abc import ABC, abstractmethod
 from typing import Any, AsyncIterator, Callable, Dict, Optional, Union
 
-from fastapi import APIRouter
+from fastapi import APIRouter, Request
 from litellm import ModelResponse
 from litellm.types.llms.openai import ChatCompletionRequest
 
+from codegate.codegate_logging import setup_logging
 from codegate.pipeline.base import PipelineResult, SequentialPipelineProcessor
 from codegate.providers.completion.base import BaseCompletionHandler
 from codegate.providers.formatting.input_pipeline import PipelineResponseFormatter
 from codegate.providers.normalizer.base import ModelInputNormalizer, ModelOutputNormalizer
 
+logger = setup_logging()
 StreamGenerator = Callable[[AsyncIterator[Any]], AsyncIterator[str]]
 
 
@@ -25,12 +27,14 @@ def __init__(
         output_normalizer: ModelOutputNormalizer,
         completion_handler: BaseCompletionHandler,
         pipeline_processor: Optional[SequentialPipelineProcessor] = None,
+        fim_pipeline_processor: Optional[SequentialPipelineProcessor] = None,
     ):
         self.router = APIRouter()
         self._completion_handler = completion_handler
         self._input_normalizer = input_normalizer
         self._output_normalizer = output_normalizer
         self._pipeline_processor = pipeline_processor
+        self._fim_pipelin_processor = fim_pipeline_processor
 
         self._pipeline_response_formatter = PipelineResponseFormatter(output_normalizer)
 
@@ -48,22 +52,76 @@ def provider_route_name(self) -> str:
     async def _run_input_pipeline(
         self,
         normalized_request: ChatCompletionRequest,
+        is_fim_request: bool
     ) -> PipelineResult:
-        if self._pipeline_processor is None:
+        # Decide which pipeline processor to use
+        if is_fim_request:
+            pipeline_processor = self._fim_pipelin_processor
+            logger.info('FIM pipeline selected for execution.')
+        else:
+            pipeline_processor = self._pipeline_processor
+            logger.info('Chat completion pipeline selected for execution.')
+        if pipeline_processor is None:
             return PipelineResult(request=normalized_request)
 
-        result = await self._pipeline_processor.process_request(normalized_request)
+        result = await pipeline_processor.process_request(normalized_request)
 
         # TODO(jakub): handle this by returning a message to the client
         if result.error_message:
             raise Exception(result.error_message)
 
         return result
 
+    def _is_fim_request_url(self, request: Request) -> bool:
+        """
+        Checks the request URL to determine if a request is FIM or chat completion.
+        Used by: llama.cpp
+        """
+        request_path = request.url.path
+        # Evaluate first a larger substring.
+        if request_path.endswith("/chat/completions"):
+            return False
+
+        if request_path.endswith("/completions"):
+            return True
+
+        return False
+
+    def _is_fim_request_body(self, data: Dict) -> bool:
+        """
+        Determine from the raw incoming data if it's a FIM request.
+        Used by: OpenAI and Anthropic
+        """
+        messages = data.get('messages', [])
+        if not messages:
+            return False
+
+        first_message_content = messages[0].get('content')
+        if first_message_content is None:
+            return False
+
+        fim_stop_sequences = ['</COMPLETION>', '<COMPLETION>', '</QUERY>', '<QUERY>']
+        if isinstance(first_message_content, str):
+            msg_prompt = first_message_content
+        elif isinstance(first_message_content, list):
+            msg_prompt = first_message_content[0].get('text', '')
+        else:
+            logger.warning(f'Could not determine if message was FIM from data: {data}')
+            return False
+        return all([stop_sequence in msg_prompt for stop_sequence in fim_stop_sequences])
+
+    def _is_fim_request(self, request: Request, data: Dict) -> bool:
+        """
+        Determin if the request is FIM by the URL or the data of the request.
+        """
+        # Avoid more expensive inspection of body by just checking the URL.
+        if self._is_fim_request_url(request):
+            return True
+
+        return self._is_fim_request_body(data)
+
     async def complete(
-        self,
-        data: Dict,
-        api_key: Optional[str],
+            self, data: Dict, api_key: Optional[str], is_fim_request: bool
     ) -> Union[ModelResponse, AsyncIterator[ModelResponse]]:
         """
         Main completion flow with pipeline integration
@@ -79,7 +137,7 @@ async def complete(
         normalized_request = self._input_normalizer.normalize(data)
         streaming = data.get("stream", False)
 
-        input_pipeline_result = await self._run_input_pipeline(normalized_request)
+        input_pipeline_result = await self._run_input_pipeline(normalized_request, is_fim_request)
         if input_pipeline_result.response:
             return self._pipeline_response_formatter.handle_pipeline_response(
                 input_pipeline_result.response, streaming
diff --git a/src/codegate/providers/litellmshim/litellmshim.py b/src/codegate/providers/litellmshim/litellmshim.py
@@ -43,11 +43,3 @@ def create_streaming_response(self, stream: AsyncIterator[Any]) -> StreamingResp
             },
             status_code=200,
         )
-
-    def is_fim_request(self, data: Dict) -> bool:
-        """
-        Determine from the raw incoming data if it's a FIM request.
-        This is needed here since completion_handler is used by provider and provider
-        doesn't know about the adapter.
-        """
-        return self._adapter.is_fim_request(data)
diff --git a/src/codegate/providers/llamacpp/completion_handler.py b/src/codegate/providers/llamacpp/completion_handler.py
@@ -65,11 +65,3 @@ def create_streaming_response(self, stream: Iterator[Any]) -> StreamingResponse:
             },
             status_code=200,
         )
-
-    def is_fim_request(self, data: Dict) -> bool:
-        """
-        Determine from the raw incoming data if it's a FIM request.
-        This is needed here since completion_handler is used by provider and provider
-        doesn't know about the adapter.
-        """
-        return self._adapter.is_fim_request(data)
diff --git a/src/codegate/providers/llamacpp/provider.py b/src/codegate/providers/llamacpp/provider.py
@@ -3,21 +3,24 @@
 
 from fastapi import Request
 
-from codegate.pipeline.base import SequentialPipelineProcessor
-from codegate.providers.base import BaseProvider
-from codegate.providers.llamacpp.adapter import LlamaCppAdapter
+from codegate.providers.base import BaseProvider, SequentialPipelineProcessor
 from codegate.providers.llamacpp.completion_handler import LlamaCppCompletionHandler
 from codegate.providers.llamacpp.normalizer import LLamaCppInputNormalizer, LLamaCppOutputNormalizer
 
 
 class LlamaCppProvider(BaseProvider):
-    def __init__(self, pipeline_processor=None):
+    def __init__(
+                self,
+                pipeline_processor: Optional[SequentialPipelineProcessor] = None,
+                fim_pipeline_processor: Optional[SequentialPipelineProcessor] = None
+            ):
         completion_handler = LlamaCppCompletionHandler()
         super().__init__(
             LLamaCppInputNormalizer(),
             LLamaCppOutputNormalizer(),
             completion_handler,
             pipeline_processor,
+            fim_pipeline_processor
         )
 
     @property
@@ -37,5 +40,6 @@ async def create_completion(
             body = await request.body()
             data = json.loads(body)
 
-            stream = await self.complete(data, api_key=None)
+            is_fim_request = self._is_fim_request(request, data)
+            stream = await self.complete(data, None, is_fim_request=is_fim_request)
             return self._completion_handler.create_streaming_response(stream)
diff --git a/src/codegate/providers/openai/provider.py b/src/codegate/providers/openai/provider.py
@@ -3,20 +3,24 @@
 
 from fastapi import Header, HTTPException, Request
 
-from codegate.pipeline.base import SequentialPipelineProcessor
-from codegate.providers.base import BaseProvider
+from codegate.providers.base import BaseProvider, SequentialPipelineProcessor
 from codegate.providers.litellmshim import LiteLLmShim, sse_stream_generator
 from codegate.providers.openai.adapter import OpenAIInputNormalizer, OpenAIOutputNormalizer
 
 
 class OpenAIProvider(BaseProvider):
-    def __init__(self, pipeline_processor=None):
+    def __init__(
+                self,
+                pipeline_processor: Optional[SequentialPipelineProcessor] = None,
+                fim_pipeline_processor: Optional[SequentialPipelineProcessor] = None
+            ):
         completion_handler = LiteLLmShim(stream_generator=sse_stream_generator)
         super().__init__(
             OpenAIInputNormalizer(),
             OpenAIOutputNormalizer(),
             completion_handler,
             pipeline_processor,
+            fim_pipeline_processor
         )
 
     @property
@@ -31,22 +35,8 @@ def _setup_routes(self):
         """
 
         @self.router.post(f"/{self.provider_route_name}/chat/completions")
-        async def create_completion(
-            request: Request,
-            authorization: str = Header(..., description="Bearer token"),
-        ):
-            if not authorization.startswith("Bearer "):
-                raise HTTPException(status_code=401, detail="Invalid authorization header")
-
-            api_key = authorization.split(" ")[1]
-            body = await request.body()
-            data = json.loads(body)
-
-            stream = await self.complete(data, api_key)
-            return self._completion_handler.create_streaming_response(stream)
-
         @self.router.post(f"/{self.provider_route_name}/completions")
-        async def create_fim(
+        async def create_completion(
             request: Request,
             authorization: str = Header(..., description="Bearer token"),
         ):
@@ -57,5 +47,6 @@ async def create_fim(
             body = await request.body()
             data = json.loads(body)
 
-            stream = await self.complete(data, api_key)
+            is_fim_request = self._is_fim_request(request, data)
+            stream = await self.complete(data, api_key, is_fim_request=is_fim_request)
             return self._completion_handler.create_streaming_response(stream)
diff --git a/src/codegate/server.py b/src/codegate/server.py
@@ -4,7 +4,6 @@
 
 from codegate import __description__, __version__
 from codegate.pipeline.base import PipelineStep, SequentialPipelineProcessor
-from codegate.pipeline.version.version import CodegateVersion
 from codegate.pipeline.fim.secret_analyzer import SecretAnalyzer
 from codegate.pipeline.version.version import CodegateVersion
 from codegate.providers.anthropic.provider import AnthropicProvider
@@ -26,7 +25,6 @@ def init_app() -> FastAPI:
     fim_steps: List[PipelineStep] = [
         SecretAnalyzer(),
     ]
-
     pipeline = SequentialPipelineProcessor(steps)
     fim_pipeline = SequentialPipelineProcessor(fim_steps)
 
diff --git a/tests/providers/anthropic/test_adapter.py b/tests/providers/anthropic/test_adapter.py
@@ -40,7 +40,7 @@ def test_normalize_anthropic_input(input_normalizer):
             {"content": "You are an expert code reviewer", "role": "system"},
             {"content": [{"text": "Review this code", "type": "text"}], "role": "user"},
         ],
-        "model": "anthropic/claude-3-haiku-20240307",
+        "model": "claude-3-haiku-20240307",
         "stream": True,
     }
 
diff --git a/tests/providers/litellmshim/test_litellmshim.py b/tests/providers/litellmshim/test_litellmshim.py
@@ -37,9 +37,6 @@ async def modified_stream():
 
         return modified_stream()
 
-    def is_fim_request(self, data: Dict) -> bool:
-        return False
-
 
 @pytest.mark.asyncio
 async def test_complete_non_streaming():

Original file line number	Diff line number	Diff line change
`@@ -40,7 +40,7 @@ def test_normalize_anthropic_input(input_normalizer):`
`40`	`40`	`{"content": "You are an expert code reviewer", "role": "system"},`
`41`	`41`	`{"content": [{"text": "Review this code", "type": "text"}], "role": "user"},`
`42`	`42`	`],`
`43`		`- "model": "anthropic/claude-3-haiku-20240307",`
	`43`	`+ "model": "claude-3-haiku-20240307",`
`44`	`44`	`"stream": True,`
`45`	`45`	`}`
`46`	`46`