Add summarize service v0.1

2025-03-03 03:35:19 +03:00 · 2025-03-03 03:35:19 +03:00 · 8e5e9562f5
parent 053bed6e3c
commit 8e5e9562f5
7 changed files with 247 additions and 0 deletions
--- a/summarize_service/Dockerfile
+++ b/summarize_service/Dockerfile
@ -0,0 +1,22 @@
+FROM nvidia/cuda:12.2.0-runtime-ubuntu22.04
+
+RUN apt update && apt install -y \
+    python3.10 \
+    python3-pip \
+    curl \
+    pciutils \
+    lshw \
+    ffmpeg \
+ && rm -rf /var/lib/apt/lists/*
+
+WORKDIR /app
+
+COPY requirements.txt ./
+RUN pip install --no-cache-dir -r requirements.txt
+
+COPY . .
+
+ENV NVIDIA_VISIBLE_DEVICES=all
+ENV NVIDIA_DRIVER_CAPABILITIES=compute,utility
+
+CMD ["python3", "app/worker.py"]
--- a/summarize_service/app/config.py
+++ b/summarize_service/app/config.py
@ -0,0 +1,15 @@
+import os
+
+MAX_INPUT_LENGTH = int(os.environ.get("MAX_INPUT_LENGTH", "1024"))
+MAX_OUTPUT_LENGTH = int(os.environ.get("MAX_OUTPUT_LENGTH", "1024"))
+BATCH_SIZE = int(os.environ.get("BATCH_SIZE", "4"))
+WAIT_TIMEOUT = int(os.environ.get("WAIT_TIMEOUT", "1"))
+
+REDIS_HOST = os.environ.get("REDIS_HOST", "redis")
+REDIS_PORT = int(os.environ.get("REDIS_PORT", "6379"))
+TEXT_TASK_CHANNEL = os.environ.get("TEXT_TASK_CHANNEL", "text_task_channel")
+TEXT_RESULT_CHANNEL = os.environ.get("TEXT_RESULT_CHANNEL", "text_result_channel")
+
+BASE_MODEL = os.environ.get("BASE_MODEL", "google/gemma-2-2b")
+ADAPTER_DIR = os.environ.get("ADAPTER_DIR", "./gemma-2-2b_lora")
+HF_TOKEN = os.environ.get("HF_TOKEN", "")
--- a/summarize_service/app/inference_service.py
+++ b/summarize_service/app/inference_service.py
@ -0,0 +1,50 @@
+from app.config import MAX_INPUT_LENGTH, MAX_OUTPUT_LENGTH
+
+class InferenceService:
+    def __init__(self, model_loader: "ModelLoader"):
+        self.model_loader = model_loader
+        self.model = self.model_loader.get_model()
+        self.tokenizer = self.model_loader.get_tokenizer()
+        self.device = self.model_loader.get_device()
+        self.max_input_length = MAX_INPUT_LENGTH
+        self.max_output_length = MAX_OUTPUT_LENGTH
+
+    def generate_response(self, prompt: str) -> str:
+        full_prompt = f"Запрос: {prompt}\nОжидаемый ответ:"
+        inputs = self.tokenizer(
+            full_prompt,
+            return_tensors="pt",
+            truncation=True,
+            max_length=self.max_input_length,
+            padding="max_length"
+        ).to(self.device)
+
+        outputs = self.model.generate(
+            inputs.input_ids,
+            max_length=self.max_output_length,
+            num_beams=5,
+            early_stopping=True,
+            no_repeat_ngram_size=2
+        )
+        result = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
+        return result
+
+    def generate_batch(self, prompts: list) -> list:
+        full_prompts = [f"Запрос: {p}\nОжидаемый ответ:" for p in prompts]
+        inputs = self.tokenizer(
+            full_prompts,
+            return_tensors="pt",
+            truncation=True,
+            max_length=self.max_input_length,
+            padding="longest"
+        ).to(self.device)
+
+        outputs = self.model.generate(
+            inputs.input_ids,
+            max_length=self.max_output_length,
+            num_beams=5,
+            early_stopping=True,
+            no_repeat_ngram_size=2
+        )
+        responses = [self.tokenizer.decode(out, skip_special_tokens=True) for out in outputs]
+        return responses
--- a/summarize_service/app/model_loader.py
+++ b/summarize_service/app/model_loader.py
@ -0,0 +1,57 @@
+# app/model_loader.py
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
+from peft import PeftModel
+
+class ModelLoader:
+    def __init__(self, base_model_name: str, adapter_dir: str, hf_token: str, use_4bit: bool = True):
+        self.base_model_name = base_model_name
+        self.adapter_dir = adapter_dir
+        self.hf_token = hf_token
+        self.use_4bit = use_4bit
+
+        self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        self.model = None
+        self.tokenizer = None
+
+    def load_model(self):
+        bnb_config = BitsAndBytesConfig(
+            load_in_4bit=self.use_4bit,
+            bnb_4bit_quant_type="nf4",
+            bnb_4bit_compute_dtype=torch.float16,
+        )
+
+        base_model = AutoModelForCausalLM.from_pretrained(
+            self.base_model_name,
+            torch_dtype=torch.float16,
+            device_map="auto",
+            attn_implementation="eager",
+            quantization_config=bnb_config,
+            token=self.hf_token
+        )
+
+        self.model = PeftModel.from_pretrained(
+            base_model,
+            self.adapter_dir,
+            local_files_only=True
+        )
+        self.model.eval()
+        self.model.to(self.device)
+
+    def load_tokenizer(self):
+        self.tokenizer = AutoTokenizer.from_pretrained(self.base_model_name, local_files_only=True)
+        if self.tokenizer.pad_token is None:
+            self.tokenizer.pad_token = self.tokenizer.eos_token
+
+    def get_model(self):
+        if self.model is None:
+            self.load_model()
+        return self.model
+
+    def get_tokenizer(self):
+        if self.tokenizer is None:
+            self.load_tokenizer()
+        return self.tokenizer
+
+    def get_device(self):
+        return self.device
--- a/summarize_service/app/redis_client.py
+++ b/summarize_service/app/redis_client.py
@ -0,0 +1,47 @@
+# app/redis_client.py
+import os
+import json
+import time
+import redis
+from typing import List
+from pydantic import BaseModel
+
+class Task(BaseModel):
+    chat_id: int
+    user_id: int
+    message_id: int
+    text: str
+
+class RedisClient:
+    def __init__(self, host: str, port: int, task_channel: str, result_channel: str):
+        self.host = host
+        self.port = port
+        self.task_channel = task_channel
+        self.result_channel = result_channel
+        self.client = redis.Redis(host=self.host, port=self.port, decode_responses=True)
+
+    def get_tasks(self, batch_size: int, wait_timeout: int = 5) -> List[Task]:
+        tasks = []
+        res = self.client.blpop(self.task_channel, timeout=wait_timeout)
+        if res:
+            _, task_json = res
+            try:
+                task = Task.parse_raw(task_json)
+                tasks.append(task)
+            except Exception as e:
+                print("Ошибка парсинга задачи:", e)
+
+        while len(tasks) < batch_size:
+            task_json = self.client.lpop(self.task_channel)
+            if task_json is None:
+                break
+            try:
+                task = Task.parse_raw(task_json)
+                tasks.append(task)
+            except Exception as e:
+                print("Ошибка парсинга задачи:", e)
+        return tasks
+
+    def publish_result(self, result: dict):
+        result_json = json.dumps(result)
+        self.client.rpush(self.result_channel, result_json)
--- a/summarize_service/app/worker.py
+++ b/summarize_service/app/worker.py
@ -0,0 +1,42 @@
+# app/worker.py
+import time
+from app.model_loader import ModelLoader
+from app.inference_service import InferenceService
+from app.redis_client import RedisClient
+from config import BASE_MODEL, ADAPTER_DIR, HF_TOKEN, REDIS_HOST, REDIS_PORT, TEXT_RESULT_CHANNEL, TEXT_TASK_CHANNEL, BATCH_SIZE, WAIT_TIMEOUT
+
+def main():
+    model_loader = ModelLoader(BASE_MODEL, ADAPTER_DIR, HF_TOKEN)
+    model_loader.load_model()
+    model_loader.load_tokenizer()
+    inference_service = InferenceService(model_loader)
+
+    redis_client = RedisClient(
+        host=REDIS_HOST,
+        port=REDIS_PORT,
+        task_channel=TEXT_TASK_CHANNEL,
+        result_channel=TEXT_RESULT_CHANNEL
+    )
+
+    print("Worker запущен, ожидаем задачи...")
+
+    while True:
+        tasks = redis_client.get_tasks(BATCH_SIZE, wait_timeout=WAIT_TIMEOUT)
+        if not tasks:
+            time.sleep(0.5)
+            continue
+
+        texts = [task.text for task in tasks]
+        responses = inference_service.generate_batch(texts)
+        for task, response in zip(tasks, responses):
+            result = {
+                "chat_id": task.chat_id,
+                "user_id": task.user_id,
+                "message_id": task.message_id,
+                "text": response
+            }
+            redis_client.publish_result(result)
+            print(f"Обработана задача {task.message_id}")
+            
+if __name__ == "__main__":
+    main()
--- a/summarize_service/requirements.txt
+++ b/summarize_service/requirements.txt
@ -0,0 +1,14 @@
+--index-url https://download.pytorch.org/whl/cu121
+
+torch==2.5.1
+
+--index-url https://pypi.org/simple
+
+transformers
+redis>=4.2.0
+python-dotenv
+redis
+pydantic
+peft
+bitsandbytes
+flash-attention