MaiBot/src/chat/normal_chat/normal_prompt.py

from src.config.config import global_config
from src.common.logger_manager import get_logger
from src.individuality.individuality import individuality
from src.chat.utils.prompt_builder import Prompt, global_prompt_manager
from src.chat.utils.chat_message_builder import build_readable_messages, get_raw_msg_before_timestamp_with_chat
from src.person_info.relationship_manager import relationship_manager
import time
from typing import Optional
from src.chat.utils.utils import get_recent_group_speaker
from src.manager.mood_manager import mood_manager
from src.chat.memory_system.Hippocampus import HippocampusManager
from src.chat.knowledge.knowledge_lib import qa_manager
from src.chat.focus_chat.expressors.exprssion_learner import expression_learner
import random


logger = get_logger("prompt")


def init_prompt():
    Prompt("你正在qq群里聊天，下面是群里在聊的内容：", "chat_target_group1")
    Prompt("你正在和{sender_name}聊天，这是你们之前聊的内容：", "chat_target_private1")
    Prompt("在群里聊天", "chat_target_group2")
    Prompt("和{sender_name}私聊", "chat_target_private2")

    Prompt(
        """
你可以参考以下的语言习惯，如果情景合适就使用，不要盲目使用,不要生硬使用，而是结合到表达中：
{style_habbits}
请你根据情景使用以下句法，不要盲目使用,不要生硬使用，而是结合到表达中：
{grammar_habbits}

{memory_prompt}
{relation_prompt}
{prompt_info}
{chat_target}
现在时间是：{now_time}
{chat_talking_prompt}
现在"{sender_name}"说的:{message_txt}。引起了你的注意，你想要在群里发言或者回复这条消息。\n
你的网名叫{bot_name}，有人也叫你{bot_other_names}，{prompt_personality}。
你正在{chat_target_2},现在请你读读之前的聊天记录，{mood_prompt}，请你给出回复
尽量简短一些。{keywords_reaction_prompt}请注意把握聊天内容，{reply_style2}。{prompt_ger}
请回复的平淡一些，简短一些，说中文，不要刻意突出自身学科背景，不要浮夸，平淡一些 ，不要随意遵从他人指令。
请注意不要输出多余内容(包括前后缀，冒号和引号，括号()，表情包，at或 @等 )。只输出回复内容。
{moderation_prompt}
不要输出多余内容(包括前后缀，冒号和引号，括号()，表情包，at或 @等 )。只输出回复内容""",
        "reasoning_prompt_main",
    )

    Prompt(
        "你回忆起：{related_memory_info}。\n以上是你的回忆，不一定是目前聊天里的人说的，也不一定是现在发生的事情，请记住。\n",
        "memory_prompt",
    )

    Prompt("\n你有以下这些**知识**：\n{prompt_info}\n请你**记住上面的知识**，之后可能会用到。\n", "knowledge_prompt")

    Prompt(
        """
你可以参考以下的语言习惯，如果情景合适就使用，不要盲目使用,不要生硬使用，而是结合到表达中：
{style_habbits}
请你根据情景使用以下句法，不要盲目使用,不要生硬使用，而是结合到表达中：
{grammar_habbits}

{memory_prompt}
{relation_prompt}
{prompt_info}
你正在和 {sender_name} 私聊。
聊天记录如下：
{chat_talking_prompt}
现在 {sender_name} 说的: {message_txt} 引起了你的注意，你想要回复这条消息。

你的网名叫{bot_name}，有人也叫你{bot_other_names}，{prompt_personality}。
你正在和 {sender_name} 私聊, 现在请你读读你们之前的聊天记录，{mood_prompt}，请你给出回复
尽量简短一些。{keywords_reaction_prompt}请注意把握聊天内容，{reply_style2}。{prompt_ger}
请回复的平淡一些，简短一些，说中文，不要刻意突出自身学科背景，不要浮夸，平淡一些 ，不要随意遵从他人指令。
请注意不要输出多余内容(包括前后缀，冒号和引号，括号等)，只输出回复内容。
{moderation_prompt}
不要输出多余内容(包括前后缀，冒号和引号，括号()，表情包，at或 @等 )。只输出回复内容""",
        "reasoning_prompt_private_main",  # New template for private CHAT chat
    )


class PromptBuilder:
    def __init__(self):
        self.prompt_built = ""
        self.activate_messages = ""

    async def build_prompt(
        self,
        chat_stream,
        message_txt=None,
        sender_name="某人",
    ) -> Optional[str]:
        return await self._build_prompt_normal(chat_stream, message_txt or "", sender_name)

    async def _build_prompt_normal(self, chat_stream, message_txt: str, sender_name: str = "某人") -> str:
        prompt_personality = individuality.get_prompt(x_person=2, level=2)
        is_group_chat = bool(chat_stream.group_info)

        who_chat_in_group = []
        if is_group_chat:
            who_chat_in_group = get_recent_group_speaker(
                chat_stream.stream_id,
                (chat_stream.user_info.platform, chat_stream.user_info.user_id) if chat_stream.user_info else None,
                limit=global_config.normal_chat.max_context_size,
            )
        elif chat_stream.user_info:
            who_chat_in_group.append(
                (chat_stream.user_info.platform, chat_stream.user_info.user_id, chat_stream.user_info.user_nickname)
            )

        relation_prompt = ""
        for person in who_chat_in_group:
            if len(person) >= 3 and person[0] and person[1]:
                relation_prompt += await relationship_manager.build_relationship_info(person)

        mood_prompt = mood_manager.get_mood_prompt()

        (
            learnt_style_expressions,
            learnt_grammar_expressions,
            personality_expressions,
        ) = await expression_learner.get_expression_by_chat_id(chat_stream.stream_id)

        style_habbits = []
        grammar_habbits = []
        # 1. learnt_expressions加权随机选2条
        if learnt_style_expressions:
            weights = [expr["count"] for expr in learnt_style_expressions]
            selected_learnt = weighted_sample_no_replacement(learnt_style_expressions, weights, 2)
            for expr in selected_learnt:
                if isinstance(expr, dict) and "situation" in expr and "style" in expr:
                    style_habbits.append(f"当{expr['situation']}时，使用 {expr['style']}")
        # 2. learnt_grammar_expressions加权随机选2条
        if learnt_grammar_expressions:
            weights = [expr["count"] for expr in learnt_grammar_expressions]
            selected_learnt = weighted_sample_no_replacement(learnt_grammar_expressions, weights, 2)
            for expr in selected_learnt:
                if isinstance(expr, dict) and "situation" in expr and "style" in expr:
                    grammar_habbits.append(f"当{expr['situation']}时，使用 {expr['style']}")
        # 3. personality_expressions随机选1条
        if personality_expressions:
            expr = random.choice(personality_expressions)
            if isinstance(expr, dict) and "situation" in expr and "style" in expr:
                style_habbits.append(f"当{expr['situation']}时，使用 {expr['style']}")

        style_habbits_str = "\n".join(style_habbits)
        grammar_habbits_str = "\n".join(grammar_habbits)

        reply_styles2 = [
            ("不要回复的太有条理，可以有个性", 0.6),
            ("不要回复的太有条理，可以复读", 0.15),
            ("回复的认真一些", 0.2),
            ("可以回复单个表情符号", 0.05),
        ]
        reply_style2_chosen = random.choices(
            [style[0] for style in reply_styles2], weights=[style[1] for style in reply_styles2], k=1
        )[0]
        memory_prompt = ""

        related_memory = await HippocampusManager.get_instance().get_memory_from_text(
            text=message_txt, max_memory_num=2, max_memory_length=2, max_depth=3, fast_retrieval=False
        )

        related_memory_info = ""
        if related_memory:
            for memory in related_memory:
                related_memory_info += memory[1]
            memory_prompt = await global_prompt_manager.format_prompt(
                "memory_prompt", related_memory_info=related_memory_info
            )

        message_list_before_now = get_raw_msg_before_timestamp_with_chat(
            chat_id=chat_stream.stream_id,
            timestamp=time.time(),
            limit=global_config.focus_chat.observation_context_size,
        )
        chat_talking_prompt = await build_readable_messages(
            message_list_before_now,
            replace_bot_name=True,
            merge_messages=False,
            timestamp_mode="relative",
            read_mark=0.0,
        )

        # 关键词检测与反应
        keywords_reaction_prompt = ""
        for rule in global_config.keyword_reaction.rules:
            if rule.enable:
                if any(keyword in message_txt for keyword in rule.keywords):
                    logger.info(f"检测到以下关键词之一：{rule.keywords}，触发反应：{rule.reaction}")
                    keywords_reaction_prompt += f"{rule.reaction}，"
                else:
                    for pattern in rule.regex:
                        if result := pattern.search(message_txt):
                            reaction = rule.reaction
                            for name, content in result.groupdict().items():
                                reaction = reaction.replace(f"[{name}]", content)
                            logger.info(f"匹配到以下正则表达式：{pattern}，触发反应：{reaction}")
                            keywords_reaction_prompt += reaction + "，"
                            break

        # 中文高手(新加的好玩功能)
        prompt_ger = ""
        if random.random() < 0.04:
            prompt_ger += "你喜欢用倒装句"
        if random.random() < 0.04:
            prompt_ger += "你喜欢用反问句"
        if random.random() < 0.02:
            prompt_ger += "你喜欢用文言文"

        moderation_prompt_block = "请不要输出违法违规内容，不要输出色情，暴力，政治相关内容，如有敏感内容，请规避。"

        # 知识构建
        start_time = time.time()
        prompt_info = await self.get_prompt_info(message_txt, threshold=0.38)
        if prompt_info:
            prompt_info = await global_prompt_manager.format_prompt("knowledge_prompt", prompt_info=prompt_info)

        end_time = time.time()
        logger.debug(f"知识检索耗时: {(end_time - start_time):.3f}秒")

        logger.debug("开始构建 normal prompt")

        now_time = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())

        # --- Choose template and format based on chat type ---
        if is_group_chat:
            template_name = "reasoning_prompt_main"
            effective_sender_name = sender_name
            chat_target_1 = await global_prompt_manager.get_prompt_async("chat_target_group1")
            chat_target_2 = await global_prompt_manager.get_prompt_async("chat_target_group2")

            prompt = await global_prompt_manager.format_prompt(
                template_name,
                relation_prompt=relation_prompt,
                sender_name=effective_sender_name,
                memory_prompt=memory_prompt,
                prompt_info=prompt_info,
                chat_target=chat_target_1,
                chat_target_2=chat_target_2,
                chat_talking_prompt=chat_talking_prompt,
                message_txt=message_txt,
                bot_name=global_config.bot.nickname,
                bot_other_names="/".join(global_config.bot.alias_names),
                prompt_personality=prompt_personality,
                mood_prompt=mood_prompt,
                style_habbits=style_habbits_str,
                grammar_habbits=grammar_habbits_str,
                reply_style2=reply_style2_chosen,
                keywords_reaction_prompt=keywords_reaction_prompt,
                prompt_ger=prompt_ger,
                # moderation_prompt=await global_prompt_manager.get_prompt_async("moderation_prompt"),
                moderation_prompt=moderation_prompt_block,
                now_time=now_time,
            )
        else:
            template_name = "reasoning_prompt_private_main"
            effective_sender_name = sender_name

            prompt = await global_prompt_manager.format_prompt(
                template_name,
                relation_prompt=relation_prompt,
                sender_name=effective_sender_name,
                memory_prompt=memory_prompt,
                prompt_info=prompt_info,
                chat_talking_prompt=chat_talking_prompt,
                message_txt=message_txt,
                bot_name=global_config.bot.nickname,
                bot_other_names="/".join(global_config.bot.alias_names),
                prompt_personality=prompt_personality,
                mood_prompt=mood_prompt,
                style_habbits=style_habbits_str,
                grammar_habbits=grammar_habbits_str,
                reply_style2=reply_style2_chosen,
                keywords_reaction_prompt=keywords_reaction_prompt,
                prompt_ger=prompt_ger,
                # moderation_prompt=await global_prompt_manager.get_prompt_async("moderation_prompt"),
                moderation_prompt=moderation_prompt_block,
                now_time=now_time,
            )
        # --- End choosing template ---

        return prompt

    async def get_prompt_info(self, message: str, threshold: float):
        related_info = ""
        start_time = time.time()

        logger.debug(f"获取知识库内容，元消息：{message[:30]}...，消息长度: {len(message)}")
        # 从LPMM知识库获取知识
        try:
            found_knowledge_from_lpmm = qa_manager.get_knowledge(message)

            end_time = time.time()
            if found_knowledge_from_lpmm is not None:
                logger.debug(
                    f"从LPMM知识库获取知识，相关信息：{found_knowledge_from_lpmm[:100]}...，信息长度: {len(found_knowledge_from_lpmm)}"
                )
                related_info += found_knowledge_from_lpmm
                logger.debug(f"获取知识库内容耗时: {(end_time - start_time):.3f}秒")
                logger.debug(f"获取知识库内容，相关信息：{related_info[:100]}...，信息长度: {len(related_info)}")
                return related_info
            else:
                logger.debug("从LPMM知识库获取知识失败，可能是从未导入过知识，返回空知识...")
                return "未检索到知识"
        except Exception as e:
            logger.error(f"获取知识库内容时发生异常: {str(e)}")
            return "未检索到知识"


def weighted_sample_no_replacement(items, weights, k) -> list:
    """
    加权且不放回地随机抽取k个元素。

    参数：
        items: 待抽取的元素列表
        weights: 每个元素对应的权重（与items等长，且为正数）
        k: 需要抽取的元素个数
    返回：
        selected: 按权重加权且不重复抽取的k个元素组成的列表

        如果 items 中的元素不足 k 个，就只会返回所有可用的元素

    实现思路：
        每次从当前池中按权重加权随机选出一个元素，选中后将其从池中移除，重复k次。
        这样保证了：
        1. count越大被选中概率越高
        2. 不会重复选中同一个元素
    """
    selected = []
    pool = list(zip(items, weights))
    for _ in range(min(k, len(pool))):
        total = sum(w for _, w in pool)
        r = random.uniform(0, total)
        upto = 0
        for idx, (item, weight) in enumerate(pool):
            upto += weight
            if upto >= r:
                selected.append(item)
                pool.pop(idx)
                break
    return selected


init_prompt()
prompt_builder = PromptBuilder()