竟思佳

竟思佳

LLM Safety Alignment Researcher | Ph.D. Student

I am a first-year PhD student at the School of Electronic Science and Engineering, Nanjing University, specializing in the safety alignment of large language models, with a focus on risk identification and defense mechanisms in multi-turn conversations. My work is dedicated to making AI systems safer and more reliable.

Education

南京大学

2025.09 - 2030.06

Ph.D. 电子科学与工程学院 | 电子信息专业 (直博)

Research Interests: LLMs Alignment, Agentic RL

Advisor: Prof. Yang Gao

河南大学

2021.09 - 2025.06

本科 | 人工智能学院 | 人工智能专业

Rank: 1/114 | GPA: 3.82/4.00

Honors: 2023年国家奖学金(全院唯一)| 班长 | 院学生会主席 | CET6-556

Publications

SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues

ICLR 2026 (Under Review)

共同一作 (Co-first Author)

  • 核心贡献: 提出首个系统性评估多轮对话安全性的综合基准,填补了LLM安全评估在多轮风险累积方面的空白
  • 数据规模: 构建4,053条双语多轮对话(中文2,016条、英文2,037条),对话轮次3-10轮,覆盖6大安全维度、22个子类别、22个真实场景
  • 技术创新: 首创三维度评估框架(识别、处理、一致性)+ 整合7种越狱攻击策略
  • 关键发现: 评估了17个主流LLM(GPT-4o、Yi-34B-Chat、Llama3.1等),发现第4轮后安全性显著退化
  • 影响力: 代码完全开源(CC BY 4.0),已被PsyLite、MultiBreak等多个后续研究引用,纳入Emergent Mind综述

PIARS: Progressive Induction-Aware Representation Separation for LLM Safety

Machine Learning Journal (CCF-B, Under Review)

第一作者 (First Author)

  • 方法创新: 提出首个针对多轮越狱的表征工程防御方法,通过LoRA高效更新模型参数实现安全对齐
  • 理论贡献: 首次提出Induction Degree (ID)概念,定量化多轮对话中的风险累积效应
  • 技术方案: 设计多目标优化框架:(1)ID加权的表征分离损失 (2)安全边界约束 (3)效用保留损失
  • 实验结果: 在Llama-3、Qwen2.5、Mistral等模型上,多轮越狱ASR平均降低50%以上,同时过度拒绝率降低40%,保持MMLU/GSM8K性能
  • 研究价值: 为表征工程与多轮安全对齐提供了理论基础和实践路径,t-SNE可视化证实安全/不安全表征成功分离

发明专利

  • 《一种基于大模型的电磁领域混合数据集自动生成方法》(中国航天科工项目产出)
  • 《一种构建可信电磁雷达领域多模态大模型的一站式适配架构及方法》(中国航天科工项目产出)
  • 《一种基于智能体'灵犀'的拟人化多轮对话客服方法》(中国移动项目产出)

Projects

电磁领域垂域大模型

项目负责人

2025年2月 - 2025年10月

  • 项目背景: 与中国航天科工集团合作,构建电磁态势感知与决策支持专用大模型,解决通用模型在电磁专业领域知识缺失问题
  • 数据工程: 构建大规模电磁数据知识库:85部专业书籍、230套习题册、1500+篇论文、14000+份情报文件、78份GJB标准(6.2GB),最终生成52,197条指令数据 + 10,292条COT推理数据
  • LoRA微调与秩自适应: 基于DeepSeek-R1-Distill-Qwen-32B实施LoRA微调(r=4, alpha=16),创新性引入秩自适应动态调度机制
  • Self-Refine自我反思: 设计融入电磁专业知识的多维批评提示+结构化反馈机制,电磁态势认知准确率从89.4%提升至93.4%
成果产出: 产出2项发明专利,模型已应用于航天科工电磁态势感知系统

中国移动智能客服Agent系统("灵犀")

核心骨干

2024年12月 - 2025年9月

  • 项目背景: 与中国移动合作开发智能客服系统,解决传统客服在多意图识别、知识库调用、情感交互方面的痛点
  • 架构创新: 首创深度嵌入式融合架构,将智能体作为原生组件嵌入业务页面(余量查询、套餐推荐等),实现服务入口统一与交互上下文无缝共享
  • 多意图协同框架: 设计5种意图策略(推荐、查询、对比、质疑、闲聊),精确查询类任务使用专用工具,复杂推理类任务引入思维链技术
  • 情感感知机制: 集成用户情绪识别与拟人化回复生成,支持长程多轮对话管理
成果产出: 产出发明专利,系统已部署至中国移动多个省份客服中心

Skills

LLM Post-Training

熟练掌握SFT流程,包括数据构建、训练策略、超参数调优等;深入理解DPO、IPO、KTO等偏好优化方法; 熟悉RLHF、PPO、GRPO等强化学习对齐算法的原理与实现;具备偏好数据构建、标注、质量控制全流程经验

训练框架与工程

PyTorch, Hugging Face Transformers, PEFT/LoRA; DeepSpeed, FSDP等大规模训练框架; vLLM等推理加速工具

Awards & Honors