竟思佳

LLM Safety Alignment Researcher | Ph.D. Student

I am a first-year PhD student at the School of Electronic Science and Engineering, Nanjing University, specializing in the safety alignment of large language models, with a focus on risk identification and defense mechanisms in multi-turn conversations. My work is dedicated to making AI systems safer and more reliable.

📧 jingsijia2021@163.com 💻 GitHub 📱 15136028780 📍 江苏·南京

Education

南京大学

2025.09 - 2030.06

Ph.D. 电子科学与工程学院 | 电子信息专业 (直博)

Research Interests: LLMs Alignment, Agentic RL

Advisor: Prof. Yang Gao

河南大学

2021.09 - 2025.06

本科 | 人工智能学院 | 人工智能专业

Rank: 1/114 | GPA: 3.82/4.00

Honors: 2023年国家奖学金（全院唯一）| 班长 | 院学生会主席 | CET6-556

Publications

SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues

ICLR 2026 (Under Review)

📄 Paper (Coming Soon) 💻 GitHub (Open Source)

共同一作 (Co-first Author)

核心贡献: 提出首个系统性评估多轮对话安全性的综合基准，填补了LLM安全评估在多轮风险累积方面的空白
数据规模: 构建4,053条双语多轮对话（中文2,016条、英文2,037条），对话轮次3-10轮，覆盖6大安全维度、22个子类别、22个真实场景
技术创新: 首创三维度评估框架（识别、处理、一致性）+ 整合7种越狱攻击策略
关键发现: 评估了17个主流LLM（GPT-4o、Yi-34B-Chat、Llama3.1等），发现第4轮后安全性显著退化
影响力: 代码完全开源（CC BY 4.0），已被PsyLite、MultiBreak等多个后续研究引用，纳入Emergent Mind综述

PIARS: Progressive Induction-Aware Representation Separation for LLM Safety

Machine Learning Journal (CCF-B, Under Review)

📄 Paper (Coming Soon) 💻 GitHub (Open Source)

第一作者 (First Author)

方法创新: 提出首个针对多轮越狱的表征工程防御方法，通过LoRA高效更新模型参数实现安全对齐
理论贡献: 首次提出Induction Degree (ID)概念，定量化多轮对话中的风险累积效应
技术方案: 设计多目标优化框架：(1)ID加权的表征分离损失 (2)安全边界约束 (3)效用保留损失
实验结果: 在Llama-3、Qwen2.5、Mistral等模型上，多轮越狱ASR平均降低50%以上，同时过度拒绝率降低40%，保持MMLU/GSM8K性能
研究价值: 为表征工程与多轮安全对齐提供了理论基础和实践路径，t-SNE可视化证实安全/不安全表征成功分离

发明专利

《一种基于大模型的电磁领域混合数据集自动生成方法》（中国航天科工项目产出）
《一种构建可信电磁雷达领域多模态大模型的一站式适配架构及方法》（中国航天科工项目产出）
《一种基于智能体'灵犀'的拟人化多轮对话客服方法》（中国移动项目产出）

Projects

电磁领域垂域大模型

项目负责人

2025年2月 - 2025年10月

项目背景: 与中国航天科工集团合作，构建电磁态势感知与决策支持专用大模型，解决通用模型在电磁专业领域知识缺失问题
数据工程: 构建大规模电磁数据知识库：85部专业书籍、230套习题册、1500+篇论文、14000+份情报文件、78份GJB标准（6.2GB），最终生成52,197条指令数据 + 10,292条COT推理数据
LoRA微调与秩自适应: 基于DeepSeek-R1-Distill-Qwen-32B实施LoRA微调（r=4, alpha=16），创新性引入秩自适应动态调度机制
Self-Refine自我反思: 设计融入电磁专业知识的多维批评提示+结构化反馈机制，电磁态势认知准确率从89.4%提升至93.4%

成果产出: 产出2项发明专利，模型已应用于航天科工电磁态势感知系统

中国移动智能客服Agent系统（"灵犀"）

核心骨干

2024年12月 - 2025年9月

项目背景: 与中国移动合作开发智能客服系统，解决传统客服在多意图识别、知识库调用、情感交互方面的痛点
架构创新: 首创深度嵌入式融合架构，将智能体作为原生组件嵌入业务页面（余量查询、套餐推荐等），实现服务入口统一与交互上下文无缝共享
多意图协同框架: 设计5种意图策略（推荐、查询、对比、质疑、闲聊），精确查询类任务使用专用工具，复杂推理类任务引入思维链技术
情感感知机制: 集成用户情绪识别与拟人化回复生成，支持长程多轮对话管理

成果产出: 产出发明专利，系统已部署至中国移动多个省份客服中心

Skills

LLM Post-Training

熟练掌握SFT流程，包括数据构建、训练策略、超参数调优等；深入理解DPO、IPO、KTO等偏好优化方法；熟悉RLHF、PPO、GRPO等强化学习对齐算法的原理与实现；具备偏好数据构建、标注、质量控制全流程经验

训练框架与工程

PyTorch, Hugging Face Transformers, PEFT/LoRA； DeepSpeed, FSDP等大规模训练框架； vLLM等推理加速工具

Awards & Honors

2023年国家奖学金 (1/600)
2023年度中国机器人及人工智能大赛全国总决赛一等奖
河南省优秀毕业生
院唯一优秀毕业论文