如何讓AI走向更高質量的共情？澳門天天彩免費資料大全免費查詢自然選擇兩項開源研究提供新路徑

江蘇江大工程管理有限公司
2026-03-18

機器之心發布澳門今晚必中一肖一碼準確9995

現如今，大模型越來越擅長在單輪對話中生成溫柔體貼、情緒價值拉滿的文字，然而，我們或許會懷疑：在一句句「高情商回復」的背后，模型是否真正理解了什么是共情

在情感陪伴與心理支持等真實場景中，人類之間的有效交流極少依靠單薄的漂亮話來解決問題。一句回復不僅影響著用戶當下的情緒，更會潛移默化地改變后續對話的軌跡。真正有效的共情，需要模型在長期的多輪互動之中，持續觀察并理解對方的潛在心理狀態，動態調整支持策略，最終將交流引導向更加健康的方向。

然而，當共情任務涉及復雜的隱含狀態、長期目標以及弱反饋驗證時，傳統的單輪評測與訓練范式便很難評估模型的真實水平。我們究竟該如何判斷模型在長線交互中是否起到了正向作用？

自然選擇團隊近期開源的兩項研究EMPAMAPO為解決這一問題提供了具體的方案。

這兩項工作跳出了傳統框架，試圖重新審視大模型在長程共情場景中的評測與訓練方式。前者回答「如何評測」，后者回答「如何訓練」，兩者共同嘗試將主觀的情感陪伴轉化為可衡量且可優化的系統能力。

目前，EMPA 論文已發布在 arXiv 上，代碼倉庫與 1000 多份開源數據集也已同步開放；MAPO 論文同樣已公開，相關代碼與訓練環境也將陸續開源。

論文標題：EMPA: Evaluating Persona-Aligned Empathy as a Process
論文鏈接：https://arxiv.org/abs/2603.00552
代碼地址：https://github.com/KAYA-HAI/EMPA-Benchmark-EPMSandbox
1000+ 開源數據集：https://huggingface.co/datasets/SalmonTell/EMPA-character_card/tree/main

論文標題：MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue
論文鏈接：https://arxiv.org/pdf/2603.06194v1
代碼地址：https://github.com/2200xiaohu/MAPO
EMPA

第一次把共情評測推進到「過程級」

長期以來，共情評測大多停留在單輪任務，例如情緒識別、共情回復生成，或通過 LLM-as-a-Judge 給回答打分。這類方法可以評估語言是否「像人」，卻很難回答一個更關鍵的問題：模型是否真的在長期幫助用戶

EMPA 的核心思路，是把共情正式建模為一種long-horizon agent任務。在這種任務中，用戶真實的心理狀態是一個無法直接觀察的潛變量（latent state），對話則是一個持續更新狀態的長期過程，而支持效果往往只能通過弱信號間接驗證。

基于這一視角，EMPA 不再只評估某一句回復本身，而是評估整段對話軌跡對用戶潛在心理狀態的影響

為此，研究者構建了一套完整評估框架：首先通過Real-to-Sim 數據管線，將真實但嘈雜的長對話蒸餾為可復現的心理場景；隨后，在一個非腳本化的多智能體沙盒環境中，讓用戶 agent、導演 agent、裁判 agent 與被測模型展開開放式互動；最后，通過Empathy Potential Model（EPM）在潛在心理空間中建模用戶狀態變化，從而在軌跡層面評估對話是否產生持續、穩定的正向影響。

在評測方法上，EMPA 采用了Rubric-Grounded Physics Evaluation的思路。

傳統開放式評測通常有兩種路徑：一種是基于 rubric checklist 的逐項打分，另一種是 LLM-as-a-Judge 直接給出整體評價。但這兩種方法都存在明顯缺陷：前者容易把復雜互動壓縮成靜態指標，后者則容易受到語言風格、篇幅長度甚至表達技巧的干擾。

EMPA 的處理方式是把證據生成最終評分做結構性拆分。在對話過程中，judge 不直接輸出最終得分，而是根據 rubric 抽取可追溯、可歸因的結構化證據；隨后EPM 在軌跡層面對這些證據進行聚合計算，并將其映射為潛在心理狀態的變化信號。也就是說，rubric 不再直接扮演「裁判」角色，而是先變成「取證器」，真正的評分則由后續的軌跡建模來完成。

這一步非常關鍵，因為它意味著 EMPA 不只是換了個指標，而是在重新定義主觀評測范式：不再依賴單輪「印象分」，而是通過多輪證據持續更新用戶狀態，并在整段對話軌跡上評估效果，從而避免單輪高分掩蓋長期策略失效。換句話說，EMPA 關注的不再是「這句話說得好不好」，而是「整段對話是否真的幫助用戶狀態朝更好的方向變化」。這也使得長期共情能力第一次成為一個可以被系統研究、比較與優化的評測問題。

實驗結果進一步表明，這種新的評測路徑在魯棒性與敏感度上，均明顯優于傳統方法。

MAPO

一個面向長程多輪交互的 RL 算法

如果說 EMPA 解決的是「如何評測」，那么團隊的另一項研究MAPO則試圖回答另一個問題：如何訓練模型在這種長期對話任務中表現更好

在 MAPO 論文中，團隊提出了一種新的對話強化學習方法，目標是讓模型在長序列對話中既能利用逐輪反饋，又能保持長期策略穩定性。MAPO 的核心思路，是同時引入兩類信號：

第一類是逐輪過程獎勵。研究者借助 EMPA 的 judge 系統，對每一輪回答進行評分，并借鑒 potential reward 的思路，將相鄰輪次評分變化所帶來的增量，作為當前輪次的即時獎勵，用來衡量某一次回復是否真正推動了對話向更好的方向發展。
第二類是長期未來回報。為了避免模型只追求局部最優、沉迷短期修補，MAPO 進一步通過蒙特卡洛方法估計從當前回合到對話結束的累計回報，從而保留長程策略信息。

相比許多基于 GRPO 的 agentic RL 方法，這一設計同時繞開了兩個常見問題：要么只能依賴最終結果獎勵，導致過程信號稀疏；要么需要在每一步進行大量采樣，帶來極高的樣本復雜度。

MAPO 的具體做法是，對同一初始 prompt 采樣多條對話軌跡，并將軌跡中的每一步視作訓練樣本。

團隊進一步觀察到，即時獎勵的分布與對話輪次相對解耦，而未來回報的分布則往往與輪次強相關。因此，MAPO 分別對二者進行基于 batch 與基于 turn 的歸一化，再通過 convex combination 進行融合，從而在保留 critic-free 優勢的同時，更穩定地優化長序列對話策略。

從更宏觀的角度看，這兩個工作實際上形成了一條完整的研究鏈路：EMPA 提供了長期共情任務的評測框架，而 MAPO 提供了適用于這類多輪交互任務的強化學習算法。它們共同推動「共情」從一個容易停留在主觀印象層面的概念，轉化為一個可以被系統研究、可復現比較，并進一步進入訓練閉環的技術問題。

從實驗結果看，MAPO 在 EMPA 的動態對話沙盒環境中訓練后，效果顯著優于 GRPO，并在 EMPA benchmark 上取得明顯提升。值得注意的是，在部分設置下，一個 32B 模型已經可以逼近 Claude-3.5 的表現，同時在其他多輪對話 benchmark 上也展現出較好的泛化能力。

團隊進一步指出，MAPO 本質上并不局限于多輪對話任務，而更接近一種面向長程 agentic 場景的優化方法。隨著相關代碼與環境進一步開源，這套方法也有機會在更多真實任務中被驗證與擴展。

隨著越來越多 AI 系統進入需要與用戶長期交互的「深水區」，模型能力的競爭，顯然不會長期停留在「更會說」或「更像人」這一層面。真正重要的，越來越可能是這樣一些能力：能否建模用戶的隱含狀態，能否在多輪互動中保持策略一致性，能否在弱反饋條件下持續做出有效干預，以及能否把這種能力真正沉淀為可評測、可訓練、可迭代的系統能力。新澳彩資料免費資料大全33圖庫

從這個角度看，EMPA 與 MAPO 的意義，或許并不止于「共情」這一垂直領域，更像是在提前回答一個未來會越來越普遍的問題：當大模型開始進入那些需要長期理解、持續判斷、漸進影響人的任務時，我們究竟應該如何衡量它，又該如何把它訓練出來。

香港精華區

如何讓AI走向更高質量的共情？澳門天天彩免費資料大全免費查詢自然選擇兩項開源研究提供新路徑

出處：江蘇江大工程管理有限公司

歡迎向您的朋友推薦本站或本資料，一起交流！

香港精華區

如何讓AI走向更高質量的共情？澳門天天彩免費資料大全免費查詢 自然選擇兩項開源研究提供新路徑

出處：江蘇江大工程管理有限公司

歡迎向您的朋友推薦本站或本資料，一起交流！

如何讓AI走向更高質量的共情？澳門天天彩免費資料大全免費查詢自然選擇兩項開源研究提供新路徑