赛道一:Sci-Align
控制科学 PDF 资产进入可评测、可训练、可追溯的数据基座。
362
PDF 文档
253,012
LaTeX 公式
28,514
语义 chunk
500
核心评测题
延续完整系统的三赛道设计,云端只开放适合公开展示的解析、出题、评分、任务规划和医学 RAG 来源回放;私有语料和长任务保留在受控环境中。
集中展示三赛道核心成果、公开展示边界、云端服务状态和可核验输出。
控制科学 PDF 资产进入可评测、可训练、可追溯的数据基座。
把语料生产从脚本流水线升级为可规划、可恢复、可审计的执行协议。
医学文献问答保留检索来源、结论状态、安全拒答和中文机制解释。
三赛道能力按公开评审场景重新呈现:可实时体验的保留为云端操作,重资产能力以来源和产物回放方式核验。
| 赛道 | 完整系统能力 | 云端保留能力 | 云端砍掉能力 |
|---|---|---|---|
| 赛道一 | PDF 解析、ABCD 出题、模型答题、Judge 评分、全量榜单 | 公开 PDF 解析、摘要出题、单题评分 | 私有语料、全量批跑 |
| 赛道二 | Data Agent 飞轮、DAG、日志、恢复、跨模态审计 | 公开任务规划、产物回放、来源矩阵 | 长任务、私有语料重跑 |
| 赛道三 | 医学 RAG、混合检索、结论校验、安全拒答 | 稳定来源回放、公开样例检索、中文机制解释 | 患者材料、院内资产 |
把成果拆成输入、云端能力、可见输出,方便评审逐项检查。
| 能力 | 输入 | 云端服务 | 输出/来源 |
|---|---|---|---|
| 赛道一论文解析 | 公开 PDF URL / 上传 PDF | MinerU 官方 API | 任务响应、Markdown 预览、解析字符数 |
| 赛道一出题评分 | 解析文本 / 摘要 / 作答 | DeepSeek | 题型、题干、参考答案、评分规则、反馈 |
| 赛道二任务规划 | 公开任务目标 | 云端确定性规划器 | intent、DAG、资源策略、核验摘要 |
| 赛道三 医学 RAG | 中文医学文献问题 | 公开来源回放 | 命中来源、中文回答、结论状态、安全声明 |
| 部署核验 | health/runtime/tracks | 服务端代理 | 状态、额度、依赖状态、纯云端策略 |