ControlMind科学评测工作台
检查服务中...|
数据追溯台 / 公开展示矩阵

来源矩阵

三条赛道的核心来源、评分理由和公开交付物集中在一屏。云端版展示公开可讲的成果来源链,并把长任务替换为可访问 API 或公开报告路径。

打开 health API
赛道数量
3
论文评测 / Agent / 医学 RAG
来源条目
15
报告、数据、API 与验收路径
引用体量
1.4 MB
公开索引体量,不代表完整私有语料
T1科学对齐评测基座

ControlMind Sci-Align 评测基座

5
份来源条目
已验证内容
362 PDF 文档253,012 LaTeX 公式11,554 嵌入图片28,514 语义 chunk500 核心评测题A/B/C/D 四维平衡
评分依据

评分依据不是单次 API 成功,而是控制科学语料被结构化后,能够进入四维 Benchmark、自动出题、模型答题与 Judge 评分,并保留题目、参考答案、评分理由和来源路径。

来源文件 / API
点击查看验证方式
交付物
赛道一公开演示:MinerU 官方 API 解析公开 PDF,DeepSeek 基于解析文本出题并评分。
公开报告路径
docs/submissions/track1_sci_align_report.md · docs/submissions/shared/DATA-TRACE.md
T2Agent 工作流与数据飞轮

ControlMind Data Agent 执行协议

5
份来源条目
已验证内容
14 Intent 能力4 推理轨道9,207 视觉审计判决391s 数据飞轮闭环62ms 故障降级案例17 跨领域零改动模块
评分依据

评分依据是 Agent 把自然语言目标拆成 intent、DAG、资源调度、执行摘要和来源日志,而不是把固定 pipeline 包装成智能体。云端版只展示公开任务规划和核验摘要,不执行长任务。

来源文件 / API
点击查看验证方式
交付物
赛道二公开演示:展示意图路由、资源调度、执行校验、日志与来源的协议结构。
公开报告路径
docs/submissions/track2_agent_report.md · docs/submissions/judge_quickstart.md
T3医学来源约束 RAG

医学 RAG 来源问答与安全边界

5
份来源条目
已验证内容
3,348 医学文段FAISS + BM25混合 RRFBGE M3 / 高维索引 / BGE Small结论校验安全拒答
评分依据

评分依据是医学回答必须先检索后合成,保留文段、引用、结论支撑状态和拒答边界。云端版只回放已验证 trace,不声称现场访问私有资产。

来源文件 / API
点击查看验证方式
交付物
赛道三公开演示:按 Ask 页口径回放已验证来源、中文回答、结论状态和安全声明。
公开报告路径
docs/submissions/track3_medical_rag_report.md · docs/submissions/shared/DATA-TRACE.md

后端 API 闭环

不是静态演示,云端保留的关键动作都有可独立验收的 API;长任务只做产物回放。

服务端代理
1解析
/api/mineru/url · /api/mineru/upload
MinerU 官方 API 接收公开 PDF,返回任务或 Markdown 预览。
2出题
/api/quiz/generate
DeepSeek 根据解析文本生成题目、标准答案和评分规则。
3规划
/api/agent/plan
公开任务目标进入 intent、DAG、资源策略和核验摘要。
4RAG
/api/medical-rag/ask
医学问题先匹配公开来源,再回放稳定中文回答和边界声明。

验收核验

核验云端展示、运行策略、后端 API 与公开交付物之间的对应关系。

运行模式:公开云端模式
私有资产入口:关闭
解析后端:MinerU 官方 API
赛道数量:3
上传限制:20MB
密钥只在服务端环境变量读取
解析 API 已接入
出题评分 API 已接入
规划 API 已接入
RAG API 已接入