ControlMind科学评测工作台
检查服务中...|

赛道一:ControlMind Sci-Align 评测基座

把控制科学 PDF 资产转化为可训练、可评测、可追溯的数据基础设施。

前台展示行业痛点、语料规模和四维 Benchmark;下方公开 PDF 上传、MinerU 解析、DeepSeek 出题与评分均走云端真实 API,样例仅用于快速展示。

策略
公开云端 Demo
云端 API
DeepSeek
模型入口
服务端代理/回放
解析
MinerU 官方 API
赛道三合成
DeepSeek
公开演示工作台只处理公开或脱敏材料;私有原文、chunk、向量索引和批量实验不进入云端。
控制科学评测缺口
通用基准很少覆盖控制科学,更缺少条件敏感和开放设计两个工程关键维度。
复杂 PDF 难以消费
扫描教材、公式、图片和表格需要先被结构化,才能进入训练、检索和评测链路。
模型答案需要验真
LLM 很容易写出看似合理的控制方案,必须用四维 Benchmark 量化能力边界。
私有资料不能默认上云
原文、chunk、向量索引和微调样本属于受控资产,公开或脱敏任务才允许进入云端演示。
结构化语料工程
MinerU 将公式、图片和正文保留下来,支撑后续训练、检索和评测。
报告主张
362
PDF 文档
253,012
LaTeX 公式
11,554
嵌入图片
28,514
语义 chunk
500
核心评测题
A/B/C/D
四维平衡
四维评测闭环
展示重点不是单次回答,而是可复现的 Benchmark、Judge 和数据追溯。
评测对象
9 个主流 LLM,全量 500 题
能力分层
概念回溯、多步推理、条件敏感、开放设计
可靠性
跨管道 MAE=0.0003,三 Judge κ=0.575
部署边界
完整系统本地优先,云端只处理公开或脱敏派生任务
评审验收路径
默认先看语料规模、四维 Benchmark 和排行榜结论;需要现场核验时,按顺序上传公开 PDF 或提交公开 URL,再执行云端解析、出题和评分,查看同一来源下的解析、题目、作答和评分绑定。
1

论文输入

待执行

上传 PDF 或选择已验证样例论文。

上传 PDF
公开 URL / MinerU 官方 API
仅适合公开/脱敏 URL;敏感文档不进入公开云端演示。
样例论文
样例用于快速展示完整页面结构;正式云端验收请使用上传或公开 URL。
2

解析与结构化

待执行

上传 PDF 由 MinerU 官方 API 实时解析;公开 URL 会提交官方解析任务;样例论文用于快速展示。

选择输入后,可检查样例解析或解析上传 PDF。
3

出题与评分

待执行

调用 DeepSeek 生成 A/B/C/D 风格题目,并对候选回答进行云端评分。