赛道一：ControlMind Sci-Align 评测基座

把控制科学 PDF 资产转化为可训练、可评测、可追溯的数据基础设施。

前台展示行业痛点、语料规模和四维 Benchmark；下方公开 PDF 上传、MinerU 解析、DeepSeek 出题与评分均走云端真实 API，样例仅用于快速展示。

策略

公开云端 Demo

云端 API

DeepSeek

模型入口

服务端代理/回放

解析

MinerU 官方 API

赛道三合成

DeepSeek

公开演示工作台只处理公开或脱敏材料；私有原文、chunk、向量索引和批量实验不进入云端。

控制科学评测缺口

通用基准很少覆盖控制科学，更缺少条件敏感和开放设计两个工程关键维度。

复杂 PDF 难以消费

扫描教材、公式、图片和表格需要先被结构化，才能进入训练、检索和评测链路。

模型答案需要验真

LLM 很容易写出看似合理的控制方案，必须用四维 Benchmark 量化能力边界。

私有资料不能默认上云

原文、chunk、向量索引和微调样本属于受控资产，公开或脱敏任务才允许进入云端演示。

结构化语料工程

MinerU 将公式、图片和正文保留下来，支撑后续训练、检索和评测。

报告主张

362

PDF 文档

253,012

LaTeX 公式

11,554

嵌入图片

28,514

语义 chunk

500

核心评测题

A/B/C/D

四维平衡

四维评测闭环

展示重点不是单次回答，而是可复现的 Benchmark、Judge 和数据追溯。

评测对象

9 个主流 LLM，全量 500 题

能力分层

概念回溯、多步推理、条件敏感、开放设计

可靠性

跨管道 MAE=0.0003，三 Judge κ=0.575

部署边界

完整系统本地优先，云端只处理公开或脱敏派生任务

评审验收路径

默认先看语料规模、四维 Benchmark 和排行榜结论；需要现场核验时，按顺序上传公开 PDF 或提交公开 URL，再执行云端解析、出题和评分，查看同一来源下的解析、题目、作答和评分绑定。

论文输入

待执行

上传 PDF 或选择已验证样例论文。

上传 PDF

公开 URL / MinerU 官方 API

仅适合公开/脱敏 URL；敏感文档不进入公开云端演示。

样例论文

样例用于快速展示完整页面结构；正式云端验收请使用上传或公开 URL。

解析与结构化

待执行

上传 PDF 由 MinerU 官方 API 实时解析；公开 URL 会提交官方解析任务；样例论文用于快速展示。

选择输入后，可检查样例解析或解析上传 PDF。

出题与评分

待执行

调用 DeepSeek 生成 A/B/C/D 风格题目，并对候选回答进行云端评分。