2024年第十七届“认证杯”数学中国数学建模网络挑战赛D题思路(第二阶段)
第二阶段问题:
- 我们可以利用 MJ 软件来生成大量的 AI 设计图来作为识别 AI 设计的样本数据集,如果这种思路可行,你认为需要构建一个多大的数据集才能保证识别率超过 80%?
- 如果在今后的设计比赛中,使用 AI 进行设计辅助已经是不可避免,那么人的参与频次、参与深度、人与 AI 的信息交互内容等指标将成为打分的关键依据,请你结合第一阶段的模型,构建一个打分系统,通过一定的问卷调研数据来对设计作品进行评价。
思路与求解
问题1:AI 设计图的数据集大小
要建立一个能够在识别 AI 生成的设计图时具有超过 80% 识别率的数据集,关键是数据集的质量和多样性。MJ 软件生成的图像应覆盖设计的各个方面,包括不同的风格、主题和复杂性级别。以下是几个关键步骤和考虑因素:
- 数据多样性:确保数据集中包含各种风格和类型的设计图,以覆盖可能的设计范围。
- 数据量:理论上,更大的数据集能提供更多的信息,有助于提高模型的泛化能力。然而,数据集的大小也受到训练资源和时间的限制。
- 平衡数据集:数据集中 AI 设计图与非 AI 设计图的比例应该大致相等,避免模型偏向于某一类。
- 数据标注:每张设计图需要准确的标注,指明是否由 AI 生成。
一般而言,如果是用于复杂任务的深度学习模型,数据集大小通常需要达到数万到数十万级别。具体到 80% 的识别率,可以从一个小数据集(例如 10