阐明更复杂的论点

Dive into business data optimization and best practices.
Post Reply
Bappy11
Posts: 471
Joined: Sun Dec 22, 2024 9:30 am

阐明更复杂的论点

Post by Bappy11 »

2.2.2 研究结果
研究结果显示,政治干预在学校教科书中的体现存在时间延迟和形式弱化。但帝国各个地区和各个学校类型的教学内容存在差异。各个联邦州当然都流传着自己关于“自上而下”实现帝国暴力统一的叙述,但这些叙述只是慢慢地、部分地被小德意志-普鲁士关于 1871 年所有德国人都渴望统一的叙述所掩盖。宗教取向对于战争的解读仍然具有重要意义,而且也有非常不同的政治色彩的表现形式,接近左翼自由主义或社会民主主义思想。

如上文所述,可以看出1871年前后战争主题的分布存在差异。如果将历史著作按类别(性别、宗教、学校类型)分类计算,1871年以后(共50个主题)平均有13.5个战争主题,而且分布相对均匀(10到16个主题),而1871年以前平均有10.8个主题,但这里每个系列的主题分布在6到18个主题之间。尤其对于高中教科书而言,这也是上述问题所针对的,与古代相关的主题不仅没有减少,反而略有增加(从 6 个增加到 7 个),而涉及战争的主题数量自 1789 年以来一直保持不变(2)。跨馆藏创建的主题和基于单个馆藏创建的主题表现出类似的发展 - 高中教科书除外。

3. 程序
接下来,我们将开发一种新的历史方法主题建模控制程序,它结合了迄今为止描述的方法。目的是找到无法归类到先前已知模式的来源,并使用主题来展示来源中的话语论证模式。该程序与传统的历史研究有很多不同之处。尤其是,事先制定的研究设计非常重要,该设计明确规定了如何使用主题建模来回答论文和研究问题,这对于按照该程序进行结果和分析至关重要。该方法不仅仅包括使用生成主题并将其分配给文本部分的自动化过程,而且就分析的意义而言,使用机器学习方法中的迭代方法更有意义。已经有使用语义分析来准备文本以进行主题建模的程序。[28]计算机可以通过训练来识别主题。然而,在算法能够自己提出主题之前,它还应该能够识别文本中给定的主题。

以前的主题建模方法已经显示出在内容非常多样化的语料库中区分各个文本的优势。在“儿童世界”项目中,尽管语料库是由历史和地理书籍组成的,但仍然可以相对快速地识别出历史教科书中的主题。这种语料库构建形式对于历史科学非常有用,因为需要从大型语料库中筛选出可能引起研究兴趣的个别部分。如果历史研究对单个主题的发展和关系感兴趣,就像这里介绍的项目一样,主题建模就会变得更加重要,而这种过滤语料库的程序已经不再足够了。在这样的历史文本分析中,所考察的主题复合体本身表现出比仅通过词云来捕捉的更大的复杂性。然而,计算机辅助方法与合适的模型相结合可以首次使复杂性完全可见。通过增加所研究主题复合体的内部结构的粒度,并更深入地区分为单个主题,可以映射和识别复杂性。

因此,在使用算法之前,有必要使用样本集对源文本的主题进行分析。基于机器学习、主题建模和定性内容分析的方法,提出以下建议:

源语料库的形成
训练和测试集的形成
主题的展开
机器学习
测试集上的结果验证
结果的历史分析
如果对机器学习过程的结果进行审查表明意义不大,则可以根据结果再次改变 阿根廷电报数据 定义的主题。第二步到第五步可以反复重复,直到达到高度显著性水平。只有在此基础上继续检验结果才有意义。

3.1 语料库
首先,必须为特定的研究项目编译或选择一套资料库;这一标准必须由历史问题和资料背景来证明。需要分析的资料库越大,就越有可能使用这里提出的方法,因为它可以节省分析时间。如果出于研究目的需要将主题和论证思路可视化,那么这里提出的程序也是适用的。此外,这种形式的语料库分析会生成新的研究数据集,使得研究本身更加透明,并可供进一步研究使用。

这里所呈现的比较的特色是两个测试语料库的不同组成。 »Welt der Kinder« 使用了一个语料库,项目人员没有参与其编纂,但该语料库无疑堪称›完整›。基础是 GEI-Digital 控股,其 1918 年之前的时期的语料库现已完成,并且已在开头提及。该项目汇集了德国图书馆收藏的所有德语地理和历史教科书的经过 OCR 处理的数字副本(以及目前正在建立但未用于此处讨论的项目的收藏)。然而,在“光谱分析”项目中,语料库是以受控的方式编译的。对于这里介绍的“光谱分析”项目的各个部分,对《Annalen der Physik und Chemie》杂志进行了完整的审查。这本 19 世纪重要的物理学期刊也以其编辑的名字命名为Poggendorff's Annalen,其中包含一系列由不同作者撰写的科学文章,探讨新谱分析方法的发展及其后果。这些文章被识别并共同构成了要分析的语料库。
Post Reply