大型语言模型 (LLM) 在生物学研究中的局限性是什么?ChatGPT给出了一个相当全面的答案,其中包括缺乏领域特定知识、上下文理解、获取最新信息以及可解释性和可说明性。
然而,必须承认,法学硕士可以对生物和生物医学研究产生变革性影响。毕竟,这些模型已经成功应用于基于生物序列数据的任务,如蛋白质结构预测,并可能扩展到更广泛的生物化学语言。化学语言模型 (CLM) 等专业法学硕士有可能在传统小分子药物和抗体中超越传统的药物发现过程。更广泛地说,使用大规模预训练语言模型从大量未注释的生物医学数据中提取价值的机会巨大。
当然,预训练将是开发生物领域特定 LLM 的关键。研究表明,与从通用领域语言模型开始相比,生物医学等领域拥有大量未标记文本,因此从领 阿塞拜疆手机数据 域特定预训练中获益最多。仅基于领域特定词汇进行预训练的生物医学语言模型涵盖了更广泛的应用,更重要的是,其性能大大优于目前可用的生物医学 NLP 工具。
然而,当涉及基于转换器的 LLM 时,存在更大的可解释性和可解释性问题。
法学硕士黑匣子
自然语言处理 (NLP) 模型的开发传统上植根于本质上可解释的白盒技术。然而,从那时起,发展方向已经转向更复杂、更先进的黑盒技术,这些技术无疑促进了最先进的性能,但也混淆了可解释性。
为了理解 LLM 中可解释性挑战的规模,我们参考了 OpenAI 在今年早些时候发表的论文《语言模型可以解释语言模型中的神经元》 ,该论文的开头是这样的:“语言模型已经变得更加强大并且应用范围更加广泛,但我们并不了解它们的工作原理。 ” 需要分析数百万个神经元才能完全理解 LLM,该论文提出了一种自动化可解释性的方法,以便可以将其扩展到语言模型中的所有神经元。然而,问题在于“神经元可能无法解释”。
因此,即使可解释的 LLM 的研究仍在继续,生命科学行业仍需要一个更直接的解决方案来利用 LLM 的力量,同时缓解对更直接的解决方案的需求,以整合 LLM 的潜力,同时缓解可解释性和可解释性等问题。知识图谱可能就是这个解决方案。