关键词:
人工智能
AI大模型
通用大模型
垂直大模型
摘要:
本文首先介绍了AI预训练大模型相关的部分核心技术,其中包括Transformer架构和人类反馈强化学习技术以及近端策略优化技术;研究了通用大模型的发展,重点关注了基于Transformer-Decoder架构的GPT系列、LLaMA系列模型与基于Transformer-Encoder架构的BERT、ALBERT、DeBERTa与RoBERTa模型,深入研究了它们的架构和训练方法,总结了它们的特点,探讨了其在不同领域中的应用;关注了垂直领域的大模型发展,如金融、医学、法学、自然科学和代码编程等领域.在金融领域,研究了BloombergGPT、GPT-InvestAR和TradingGPT模型;在医学领域,探讨了Med-PaLM和PMC-LLaMA等模型;在法学领域,分析了Lawformer和Chatlaw模型;在自然科学领域,介绍了华为云盘古气象大模型和FLUID-GPT模型;在代码编程领域,研究了CodeGeex和PanGu-Coder2模型.最后,对当前AI预训练大模型在知识产权、歧视、成本等方面的局限性与未来发展进行了讨论.