首页 > 其他 > 详细

大得不同:推荐系统模型与NLP模型

时间:2021-07-24 00:16:44      阅读:27      评论:0      收藏:0      [点我收藏+]

大得不同:推荐系统模型与NLP模型

推荐系统和自然语言处理是大模型高发的两大应用领域,在大的特征下,它们又有各自的特点。下面以推荐系统的代表模型DLRM(Deep Learning Recommendation Model)和GPT-3(Generative Pre-Training)为例说明。

DLRM vs GPT-3

技术分享图片

可以看到,推荐系统模型参数大部分在embeddings部分,而NLP模型参数大部分在FC(transformer)部分。可以认为推荐系统比NLP更稀疏(sparse)、且memory intensive得多。

Transformer block

基本结构

技术分享图片

basic参数

  • 技术分享图片 or 技术分享图片: total number of transformer blocks

  • 技术分享图片 or 技术分享图片: number of units in each bottleneck layer, and number of units of each Q/K/V input

  • 技术分享图片 or 技术分享图片: number of heads of each transformer block

  • 技术分享图片 or 技术分享图片: input sequence length

derived参数

  • 技术分享图片: dimension of each attention head, 技术分享图片

  • 技术分享图片: intermediate layer units of feed forward layer, 技术分享图片

各参数在子图中的示意如下:

技术分享图片

补充:Feed Forward子模块

技术分享图片

典型模型基本参数

应用 模型 技术分享图片 技术分享图片 技术分享图片 技术分享图片
NLP GPT-3 96 12288 96 2048
NLP BERT_Base 12 768 12 128/512
NLP BERT_Large 24 1024 16 128/512
RecSys BST 1 128(max) 8 20
  • BST: Behavior Sequence Transformer

References

  1. The GPT-3 Architecture, on a Napkin

  2. GPT-3 An Overview

  3. Language Models are Few-Shot Learners

  4. Improving Language Understanding by Generative Pre-Training

  5. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

  6. Attention Is All You Need

  7. BERT transformer block code

  8. Deep Learning Recommendation Model for Personalization and Recommendation Systems

  9. Behavior Sequence Transformer for E-commerce Recommendation in Alibaba

大得不同:推荐系统模型与NLP模型

原文:https://www.cnblogs.com/Matrix_Yao/p/15054002.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!