adapter-hub · ajesujoba · Mar 15, 2023 · Mar 15, 2023 · Mar 15, 2023 · Mar 15, 2023
diff --git a/src/transformers/__init__.py b/src/transformers/__init__.py
@@ -2596,6 +2596,8 @@
         "GPT2AdapterModel",
         "GPT2ModelWithHeads",
         "GPTJAdapterModel",
+        "GPTNeoXAdapterModel",
+        "GPTNeoXModelWithHeads",
         "HoulsbyConfig",
         "HoulsbyInvConfig",
         "IA3Config",
@@ -2942,6 +2944,15 @@
             "TFGPTJPreTrainedModel",
         ]
     )
+    _import_structure["models.gpt_neox"].extend(
+        [
+            "TFGPTNeoXForCausalLM",
+            "TFGPTNeoXForQuestionAnswering",
+            "TFGPTNeoXForSequenceClassification",
+            "TFGPTNeoXModel",
+            "TFGPTNeoXPreTrainedModel",
+        ]
+    )
     _import_structure["models.groupvit"].extend(
         [
             "TF_GROUPVIT_PRETRAINED_MODEL_ARCHIVE_LIST",
@@ -3456,6 +3467,8 @@
         ["FlaxGPTNeoForCausalLM", "FlaxGPTNeoModel", "FlaxGPTNeoPreTrainedModel"]
     )
     _import_structure["models.gptj"].extend(["FlaxGPTJForCausalLM", "FlaxGPTJModel", "FlaxGPTJPreTrainedModel"])
+    _import_structure["models.gpt_neox"].extend(["FlaxGPTNeoXForCausalLM", "FlaxGPTNeoXModel", "FlaxGPTNeoXPreTrainedModel"])
+
     _import_structure["models.longt5"].extend(
         ["FlaxLongT5ForConditionalGeneration", "FlaxLongT5Model", "FlaxLongT5PreTrainedModel"]
     )
@@ -5699,6 +5712,8 @@
             ForwardContext,
             GPT2AdapterModel,
             GPT2ModelWithHeads,
+            GPTNeoXAdapterModel,
+            GPTNeoXModelWithHeads,
             GPTJAdapterModel,
             HoulsbyConfig,
             HoulsbyInvConfig,
@@ -6010,6 +6025,13 @@
             TFGPTJModel,
             TFGPTJPreTrainedModel,
         )
+        from .models.gpt_neox import (
+            TFGPTNeoXForCausalLM,
+            TFGPTNeoXForQuestionAnswering,
+            TFGPTNeoXForSequenceClassification,
+            TFGPTNeoXModel,
+            TFGPTNeoXPreTrainedModel,
+        )
         from .models.groupvit import (
             TF_GROUPVIT_PRETRAINED_MODEL_ARCHIVE_LIST,
             TFGroupViTModel,
@@ -6399,6 +6421,7 @@
         from .models.encoder_decoder import FlaxEncoderDecoderModel
         from .models.gpt2 import FlaxGPT2LMHeadModel, FlaxGPT2Model, FlaxGPT2PreTrainedModel
         from .models.gpt_neo import FlaxGPTNeoForCausalLM, FlaxGPTNeoModel, FlaxGPTNeoPreTrainedModel
+        from .models.gpt_neox import FlaxGPTNeoXForCausalLM, FlaxGPTNeoXModel, FlaxGPTNeoXPreTrainedModel
         from .models.gptj import FlaxGPTJForCausalLM, FlaxGPTJModel, FlaxGPTJPreTrainedModel
         from .models.longt5 import FlaxLongT5ForConditionalGeneration, FlaxLongT5Model, FlaxLongT5PreTrainedModel
         from .models.marian import FlaxMarianModel, FlaxMarianMTModel, FlaxMarianPreTrainedModel

diff --git a/src/transformers/adapters/__init__.py b/src/transformers/adapters/__init__.py
@@ -113,6 +113,10 @@
         "GPT2AdapterModel",
         "GPT2ModelWithHeads",
     ],
+    "models.gpt_neox": [
+            "GPTNeoXAdapterModel",
+            "GPTNeoXModelWithHeads",
+    ],
     "models.gptj": ["GPTJAdapterModel"],
     "models.mbart": [
         "MBartAdapterModel",
@@ -217,6 +221,7 @@
     from .models.debertaV2 import DebertaV2AdapterModel
     from .models.distilbert import DistilBertAdapterModel, DistilBertModelWithHeads
     from .models.gpt2 import GPT2AdapterModel, GPT2ModelWithHeads
+    from .models.gpt_neox import GPTNeoXAdapterModel, GPTNeoXModelWithHeads
     from .models.gptj import GPTJAdapterModel
     from .models.mbart import MBartAdapterModel, MBartModelWithHeads
     from .models.roberta import RobertaAdapterModel, RobertaModelWithHeads

diff --git a/src/transformers/adapters/head_utils.py b/src/transformers/adapters/head_utils.py
@@ -381,6 +381,13 @@
         },
         "layers": [None, "classifier"],
     },
+    #GPT-NeoX
+    "GPTNeoXForCausalLM": {
+        "config": {
+            "head_type": "causal_lm",
+        },
+        "layers": ["embed_out"],
+    },
     # GPT-J
     "GPTJForSequenceClassification": {
         "config": {

diff --git a/src/transformers/adapters/mixins/gpt_neox.py b/src/transformers/adapters/mixins/gpt_neox.py
@@ -0,0 +1,32 @@
+from typing import Iterable, Tuple
+
+import torch.nn as nn
+
+from ..layer import AdapterLayer
+from ..model_mixin import (
+    EmbeddingAdaptersMixin,
+    EmbeddingAdaptersWrapperMixin,
+    InvertibleAdaptersMixin,
+    ModelAdaptersMixin,
+    ModelWithHeadsAdaptersMixin,
+)
+
+
+class GPTNeoXDecoderBlockAdaptersMixin:
+    """Adds adapters to the TransformerBlock module of DistilBert."""
+
+    def _init_adapter_modules(self):
+        self.attention_adapters = AdapterLayer("mh_adapter", self.config)
+        self.output_adapters = AdapterLayer("output_adapter", self.config)
+        self.attention_adapters._init_adapter_modules()
+        self.output_adapters._init_adapter_modules()
+
+
+class GPTNeoXModelAdapterMixin(EmbeddingAdaptersMixin, InvertibleAdaptersMixin, ModelAdaptersMixin):
+    def iter_layers(self) -> Iterable[Tuple[int, nn.Module]]:
+        for i, layer in enumerate(self.base_model.layers):
+            yield i, layer
+
+
+class GPTNeoXModelWithHeadsAdaptersMixin(EmbeddingAdaptersWrapperMixin, ModelWithHeadsAdaptersMixin):
+    pass
diff --git a/src/transformers/adapters/models/auto/adapter_model.py b/src/transformers/adapters/models/auto/adapter_model.py
@@ -20,6 +20,7 @@
         ("bart", "BartAdapterModel"),
         ("mbart", "MBartAdapterModel"),
         ("gpt2", "GPT2AdapterModel"),
+        ("gpt_neox", "GPTNeoXAdapterModel"),
         ("gptj", "GPTJAdapterModel"),
         ("t5", "T5AdapterModel"),
         ("vit", "ViTAdapterModel"),
@@ -34,6 +35,7 @@
         ("bart", "BartModelWithHeads"),
         ("mbart", "MBartModelWithHeads"),
         ("gpt2", "GPT2ModelWithHeads"),
+        ("gpt_neox", "GPTNeoXModelWithHeads"),
         ("t5", "T5ModelWithHeads"),
     ]
 )

diff --git a/src/transformers/adapters/models/gpt_neox/__init__.py b/src/transformers/adapters/models/gpt_neox/__init__.py
@@ -0,0 +1,42 @@
+# flake8: noqa
+# There's no way to ignore "F401 '...' imported but unused" warnings in this
+# module, but to preserve other warnings. So, don't check this module at all.
+
+# Copyright 2020 The Adapter-Hub Team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from typing import TYPE_CHECKING
+
+from ....utils import _LazyModule
+
+
+_import_structure = {
+    "adapter_model": [
+        "GPTNeoXAdapterModel",
+        "GPTNeoXModelWithHeads"
+        ],
+}
+
+
+if TYPE_CHECKING:
+    from .adapter_model import GPTNeoXAdapterModel, GPTNeoXModelWithHeads
+
+else:
+    import sys
+
+    sys.modules[__name__] = _LazyModule(
+        __name__,
+        globals()["__file__"],
+        _import_structure,
+    )