Source code for easytexminer.data.cls_dataset

# coding=utf-8
# Copyright (c) 2020 Alibaba PAI team.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
import torch

from .base import BaseDataset
from ..model_zoo import AutoTokenizer
from ..utils import io
from ..model_zoo.models.cnn import TextCNNTokenizer

[docs]class BertClassificationDataset(BaseDataset):
    def __init__(self,
                 pretrained_model_name_or_path,
                 data_file,
                 max_seq_length,
                 input_schema,
                 first_sequence,
                 label_name=None,
                 second_sequence=None,
                 label_enumerate_values=None,
                 multi_label=False,
                 *args,
                 **kwargs):
        super(BertClassificationDataset, self).__init__(data_file, input_schema=input_schema,
                                                    output_format="dict", *args, **kwargs)

        self.tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path)

        self.max_seq_length = max_seq_length
        self.multi_label = multi_label

        if label_enumerate_values is None:
            self._label_enumerate_values = "0,1".split(",")
        else:
            if io.exists(label_enumerate_values):
                with io.open(label_enumerate_values) as f:
                    self._label_enumerate_values = [line.strip() for line in f]
            else:
                self._label_enumerate_values = label_enumerate_values.split(",")
        self.max_num_labels = len(self._label_enumerate_values)
        assert first_sequence in self.column_names, \
            "Column name %s needs to be included in columns" % first_sequence
        self.first_sequence = first_sequence

        if second_sequence:
            assert second_sequence in self.column_names, \
                "Column name %s needs to be included in columns" % second_sequence
            self.second_sequence = second_sequence
        else:
            self.second_sequence = None

        if label_name:
            assert label_name in self.column_names, \
                "Column name %s needs to be included in columns" % label_name
            self.label_name = label_name
        else:
            self.label_name = None

        self.label_map = dict({value: idx for idx, value in enumerate(self.label_enumerate_values)})

    @property
    def eval_metrics(self):
        """
            Returns the evaluation metrics.
        """
        return ("accuracy", "f1")

    @property
    def label_enumerate_values(self):
        """
            Returns the label enumerate values.
        """
        return self._label_enumerate_values

[docs]    def convert_single_row_to_example(self, row):
        """Convert sample token to indices.

            Args:
                row: contains sequence and label.

                text_a: the first sequence in row.

                text_b: the second sequence in row if self.second_sequence is true.

                label: label token if self.label_name is true.

            Returns: sing example
                encoding: an example contains token indices.
        """
        text_a = row[self.first_sequence]
        text_b = row[self.second_sequence] if self.second_sequence else None
        label = row[self.label_name] if self.label_name else None
        encoding = self.tokenizer(text_a, text_b, padding='max_length', truncation=True,
                                  max_length=self.max_seq_length)
        if not self.multi_label:
            encoding['label_ids'] = self.label_map[label]
            return encoding
        else:
            label_id = [self.label_map[x] for x in label.split(",") if x]
            new_label_id = [0] * self.max_num_labels
            for idx in label_id:
                new_label_id[idx] = 1
            encoding['label_ids'] = new_label_id
            return encoding

[docs]    def batch_fn(self, features):
        """
            Divide examples into batches.
        """
        return {k: torch.tensor([dic[k] for dic in features], dtype=torch.long) for k in features[0]}

[docs]class GLUEDataset(BaseDataset):
    def __init__(self,
                 pretrained_model_name_or_path,
                 data_file,
                 max_seq_length,
                 task_name,
                 **kwargs):
        super(GLUEDataset, self).__init__(data_file, skip_first_line=True, **kwargs)
        self.task_name = task_name.lower()
        self.tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path)
        self.max_seq_length = max_seq_length
        self.label_map = dict({value: idx for idx, value in enumerate(self.label_enumerate_values)})

    @property
    def eval_metrics(self):
        task_eval_metrics = {
            "cola": ("matthews_corrcoef",),
            "sst-2": ("accuracy",),
            "mrpc": ("accuracy", "f1"),
            "sts-b": ("pearson_and_spearman",),
            "qqp": ("accuracy", "f1"),
            "mnli": ("accuracy",),
            "mnli-mm": ("accuracy",),
            "qnli": ("accuracy",),
            "rte": ("accuracy",),
            "wnli": ("accuracy",),
        }
        return task_eval_metrics[self.task_name]

    @property
    def label_enumerate_values(self):
        task_label_enumerate_values = {
            "cola": ["0", "1"],
            "mnli": ["contradiction", "entailment", "neutral"],
            "mrpc": ["0", "1"],
            "sst-2": ["0", "1"],
            "sts-b": [None],
            "qqp": ["0", "1"],
            "qnli": ["entailment", "not_entailment"],
            "rte": ["entailment", "not_entailment"],
            "wnli": ["0", "1"]
        }
        return task_label_enumerate_values[self.task_name]

[docs]    def convert_single_row_to_example(self, row):
        line = row.strip().split("\t")
        task_name = self.task_name
        if task_name == "cola":
            text_a, text_b, label = line[3], None, line[1]
        elif task_name == "mnli":
            text_a, text_b, label = line[8], line[9], line[-1]
        elif task_name == "mrpc":
            text_a, text_b, label = line[3], line[4], line[0]
        elif task_name == "sst-2":
            text_a, text_b, label = line[0], None, line[1]
        elif task_name == "sts-b":
            text_a, text_b, label = line[7], line[8], line[-1]
        elif task_name == "qqp":
            try:
                text_a, text_b, label = line[3], line[4], line[5]
            except IndexError:
                text_a, text_b, label = "", "", "1"
        elif task_name == "qnli":
            text_a, text_b, label = line[1], line[2], line[-1]
        elif task_name == "rte":
            text_a, text_b, label = line[1], line[2], line[-1]
        elif task_name == "wnli":
            text_a, text_b, label = line[1], line[2], line[-1]
        else:
            raise NotImplementedError

        encoding = self.tokenizer(text_a, text_b, padding='max_length', truncation=True,
                                  max_length=self.max_seq_length)

        encoding['label_ids'] = self.label_map[label]
        return encoding

[docs]    def batch_fn(self, features):
        return {k: torch.tensor([dic[k] for dic in features], dtype=torch.long) for k in features[0]}

[docs]class CNNClassificationDataset(BaseDataset):

    def __init__(self,
                 pretrained_model_name_or_path,
                 data_file,
                 max_seq_length,
                 input_schema,
                 first_sequence,
                 label_name=None,
                 second_sequence=None,
                 label_enumerate_values=None,
                 multi_label=False,
                 *args,
                 **kwargs):
        super(CNNClassificationDataset, self).__init__(data_file, input_schema=input_schema,
                                                    output_format="dict", *args, **kwargs)

        self.tokenizer = TextCNNTokenizer.from_pretrained(pretrained_model_name_or_path)

        self.max_seq_length = max_seq_length
        self.multi_label = multi_label

        if label_enumerate_values is None:
            self._label_enumerate_values = "0,1".split(",")
        else:
            if io.exists(label_enumerate_values):
                with io.open(label_enumerate_values) as f:
                    self._label_enumerate_values = [line.strip() for line in f]
            else:
                self._label_enumerate_values = label_enumerate_values.split(",")
        self.max_num_labels = len(self._label_enumerate_values)
        assert first_sequence in self.column_names, \
            "Column name %s needs to be included in columns" % first_sequence
        self.first_sequence = first_sequence

        if second_sequence:
            assert second_sequence in self.column_names, \
                "Column name %s needs to be included in columns" % second_sequence
            self.second_sequence = second_sequence
        else:
            self.second_sequence = None

        if label_name:
            assert label_name in self.column_names, \
                "Column name %s needs to be included in columns" % label_name
            self.label_name = label_name
        else:
            self.label_name = None

        self.label_map = dict({value: idx for idx, value in enumerate(self.label_enumerate_values)})

    @property
    def eval_metrics(self):
        """
            Returns the evaluation metrics.
        """
        return ("accuracy", "f1")

    @property
    def label_enumerate_values(self):
        """
            Returns the label enumerate values.
        """
        return self._label_enumerate_values

[docs]    def convert_single_row_to_example(self, row):
        """Convert sample token to indices.

            Args:
                row: contains sequence and label.

                text_a: the first sequence in row.

                text_b: the second sequence in row if self.second_sequence is true.

                label: label token if self.label_name is true.

            Returns: sing example
                encoding: an example contains token indices.
        """
        text_a = row[self.first_sequence]
        text_b = row[self.second_sequence] if self.second_sequence else None
        label = row[self.label_name] if self.label_name else None
        encoding = self.tokenizer(text_a, text_b, padding='max_length', truncation=True,
                                  max_length=self.max_seq_length)
        if not self.multi_label:
            encoding['label_ids'] = self.label_map[label]
            return encoding
        else:
            label_id = [self.label_map[x] for x in label.split(",") if x]
            new_label_id = [0] * self.max_num_labels
            for idx in label_id:
                new_label_id[idx] = 1
            encoding['label_ids'] = new_label_id
            return encoding
    #
    # def batch_fn(self, features):
    #     return {k: torch.tensor([dic[k] for dic in features], dtype=torch.long) for k in features[0]}
    #
[docs]    def batch_fn(self, features):
        """
            Divide examples into batches.
        """
        inputs = {
            "input_ids": torch.tensor([f['input_ids'] for f in features], dtype=torch.long),
            "label_ids": torch.tensor([f['label_ids'] for f in features], dtype=torch.long)
        }
        return inputs