doccano/backend/data_import/tests/test_parser.py


								import json

								import os

								import shutil

								import tempfile

								import unittest


								from data_import.pipeline import parsers


								class TestParser(unittest.TestCase):

								    def setUp(self):

								        self.test_dir = tempfile.mkdtemp()

								        self.test_file = os.path.join(self.test_dir, "test_file.csv")


								    def tearDown(self):

								        shutil.rmtree(self.test_dir)


								    def create_file(self, content):

								        with open(self.test_file, "w") as f:

								            f.write(content)


								    def assert_record(self, content, parser, expected):

								        self.create_file(content)

								        it = parser.parse(self.test_file)

								        for expect in expected:

								            row = next(it)

								            self.assertEqual(row, expect)

								        with self.assertRaises(StopIteration):

								            next(it)


								class TestPlainParser(TestParser):

								    def test_read(self):

								        content = "example"

								        parser = parsers.PlainParser()

								        expected = [{}]

								        self.assert_record(content, parser, expected)


								class TestLineParser(TestParser):

								    def test_read(self):

								        content = "Hello, World!\nこんにちは"

								        parser = parsers.LineParser()

								        expected = [{"text": "Hello, World!"}, {"text": "こんにちは"}]

								        self.assert_record(content, parser, expected)


								class TestTextFileParser(TestParser):

								    def test_read(self):

								        content = "Hello, World!\nこんにちは"

								        parser = parsers.TextFileParser()

								        expected = [{"text": content}]

								        self.assert_record(content, parser, expected)


								class TestCsvParser(TestParser):

								    def test_read(self):

								        content = "label,text\nLabel,Text"

								        parser = parsers.CSVParser(delimiter=",")

								        expected = [{"label": "Label", "text": "Text"}]

								        self.assert_record(content, parser, expected)


								    def test_can_change_delimiter(self):

								        content = "label\ttext\nLabel\tText"

								        parser = parsers.CSVParser(delimiter="\t")

								        expected = [{"label": "Label", "text": "Text"}]

								        self.assert_record(content, parser, expected)


								    def test_can_read_null_value(self):

								        content = "text,label\nText"

								        parser = parsers.CSVParser(delimiter=",")

								        expected = [{"text": "Text", "label": None}]

								        self.assert_record(content, parser, expected)


								class TestJSONParser(TestParser):

								    def test_read(self):

								        content = json.dumps([{"text": "line1", "labels": "Label1"}, {"text": "line2", "labels": "Label2"}])

								        parser = parsers.JSONParser()

								        expected = json.loads(content)

								        self.assert_record(content, parser, expected)


								class TestJSONLParser(TestParser):

								    def test_read(self):

								        line1 = json.dumps({"text": "line1", "labels": "Label1"})

								        line2 = json.dumps({"text": "line2", "labels": "Label2"})

								        content = f"{line1}\n{line2}"

								        parser = parsers.JSONLParser()

								        expected = [json.loads(line1), json.loads(line2)]

								        self.assert_record(content, parser, expected)


								class TestFastTextParser(TestParser):

								    def test_read(self):

								        content = "__label__sauce __label__cheese Text"

								        parser = parsers.FastTextParser()

								        expected = [{"text": "Text", "label": ["sauce", "cheese"]}]

								        self.assert_record(content, parser, expected)


								class TestCoNLLParser(TestParser):

								    def test_can_read(self):

								        content = """EU\tB-ORG

								rejects\tO

								German\tB-MISC

								call\tO

								to\tO

								boycott\tO

								British\tB-MISC

								lamb\tO

								.\tO


								Peter\tB-PER

								Blackburn\tI-PER


								"""

								        parser = parsers.CoNLLParser()

								        expected = [

								            {

								                "text": "EU rejects German call to boycott British lamb .",

								                "label": [(0, 2, "ORG"), (11, 17, "MISC"), (34, 41, "MISC")],

								            },

								            {"text": "Peter Blackburn", "label": [(0, 15, "PER")]},

								        ]

								        self.assert_record(content, parser, expected)