Типы замечаний лингвистической обработки

Материал из LUWRAIN Wiki
Перейти к: навигация, поиск

Типы замечаний лингвистической обработки[править]

Ошибки, обнаруженные в ходе проверки автоматической обработки текста, следует разделять на следующие группы (приведены в порядке убывания критичности):

  1. Появление мусора в тексте. Например, появление строк вида "fixme", "error" или любых других слов, очевидно являющихся вставками технических комментариев.
  2. Необработанное сокращение. Строка читается прямо так, как записана символами без каких-либо признаков попыток обработки.
  3. Неверно прочитано число (особенно его дробная часть).
  4. Выбран неверный тип обработки. То есть снятие неопределённости прошло неверно. Например, сокращение "г." распознано как год, хотя является обозначением граммов в конце приложения.
  5. ССокращение распознано верно, но используется неверный падеж/число/род подставленной строки.
  6. Неверное ударение в слове, в котором возможно несколько положений ударений (омограф).
  7. Неверное значение ударения в слове, для которого возможно единственное его положение (например, ошибка с "Итака").