Типы замечаний лингвистической обработки
Типы замечаний лингвистической обработки[править]
Ошибки, обнаруженные в ходе проверки автоматической обработки текста, следует разделять на следующие группы (приведены в порядке убывания критичности):
- Появление мусора в тексте. Например, появление строк вида "fixme", "error" или любых других слов, очевидно являющихся вставками технических комментариев.
- Необработанное сокращение. Строка читается прямо так, как записана символами без каких-либо признаков попыток обработки.
- Неверно прочитано число (особенно его дробная часть).
- Выбран неверный тип обработки. То есть снятие неопределённости прошло неверно. Например, сокращение "г." распознано как год, хотя является обозначением граммов в конце приложения.
- ССокращение распознано верно, но используется неверный падеж/число/род подставленной строки.
- Неверное ударение в слове, в котором возможно несколько положений ударений (омограф).
- Неверное значение ударения в слове, для которого возможно единственное его положение (например, ошибка с "Итака").