Типы замечаний лингвистической обработки — различия между версиями
MSP (обсуждение | вклад) (Новая страница: « # Типы замечаний лингвистической обработки») |
MSP (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
− | + | =Типы замечаний лингвистической обработки= | |
− | + | ||
+ | Ошибки, обнаруженные в ходе проверки автоматической обработки текста, | ||
+ | следует разделять на следующие группы | ||
+ | (приведены в порядке убывания критичности): | ||
+ | |||
+ | # Появление мусора в тексте. Например, появление строк вида "fixme", "error" или любых других слов, очевидно являющихся вставками технических комментариев. | ||
+ | # Необработанное сокращение. Строка читается прямо так, как записана символами без каких-либо признаков попыток обработки. | ||
+ | # Неверно прочитано число (особенно его дробная часть). | ||
+ | # Выбран неверный тип обработки. То есть снятие неопределённости прошло неверно. Например, сокращение "г." распознано как год, хотя является обозначением граммов в конце приложения. | ||
+ | # ССокращение распознано верно, но используется неверный падеж/число/род подставленной строки. | ||
+ | # Неверное ударение в слове, в котором возможно несколько положений ударений (омограф). | ||
+ | # Неверное значение ударения в слове, для которого возможно единственное его положение (например, ошибка с "Итака"). |
Текущая версия на 07:51, 15 сентября 2021
Типы замечаний лингвистической обработки[править]
Ошибки, обнаруженные в ходе проверки автоматической обработки текста, следует разделять на следующие группы (приведены в порядке убывания критичности):
- Появление мусора в тексте. Например, появление строк вида "fixme", "error" или любых других слов, очевидно являющихся вставками технических комментариев.
- Необработанное сокращение. Строка читается прямо так, как записана символами без каких-либо признаков попыток обработки.
- Неверно прочитано число (особенно его дробная часть).
- Выбран неверный тип обработки. То есть снятие неопределённости прошло неверно. Например, сокращение "г." распознано как год, хотя является обозначением граммов в конце приложения.
- ССокращение распознано верно, но используется неверный падеж/число/род подставленной строки.
- Неверное ударение в слове, в котором возможно несколько положений ударений (омограф).
- Неверное значение ударения в слове, для которого возможно единственное его положение (например, ошибка с "Итака").