TEXT RECOGNIZE

Operator TEXT RECOGNIZE służy do rozpoznawania i standaryzowania wartości tekstowych na podstawie zewnętrznego lub automatycznie generowanego słownika. Jego głównym celem jest eliminacja różnorodnych wariantów tej samej wartości, które mogą pojawić się w danych wejściowych w wyniku błędów ludzkich, różnic językowych, skrótów, literówek lub niejednolitego nazewnictwa.

Działanie operatora polega na:

porównaniu wartości danego bitu tekstowego ze słownikiem referencyjnym,
w przypadku braku bezpośredniego dopasowania — odnalezieniu najbardziej prawdopodobnego odpowiednika słownikowego (na podstawie podobieństwa tekstowego),
zastąpieniu oryginalnej wartości jej ustandaryzowaną wersją.

Operator wykorzystuje tzw. słownik uniwersalny, który może zostać:

jednoznacznie zadeklarowany przez użytkownika – np. poprzez wskazanie tabeli z mapowaniem wartości,
zbudowany automatycznie – w oparciu o analizę częstości występowania wartości w danych, co pozwala wykrywać wartości dominujące i budować słownik dynamicznie.

TEXT RECOGNIZE jest szczególnie przydatny w projektach, w których dane pochodzą z różnych systemów, źródeł lub wprowadzane są ręcznie — wszędzie tam, gdzie potrzebna jest spójność tekstowa i minimalizacja błędów interpretacyjnych.

Przykład projektu GRAVITY z użyciem operatora TEXT RECOGNIZE.

KONFIGURACJA OPERATORA

Podczas konfiguracji wskazujesz kolumnę podlegającą rozpoznaniu oraz wariant akcji rozpoznania.

Jeżeli wybierzesz wariant rozpoznania na podstawie stałego słownika (Standardized with dictionary) musisz dodatkowo wskazać zbiór danych przekazanych do operatora END OF PATH (pole Temporary output), który zawiera słownik uniwersalny oraz kolumnę pozostającą w relacji do kolumny badanej podczas akcji (Temporary output column).

Jeśli wybierzesz wariant bez słownika (Standardized without dictionary) zostanie on zbudowany na podstawie danych pochodzących z wybranej kolumny. Wystąpienie danego ciągu znaków więcej niż trzy razy w kolumnie spowoduje dodanie ciągu do budowanego słownika.