Tłumaczenie automatyczne

Następująca wersja przejrzana tej strony, którą oznaczono 29 lip 2023, była oparta na tej wersji.

Tłumaczenie automatyczne, tłumaczenie maszynowe – dziedzina językoznawstwa komputerowego, która zajmuje się stosowaniem algorytmów tłumaczenia tekstu z jednego języka (naturalnego) na drugi.

Pierwsze odnotowane pomysły tłumaczy automatycznych pochodzą już z XVII w., lecz nie było możliwości ich realizacji. Dopiero nadejście komputerów pozwoliło tej dziedzinie „rozwijać powoli skrzydła”. Pierwsze maszyny tłumaczące pojawiły się w 1933^{[potrzebny przypis]} r. i wykorzystywano je głównie w wojskowości.

Główne metody

Główne metody realizowania tłumaczenia automatycznego:

systemy tłumaczenia bezpośredniego – wyrazy tekstu źródłowego zamieniane są wprost na ich odpowiedniki w oczekiwanym języku. Program zawiera odpowiadające sobie słowa i najczęściej stosowane frazy. Tłumaczenie tego typu daje akceptowalne wyniki tylko w zastosowaniu dla blisko ze sobą spokrewnionych języków.
systemy przekładu składniowego – analizują składniową stronę tekstu. Najczęściej rezultatem jest drzewo składników, do którego następnie stosuje się odpowiednie reguły transferu.
systemy oparte na powierzchniowym transferze semantycznym – biorą pod uwagę własności składniowe i częściowo znaczeniowe. Realizowane jest to poprzez dołączenie do drzewa struktury syntaktycznej dodatkowych informacji naprowadzających, np. atrybutów znaczeniowych.
systemy międzyjęzykowe – oparte są na uniwersalnym języku reprezentacji znaczenia (tzw. interlingwie), który jest niezależny od języków naturalnych, zawartych w systemie. Proces translacji składa się z dwóch etapów: tłumaczenia z języka źródłowego na interlingwę i tłumaczenia z interlingwy na język wynikowy.
tłumaczenie statystyczne – tłumaczenie w oparciu o wielkie zestawy (korpusy) tekstów przetłumaczonych przez człowieka. Dla danego zdania szukane jest jego najbardziej prawdopodobne tłumaczenie. Prawdopodobieństwo tłumaczenia obliczane jest na podstawie współwystępowania wyrazów w zebranym korpusie. Sukcesy w tym podejściu notuje portal Google, gdyż korzysta ze swoich olbrzymich korpusów stron internetowych.
tłumaczenie oparte na przykładach – podobnie jak tłumaczenie statystyczne opiera się na istniejących tekstach przetłumaczonych. Dla danego zdania źródłowego system szuka najbardziej podobnego przykładu w swojej bazie danych i na tej podstawie wnioskuje jego tłumaczenie.

Podstawowe jednostki języka

Głoski, czyli konkretne dźwięki. Abstrakcją głosek są fonemy. Fonem to klasa dźwięków, które użytkownicy języka poznają jako posiadające pewne odrębne cechy, wyróżniające je spośród innych dźwięków.
Morfy – są najmniejszymi składnikami języka posiadającymi znaczenie. Ich abstrakcję zwiemy morfemami.
Wyrazy – konkretną formę wyrazu, którą używamy, nazywamy wyrazem tekstowym. Abstrakcją dla niego jest leksem. Teraz mały przykład: domem, domy to dwa wyrazy tekstowe jednego leksemu, z kolei wyraz domy składa się z dwóch morfemów: dom – budynku oraz końcówki y wskazującej, że jest ich więcej niż jeden.
Frazy (związki frazeologiczne) – ich abstrakcje to schematy frazy.
Zdania – przyjmuje się, iż są podstawową jednostką tekstu. Ich abstrakcjami są schematy zdań.
Wypowiedź – jest po prostu ciągiem zdań.

Niekiedy frazy i zdania traktuje się jako jedno i określa mianem sememów.

Kwestie semantyczne

Pierwszą kwestią jest zagadnienie sensowności. Wyróżnia się trzy rodzaje sensowności.

Sensowność lokucyjna – związana jest ona z językiem naturalnym i jest słownikowym znaczeniem znaków. Nie zależy ona od kontekstu sytuacyjnego. Sensowność ta jest stopniowalna (np. prosimy o pojaśnianie).
Sensowność logiczna – nie ujawnia się empirycznie. Sensowność ta jest związana z językiem logiki. Jednakże język logiki komunikowalny jest tylko poprzez język naturalny. Powstaje problem przekładu. Wypowiedz jest sensowna logicznie gdy jest skorelowana ze zdaniem logicznym. Nie jest ona stopniowalna, ani nie zależy od kontekstu sytuacyjnego.
Sensowność wolicjonalno-emotywna – ujawnia się w kontekstach sytuacyjnych. Wypowiedzi mogą być niedostosowane do konwencji sytuacyjnej. Ta sensowność jest adaptacyjnością. Pojawia się rozróżnienie na kod kulturowy sytuacji i sens materialny. Sens materialny może być taki sam, a kody kulturowe różne. Sensowność ta jest stopniowalna.

Zestawmy powyższe z zagadnieniem automatycznego tłumaczenia. Tłumaczenie z pewnością musi brać pod uwagę każdy z omawianych sensów. Sensy te manifestują się w języku naturalnym. Wynika stąd problem właściwej interpretacji, zwłaszcza sensu wolicjonalno-emotywnego. Nietrudno zresztą zauważyć, że właśnie ten sens stwarza najwięcej problemów przy tłumaczeniu. Rozważmy przykład wzięty z reklamy: w wielu reklamach spotykamy się z określeniem produktów spożywczych jako lekkich. Określenie to odnosi się pośrednio do preferowanego w naszej kulturze bycia szczupłym, tzn. lekkim. Gdyby nie kod kulturowy, nie zrozumielibyśmy tej aluzji. Warto zauważyć, iż na znaczenie wypowiedzi wpływa również sens, jaki mogą mieć reprezentacje brzmieniowe i graficzne wypowiedzi.

Samo pojęcie znaczenia ma istotny wpływ na zagadnienie automatycznego tłumaczenia. Myślę, że twórcy programów do automatycznego tłumaczenia mieliby uproszczone zadanie gdyby znali odpowiedz do czego odnoszą się poszczególne części wypowiedzi. Problematyczna jest też zmienność znaczenia. Język jest tworem żywym. Oznacza to, iż jego części bądź przestają funkcjonować, bądź tworzą się nowe, bądź znaczenie ich ulega częściowej lub całościowej zmianie.

Metaforyczność stanowi ważny problem. W języku naturalnym znajdują się metafory (nie ma ich w języku logiki). Kiedy mamy do czynienia z metaforą? Wtedy gdy zostanie złamana zasada kompozycji znaczeniowej, która mówi, że znaczenie wyrażenia całościowego jest funkcją znaczeń wyrażeń składowych. Np. zdanie: „Matematyka jest moją piętą achillesową” oznaczałoby dosłownie, nie metaforycznie, że matematyka jest dla mnie częścią nogi mitycznego herosa. Jednakże nie można pozbyć się metafor, gdyż język straciłby swą moc informacyjną.

Synonimia. Nawet w jednym języku nastręcza ona trudności przez to, iż wyrazy mają różny zakres pojęciowy. W tłumaczeniu problem ten ulega tylko powiększeniu. Częstokroć bywa tak, że tłumaczony wyraz nie ma swego idealnego odpowiednika w drugim języku.

Homonimy są kolejnymi problemami w automatycznym tłumaczeniu. Właściwa interpretacja jest przy nich bardzo ważna. Np. zdanie: „Podszedł do zamku” można interpretować na różne sposoby i interpretacje są zależne od kontekstu. Pojawia się tu kwestia umiejętności donoszenia się do kontekstu przez automatycznego tłumacza.

Dużą grupę problemów stanowią różnice w składni między językami. Np. w języku angielskim istotne jest miejsce wyrazu w zdaniu (jest to język pozycyjny), natomiast w języku polskim nie. Innymi problemami jest występowanie w języku rodzajników określonych i nieokreślonych lub podmiotu domyślnego. Powstaje również pytanie o możliwość stworzenia języka pośredniego w tłumaczeniu, biorąc pod uwagę dotychczasowe rozważania (szczególnie te odnoszące się do kultury). Rodzaje programów tłumaczenia automatycznego (maszynowego):

tłumaczenie wspomagane komputerowo – polega na tym, że całe tłumaczenie jest wykonywane przez człowieka używającego komputera w celu usprawnienia i przyspieszenia całego procesu
tłumaczenie wspomagane przez człowieka – polega na tym, że tekst źródłowy jest modyfikowany przed, w czasie lub po przetłumaczeniu go przez komputer
tłumaczenie całkowicie maszynowe – polega na tym, że program otrzymuje tekst źródłowy i bez żadnej ingerencji człowieka generuje tekst w języku wynikowym.

Efekty

Efektywność tłumaczeń całkowicie maszynowych jest słaba (można łatwo rozpoznać, że tłumaczenie było przeprowadzone maszynowo), jednak można zrozumieć treść. Tłumaczenie takie pozwala zorientować się w ogólnym przekazie zawartym w tekście. Przykładowo:

Tekst oryginalny (pochodzi z angielskiej edycji Wikipedii): Translation is the action of interpretation of the meaning of a text, and subsequent production of an equivalent text, also called a translation, that communicates the same message in another language. The text to be translated is called the source text, and the language it is to be translated into is called the target language; the final product is sometimes called the “target text.”
Tekst po przetłumaczeniu maszynowym na polski (translate.google.com, 2023-06-19):: Tłumaczenie to czynność polegająca na interpretacji znaczenia tekstu, a następnie stworzeniu równoważnego tekstu, zwanego także tłumaczeniem, który przekazuje tę samą wiadomość w innym języku. Tekst, który ma zostać przetłumaczony, nazywany jest tekstem źródłowym, a język, na który ma zostać przetłumaczony, nazywany jest językiem docelowym; produkt końcowy jest czasem nazywany „tekstem docelowym”.

2020-11-23 (translate.google.com)^[1]:

Tłumaczenie jest czynnością polegającą na interpretacji znaczenia tekstu, a następnie utworzeniu równoważnego tekstu, zwanego również tłumaczeniem, który przekazuje ten sam komunikat w innym języku. Tekst do przetłumaczenia nazywany jest tekstem źródłowym, a język, na który ma być przetłumaczony, nazywany jest językiem docelowym; produkt końcowy jest czasami nazywany „tekstem docelowym”.

2017-04-10 (translate.google.com)^[2]:

Tłumaczenie jest interpretacją znaczenia tekstu, a następnie produkcją równoważnego tekstu, zwanego również tłumaczeniem, który przekazuje tę samą wiadomość w innym języku. Tekst przeznaczony do przetłumaczenia nazywany jest tekstem źródłowym, a język, na który ma zostać przetłumaczony, nazywa się językiem docelowym; Produkt końcowy jest czasami nazywany "tekstem docelowym".

2015-03-02 (źródło tłumaczenia nieznane)^[3]:

Tłumaczenie jest działanie interpretacji znaczenia tekstu, a następnie produkcji równoważnego tekst, nazywany również tłumaczenie, który komunikuje się ten sam komunikat w innym języku. Tekst do tłumaczenia nazywa tekst źródłowy i język ma być przetłumaczone na język nazywa język docelowy; produkt końcowy jest czasem nazywany „tekst docelowy”.

2008-07-01 (źródło tłumaczenia nieznane)^[4]:

Tłumaczenie jest działanie interpretacji w rozumieniu tekstu, a kolejnych produkcji równoważny tekst, zwane również tłumaczeniem, że przekaże tę samą wiadomość w innym języku. Tekst do przetłumaczenia nazywa się tekstem źródłowym, a język ma być przetłumaczone na język nazywa języku docelowym; produkcie końcowym jest często nazywany "cel tekstu."

Ocena

Osobny artykuł: Ocena tłumaczenia maszynowego.

Istnieje wiele różnych środków do oceny (ewaluacji) wydajności systemów tłumaczenia maszynowego. Najstarszą z nich jest wykorzystanie ludzkich osądów do oceny jakości tłumaczenia. Mimo że ludzka ocena pochłania sporo czasu, nadal jest najbardziej solidnym sposobem porównania różnych systemów. Zautomatyzowane środki oceny to m.in. BLEU, NIST i METEOR.

Zobacz też

Przypisy

↑ Tłumaczenie automatyczne: Różnice pomiędzy wersjami [online], Wikipedia, 23 października 2020 [dostęp 2023-06-19] .
↑ Tłumaczenie automatyczne: Różnice pomiędzy wersjami [online], Wikipedia, wolna encyklopedia, 10 kwietnia 2017 [dostęp 2023-06-19] (pol.).
↑ Tłumaczenie automatyczne: Różnice pomiędzy wersjami [online], Wikipedia, wolna encyklopedia, 2 marca 2015 [dostęp 2023-06-19] (pol.).
↑ Tłumaczenie automatyczne: Różnice pomiędzy wersjami [online], Wikipedia, wolna encyklopedia, 1 lipca 2008 [dostęp 2023-06-19] (pol.).

Bibliografia

John Lyons, Semantyka, tom I i II, PWN, 1984.

Linki zewnętrzne

Sebastian Kozłowski – Co to jest tłumaczenie maszynowe. kf.mish.uw.edu.pl. [zarchiwizowane z tego adresu (2011-04-27)].
Borys Czerniejewski – Komputery to potęga. min-pan.krakow.pl. [zarchiwizowane z tego adresu (2004-11-03)].
AndrzejA. Bukowski AndrzejA., O maszynowym tłumaczeniu tekstów, [w:] Na marginesie cybernetyki / Hugo Steinhaus / Katalog HINT, „Znak”, XV (10 [112]), Link na stronie jest do całego czasopisma, hint.org.pl, 1963, 1194-1202 (76-84) [dostęp 2018-10-09] (pol.).

[1] Tłumaczenie automatyczne: Różnice pomiędzy wersjami [online], Wikipedia, 23 października 2020 [dostęp 2023-06-19] .

[2] Tłumaczenie automatyczne: Różnice pomiędzy wersjami [online], Wikipedia, wolna encyklopedia, 10 kwietnia 2017 [dostęp 2023-06-19] (pol.).

[3] Tłumaczenie automatyczne: Różnice pomiędzy wersjami [online], Wikipedia, wolna encyklopedia, 2 marca 2015 [dostęp 2023-06-19] (pol.).

[4] Tłumaczenie automatyczne: Różnice pomiędzy wersjami [online], Wikipedia, wolna encyklopedia, 1 lipca 2008 [dostęp 2023-06-19] (pol.).

[1]

[2]

[3]

[4]