Nihongo Parse Tree: fevereiro 2011

Começamos um grupo de estudos de nihongo hoje. Já fazia um tempo que eu não estudava japonês, então dessa vez resolvi que vou tentar perseguir um sonho antigo: criar um BNF do japonês gramatical.

Para chegar nesse objetivo eu vou ter que limitar as fontes. Antigamente eu traduzia muito mangá e videogame, mas essas mídias em geral tem muita gíria e linguagem coloquial. Para conseguir uma gramática mais ou menos robusta, o ideal é pegar um livro, então eu escolhi traduzir o 魔女の宅急便 (o livro que deu origem ao Kiki's Delivery Service do Miyazaki).

Como falta de prática pouca é bobagem, precisamos de uma hora para traduzir duas frases haha. A idéia é criar um parse tree completa, tentando extrair as regularidades que ficam escondidas.

Capítulo 1, título: お話のはじまり.

A primeira complicação é sempre achar onde estão as palavras, o japonês você escreve sem usar espaços entre as palavras. Se o japonês fosse como um código de Huffman não teria problema, porque os prefixos determinam uma parse tree unicamente. Mas isso não ocorre aqui, então a melhor dica é procurar as partículas e separar nelas. Nesse caso fica assim:

お話・の・はじまり

Eu acho que o jeito mais fácil de parsear é notar que tem estruturas com valor de substantivo e estruturas com valor de verbo, e daí tem um monte de partículas e conjugações que levam de um a outro. O primeiro termo vem do verbo 話す (falar). Note que todos os verbos no infinitivo terminam em -U. Se você conjugar levando o -U em -I, o verbo fica com valor de substantivo. Por exemplo, em português nós temos correr->corrida, comer->comida, beber->bebida. 話す é falar, então はなし é o que é falado, por extensão, signfica "história, conto".

A parte curiosa é que em kanji はなし deveria ser 話し, mas por algum motivo o し no final caiu. Provavelmente isso acontece com palavras que são ao mesmo tempo muito antigas e muito frequentes.

O お na frente é um prefixo de mudança de hierarquia. Tanto お como ご são usados para deixar substantivos mais formais. É só lembrar que げんきですか？ é algo do tipo "e aí, firmeza?" enquanto que おげんきですか？, que é a mesma coisa mas com お na frente, já vira alguma coisa do tipo "Como vai o senhor?". Na hora de traduzir, entre história ou conto eu prefiro história que soa mais formal.

の é uma partícula que transforma substantivo em adjetivo. É só lembrar que 私 é "eu", enquanto que 私の é "meu". Daí, お話の é "(algo) da história".

はじまり é a versão em substantivo do verbo 始まる, começar. Daí, はじまり é começo / início, e o título é "Início da história"

Primeira frase: あるところに、深い森となだらかな草山にはさまれて、小さな町がありました。

Eu sempre penso no japonês como uma máquina de pilha, cada token é um modificador para o que vem em seguida. Se você quiser andar de lado na parse tree, precisa indicar isso explicitamente. Nessa frase tem duas estruturas grandes que estão no mesmo nível, indicadas pela posição da vírgula.

あるところに parse to ある・ところ・に

ところ é o mais fácil, substantivo que quer dizer lugar. Esse ある é um adjetivo irregular que significa "um certo, um específico". に é a partícula que indica posição, pode ser posição no espaço ou posição no tempo. Daí, esse bloco significa "em um certo lugar...".

O ある em kanji é 或, não é o mesmo ある do あります, que é 有る. Mas eu desconfio que no passado eles podem ter sido o mesmo, porque aí a frase seria "em um lugar que há / em um lugar que existe", que pra mim é bem parecido com "em um certo lugar".

深い森となだらかな草山にはさまれて
parse to
深い・森・と・なだらか・な・草山・に・はさまれて

深い é um adjetivo regular do tipo i, "profundo / denso". Modifica diretamente o substantivo seguinte, 森 que é floresta (esses kanjis do primeiro ano eu decoro usando nomes, porque sempre tem alguém famoso com um nome assim. Esse mori é o mori do fundador da Sony, Akio Morita). Daí, estamos falando de alguma coisa sobre uma floresta densa.

O とserve pra indicar que dois grupos de substantivos estão no mesmo nível da parse tree, ou seja, faz uma enumeração de substantivos como o and do inglês ("na minha mala tem um caderno e um estojo e um livro").

なだらか é um adjetivo do tipo na, logo ele obrigatoriamente vem seguido de um な e do substantivo que está sendo modificado, 草山. なだらか está no dicionário como gently-sloping (pouco inclinado?). O substantivo é formado de 草 que é grama e 山 que é montanha, então montanha verdejante de pouca inclinação, que eu simplifico para morro verdejante.

Uma dúvida pode ser como ele juntou 草 com 山 sem botar nenhuma partícula no meio (poderia ser 草の山, por exemplo). Nesse caso, o truque é que substantivos formados por um único kanji podem ser concatenados diretamente para virar substantivos compostos, do mesmo jeito que a gente faz couve-flor ou arco-íris.

O に é partícula de posição, nesse caso posição espacial. Falta só o verbo e aqui a coisa complica porque tem dois níveis de conjugação. O verbo no infinitivo é はさむ que é inserir. No passivo do infinitivo ele fica はさまれる, porque o passivo regular troca -u por -areru. Daí, o verbo que era inserir vira ser inserido.

Depois, ele conjuga de novo para poder enumerar. Você troca -ru por -te para colocar o verbo no mesmo nível do próximo ("eu lavei e passei e coloquei no armário"). O que era はさまれる vira はさまれて.

Esse bloco de texto então é "(algo) está inserido entre uma floresta profunda e um morro verdejante".

小さな町がありました
parse to
小さな・町・が・ありました

小さい é um adjetivo regular do tipo i, significa pequeno. Mas sei lá porque, esse adjetivo tem uma versão irregular tipo na. Deve ter alguma lógica pra escolher mas eu não sei qual é.

町 é town, alguma coisa que é menor que city mas maior que village. Sei lá como é isso em português. Vilarejo? Povoado? Cidadezinha?

O verbo é ある, ter / haver, que no presente formal seria あります, mas conjugado no passado fica ありました. Uma coisa que você não escapa de decorar é que, curiosamente, ele é intransitivo. Então ao invés de usar を pra indicar o objeto direto, você usa が pra indicar o sujeito.

Por fim, juntando tudo, a frase fica assim:

あるところに、深い森となだらかな草山にはさまれて、小さな町がありました。
Em um certo lugar, entre uma densa floresta e um morro verdejante, existia um pequeno vilarejo.

Nihongo Parse Tree

segunda-feira, 28 de fevereiro de 2011

Aula 1