Exemplos de Instrução IA

Abaixo estão alguns exemplos de instruções que podem ser utilizados como referência para a criação das instruções de Inteligência Artificial durante a configuração do Formulário 4.0. Esses modelos servem como base para orientar o preenchimento automático dos campos a partir dos dados extraídos dos anexos.

Exemplo Instrução IA para ler informações de CNH

A partir do texto extraído do OCR,

me devolva um JSON com uma lista de objetos com apenas as propriedades: 

campo: [valor_campo_formulário], valor: Nº REGISTRO

campo: [valor_campo_formulário], valor: VALIDADE

campo: [valor_campo_formulário], valor: CAT HAB

campo: [valor_campo_formulário], valor: DATA EMISSÃO

campo: [valor_campo_formulário], valor: /ÓRG EMISSOR/

campo: [valor_campo_formulário], valor: /UF

campo: [valor_campo_formulário], valor: 1º HABILITAÇÃO


P.S RETORNAR OS 11 NÚMEROS DO VALOR Nº REGISTRO EXEMPLO 04811527213

P.S É UM DOCUMENTO TIPO CNH MODELO BRASIL

P.S RETORNAR O VALOR CAT HAB EXEMPLO A, B, C, AB

P.S RETORNAR O VALOR /ÓRG EMISSOR/ EXEMPLO SSP

P.S RETORNAR O VALOR /UF EXEMPLO SC

Exemplo Instrução IA para ler informações de Certidão de Casamento

A partir do texto extraído do OCR, me devolva um JSON com uma lista de objetos com apenas as propriedades:  

campo: [valor_campo_formulário], valor: DIA E MÊS E ANO

P.S RETONAR AS INFORMAÇÕES EXTRAIDAS DIA/MÊS/ANO

Com base na imagem legível, a data correta (visível na parte inferior) é: 30 de setembro de 2017

Portanto, o JSON final correto deve ser:

[

  { "campo": [valor_campo_formulário], "valor": "30/09/2017" }
]

Exemplo Instrução IA para ler informações de RG

?? PROMPT PARA EXTRAÇÃO DE DADOS DE RG (FRENTE) VIA OCR

Extraia exclusivamente os dados da frente de um RG modelo Brasil e retorne um JSON com a seguinte estrutura:
[

  { "campo": [valor_campo_formulário], "valor": "..." },

  { "campo": [valor_campo_formulário], "valor": "..." },

  { "campo": [valor_campo_formulário], "valor": "..." },

  { "campo": [valor_campo_formulário], "valor": "..." },

  { "campo": [valor_campo_formulário], "valor": "..." },

  { "campo": [valor_campo_formulário], "valor": "..." },

  { "campo": [valor_campo_formulário], "valor": "..." },

  { "campo": [valor_campo_formulário], "valor": "..." },

  { "campo": [valor_campo_formulário], "valor": "..." }

]

REGRAS DE EXTRAÇÃO:

- campo [valor_campo_formulário]: Sigla da UF extraída do campo “NATURALIDADE” (ex: "SP").

- campo [valor_campo_formulário]: Valor literal do campo “ÓRGÃO EXPEDIDOR” (ex: "SSP-SP").

- campo [valor_campo_formulário]: Valor completo da “NATURALIDADE” como exibido no documento (ex: "SÃO PAULO - SP").

- campo [valor_campo_formulário]: Data de nascimento no formato dd/mm/aaaa.

- campo [valor_campo_formulário]: Data de expedição do RG (dd/mm/aaaa).

- campo [valor_campo_formulário]: Apenas a UF da naturalidade (igual ao campo 255).

- campo [valor_campo_formulário]: Nome completo do titular (abaixo de "NOME", ignorar textos institucionais).

- campo [valor_campo_formulário]: Nome da mãe (primeira linha sob “FILIAÇÃO”).

- campo [valor_campo_formulário]: Nome do pai (segunda linha sob “FILIAÇÃO”, se houver).

CONDIÇÕES IMPORTANTES:

- NÃO incluir campos em branco.

- NÃO retornar campos [valor_campo_formulário] ou [valor_campo_formulário] se “FILIAÇÃO” estiver ilegível ou ausente.

- Se houver apenas um nome sob “FILIAÇÃO”, assuma que é da mãe ? retornar apenas campo [valor_campo_formulário].

- Se não houver nomes válidos sob “FILIAÇÃO” na frente, procure no verso.

- Se não houver nomes válidos sob “FILIAÇÃO” no verso, procure na frente.


CORREÇÕES AUTOMÁTICAS:

- Corrigir erros comuns de OCR:

- “EWEDIDOR” ? “EXPEDIDOR”

- “5P” ? “SP”, “RJ7” ? “RJ”

- Corrigir datas inválidas:
  - “37/14/1995” ? ajustar para uma data real válida (ex: “14/11/1995”)

- Ignorar textos administrativos como:

- “Delegado”, “Secretário”, “Diretor”

- Informações sobre segurança pública ou registro civil

CONFIGURAÇÕES DE OCR RECOMENDADAS:

- Pré-processamento:

- Binarização, aumento de contraste e nitidez

- Tesseract OCR:

  - Idioma: por

  - OEM: 1 (LSTM)

  - PSM: 6 ou 11 (layout misto)

- Alternativas robustas:

  - Google Vision OCR

  - Azure OCR

- Usar expressões regulares para extrair:

  - Datas no formato dd/mm/aaaa

  - Siglas de UF válidas

  - Nomes completos com letras maiúsculas

EXEMPLO DE SAÍDA ESPERADA:

[

  { "campo": [valor_campo_formulário], "valor": "SP" },

  { "campo": [valor_campo_formulário], "valor": "SSP-SP" },

  { "campo": [valor_campo_formulário], "valor": "SÃO PAULO - SP" },

  { "campo": [valor_campo_formulário], "valor": "27/11/1995" },

  { "campo": [valor_campo_formulário], "valor": "08/10/2022" },

  { "campo": [valor_campo_formulário], "valor": "SP" },

  { "campo": [valor_campo_formulário], "valor": "DIEGO CRUZ LEMOS" },

  { "campo": [valor_campo_formulário], "valor": "MARIA HILDA CRUZ GOMES" },

{ "campo": [valor_campo_formulário], "valor": "FRANCISCO DE ASSIS LEMOS"}
]