Matheus Ferraroni Sanches

CTO na Orion Sistemas Agrícolas e doutorando em Ciência da Computação pela UNICAMP. Atua em pesquisa e desenvolvimento de plataformas para agtech, sensoriamento remoto, processamento de linguagem natural, aprendizado federado, privacidade em LLMs, otimização e redes veiculares.

Processamento de Linguagem Natural Agtech Privacidade e segurança em LLMs Aprendizado Federado Otimização Sensoriamento remoto Redes veiculares Comunicação sem fio

Histórico Profissional

Diretor de Tecnologia (CTO), Orion Sistemas Agrícolas

Jun/2025, atual

Coordenação de iniciativas de pesquisa e desenvolvimento, novas tecnologias e plataforma, com foco em soluções tecnológicas para o agronegócio.

Diretor de Tecnologia (CTO), CYGNI AgroScience

Set/2020 - Jun/2025

Coordenação de equipes de tecnologia e desenvolvimento de plataforma de sensoriamento remoto baseada em imagens de satélite.

Experiências anteriores selecionadas

  • SumUp · Engenheiro de Software Sênior · Jun/2022 - Jun/2025
  • CI&T Software · Cientista de Dados/Pesquisador · Fev/2021 - Set/2022
  • CYGNI AgroScience · Tech Lead · Dez/2019 - Ago/2020
  • Clickideia Tecnologia Educacional · Cientista de Dados/Pesquisador · Dez/2018 - Nov/2019
  • CYGNI AgroScience · Gerente de TI · Ago/2016 - Nov/2018
  • Centro Universitário Eurípides de Marília, UNIVEM · Pesquisador CNPq · Jan/2015 - Jul/2016

Histórico Acadêmico

Doutorado em Ciência da Computação

2020, em andamento

Universidade Estadual de Campinas, UNICAMP. Orientador: Leandro Aparecido Villas.

Mestrado em Ciência da Computação

2018 a 2020

Universidade Estadual de Campinas, UNICAMP. Dissertação: "Alocação de Road Side Unit Ciente de Obstáculos com Diferentes Modelos de Propagação de Sinal". Orientador: Leandro Aparecido Villas.

Graduação em Ciência da Computação

2014 a 2017

Centro Universitário Eurípides de Marília, UNIVEM. Trabalho: "Processamento e Entendimento de Linguagem Natural no Gerenciamento de Emergências Para Obtenção de Consciência Situacional". Orientador: Leonardo Castro Botega.

Habilidades

  • Programação · Python, PHP, JavaScript, Elixir, C++, Go
  • Ferramentas · Git, Docker, Google Maps JS, Jupyter, Scikit-learn, Numpy, Pandas, Matplotlib, Seaborn, NLTK, DBT
  • AWS Cloud · Lambda, EC2, S3, DynamoDB, CodeCommit, Elastic Beanstalk, EFS, RDS, API Gateway
  • Bancos de Dados · SQL, NoSQL, Dynamo, Postgres, Snowflake
  • Soft Skills · Diligente, Rápido Aprendedor, Proativo, Jogador de Equipe, Pensador Crítico

Publicações selecionadas

2023

Automatic Extraction of Conversation Flows from Human Dialogues: Understanding Their Impact to Refine NLP Models

SN Computer Science. Trabalho sobre extração automática de fluxos conversacionais a partir de diálogos humanos para refinamento de modelos de Processamento de Linguagem Natural.

DOI: 10.1007/s42979-023-02148-7

Curricular Transfer Learning for Sentence Encoded Tasks

arXiv. Estudo sobre aprendizado curricular para adaptação gradual entre distribuições em tarefas com sentenças codificadas.

arXiv: 2308.01849

2022

MCCD: Generating Human Natural Language Conversational Datasets

ICEIS 2022. Metodologia para geração de datasets conversacionais multi-turn e multiusuário a partir de fóruns online.

DOI: 10.5220/0011077400003179

Textual Datasets For Portuguese-Brazilian Language Models

Dataset Showcase Workshop, SBC. Apresentação de datasets textuais para modelos de linguagem em português brasileiro.

DOI: 10.5753/dsw.2022.224294

2021

  • EFIS: Ecological Fuel-consumption Intelligent System · DCOSS 2021

2020

Projetos

RP-Sim

Simulador de propagação de rádio

Ambiente open source para simular propagação de comunicação sem fio, com suporte a modelos de propagação, RSSI, BER, exportação de área de comunicação e visualização por demo.

Tecnologias: JavaScript, p5.js, Mappa.js.

MCCD

Metodologia e datasets conversacionais

Metodologia para geração de datasets conversacionais naturais a partir de fóruns online e outras fontes de diálogo humano.

Repositório

Miner-XenForo

Ferramenta de mineração de fóruns

Ferramenta relacionada à extração e preparação de dados conversacionais de fóruns para uso em datasets de Processamento de Linguagem Natural.

Tecnologias: Python.

Repositório

Portuguese NLP dataset

Datasets para Processamento de Linguagem Natural em português

Agregação de novos ou adaptados conjuntos de dados para treinamento de modelos em português.

Repositório

GGA

Biblioteca Python para algoritmos genéticos

Biblioteca open source para facilitar a criação e customização de algoritmos genéticos em Python.

Repositório

Msim

Simulador de eventos

Simulador simples de eventos em Python.

Tecnologias: Python.

Repositório

Satellite Image Processing

Processamento de imagens de satélite

Processamento de imagens dos satélites Landsat-8 e Sentinel-2 para apoiar a tomada de decisões de agricultores com imagens coloridas e NDVI.

Tecnologias: AWS, Python, GDAL, Rasterio, Pillow.

SCO3, Servidor Clickideia Offline 3.0

Projeto FAPESP

Projeto voltado a atualizações automáticas de conteúdo educacional por redes oportunísticas em escolas com acesso limitado ou inexistente à internet.

BV FAPESP

Prêmios e reconhecimentos

2022

Best Paper Award, ICEIS 2022

Trabalho: MCCD: Generating Human Natural Language Conversational Datasets.

2019

2º lugar no Prêmio Roberto Diéguez Galvão, SBPO 2019

Trabalho: Genetic Algorithm for the Maximum Coverage Location Problem Applied to Medical Emergency.

  • 2025: Destaque Profissional por Iniciativa Criativa e Inovadora · Orion Sistemas Agrícolas.
  • 2016: Destaque Profissional por Iniciativa Criativa e Inovadora · CYGNI AgroCiência.
  • 2014: Quarto colocado na fase regional de programação · Sociedade Brasileira de Computação.
  • 2013: Primeiro colocado na olimpíada de informática para alunos do ensino médio promovida pelo UNIVEM.