home news forum careers events suppliers solutions markets expos directories catalogs resources advertise contacts
 
News Page

The news
and
beyond the news
Index of news sources
All Africa Asia/Pacific Europe Latin America Middle East North America
  Topics
  Species
Archives
News archive 1997-2008
 

AI will unravel secrets of non-coding genes
AI gaat geheimen van niet-coderende genen ontrafelen


Wageningen, The Netherlands
May 15, 2024

From smart chatbots to apps that can write entire articles, Artificial Intelligence (AI) is becoming an increasingly ubiquitous part of our lives. Michael Schon, a research associate at Wageningen University & Research, is designing an AI tool that can perform comparisons of non-coding RNA on plant genomes. The tool is expected to accelerate and simplify the future development of new plant varieties with greater resistance to drought or diseases, for example. Schon has received a Veni grant to support his research.

Proteins are the building blocks for cells in organisms. The instructions for making these proteins are issued (coded) by RNA from genes. Alongside these coding RNAs, some genes can produce non-coding RNAs: in other words, RNA that doesn’t include instructions to make a protein. This type of RNA also plays an important role in the development of organisms, says Michael Schon. “For example, they can activate genes, or do the opposite and switch them off. This will affect the appearance of a plant and the properties it has. Certain important non-coding RNAs also determine whether a plant reaches maturity at all.”

Relatives within the same family

Non-coding RNA could also potentially reveal why a plant species belongs to a particular family yet has different characteristics. In previous research, Schon identified non-coding RNAs of Arabidopsis thaliana (thale cress). This plant is used by plant scientists as a model organism. “Arabidopsis belongs to the Brassicaceae family, along with important crops like broccoli, cauliflower and kohlrabi. This family is also known as the mustard or crucifer family. However, it’s difficult to compare non-coding RNAs of Arabidopsis with that of other plants in the mustard family because previous work in these species has focused mainly on protein coding genes.”

Limited annotation of non-coding RNA

This means that a comparison between plants requires separate gene annotation for the non-coding RNA for each crop. Through his Veni project, Schon is looking for new ways to identify non-coding RNAs by using knowledge from related species. “More than 200 genome sequences are available for plants within the mustard family. Each genome is stored as a large text file consisting of millions of letters that represent the bases of a DNA molecule (A, C, T and G). Because the non-coding bits aren’t catalogued (annotated) properly in these genomes, it’s impossible to compare all the non-coding genes scattered inside this mountain of data. We need new strategies and tools for that. I’m trying to develop those.”

A small part of each genome

The first problem is knowing where in the genome to look. One of the tools Schon is developing is something he calls GeneSketch. To find the corresponding parts of different genomes, he’s using a method called Minimizer Sketch. “The idea behind the Minimizer Sketch is that you only need to look at a small piece of DNA – a sketch – rather than the entire sequence,” says Schon. “That means you only have to pay attention to a few thousand characters per genome to perform a comparison, rather than millions. The Minimizer Sketch was previously used to build a tree of primate evolution, which includes humans and their closest relatives. It turned out that a very accurate family tree of our ancestors can be made from sketches made of less than 1% of the whole genomes. A minimizer sketch therefore is a very efficient way to estimate how similar pieces of DNA are to each other, so it should also be useful for comparing genomes within the mustard family.”

Same technology as ChatGPT

After you know where to look, then next step is to understand what you are looking at. The technology Schon plans to use in GeneSketch is the same as that which is currently used in other AI tools, such as ChatGPT. “It’s something called ‘transformer’ technology,” says Schon. “You can ask a transformer to fill in a missing word in a sentence, for example. Initially, the transformer gives you a random word because it has never seen words before. But if you train it on millions of example sentences, it slowly learns to guess the right words by paying attention to patterns in the text. After training, a large language model like ChatGPT becomes very good at certain tasks, like answering questions or translating from one language to another. A transformer can be trained to learn not just human languages, but also the language of DNA, which has its own distinct patterns. I am working on a model to detect patterns in the DNA of many different species, and translate those patterns into a language that we as humans can understand.”

Model must be trained

Schon will train the transformer for GeneSketch to pay attention to how genes change across different species, especially non-coding genes. But he expects to come up against some challenges along the way. “One important issue is reliability. The transformer is a relatively new technology, and it makes mistakes. ChatGPT, for example, was trained on many different sources of text, but if you ask it a topic it never saw during training, it needs to make something up. You hope that it makes up something reasonable based on the patterns it has seen, but this is never a guarantee. You obviously want to avoid nonsense output. The more you train a transformer, the less nonsense it produces, but training can cost a lot of time and money. Is it better to train the model completely from scratch or build off of existing models? I am trying both approaches.”

Potential of the GeneSketch

Schon hopes to have a prototype of the GeneSketch after the first year of the project, which started in October 2023. He plans to use it to create gene annotations for the entire mustard family. The tool could be useful not just for the research sector but also for the agricultural industry, says Schon. “It could, for example, provide seed breeders with a quick way of understanding the DNA of a crop and its wild relatives. By learning more about how crops have been able to develop unique traits over the centuries, breeders could make more informed decisions for improving traits, such as making crops more resilient to climate change. So, the potential impact could be huge.”


 

AI gaat geheimen van niet-coderende genen ontrafelen

Van slimme chatbots tot apps die hele teksten voor je kunnen schrijven. Kunstmatige Intelligentie (AI) duikt op steeds meer plekken op in ons leven. Onderzoeker Michael Schon van Wageningen University & Research ontwerpt een AI-tool die vergelijkingen van niet-coderend RNA op plantengenomen kan uitvoeren. De tool moet helpen om in de toekomst sneller en eenvoudiger nieuwe rassen te ontwikkelen die bijvoorbeeld beter bestand zijn tegen droogte of ziekten. Voor zijn onderzoek ontvangt Schon een Veni-beurs.

Eiwitten vormen de bouwstenen voor cellen in organismen. De instructies voor het maken van deze eiwitten worden afgegeven door RNA's in genen. Naast deze coderende RNA’s produceren sommige genen ook niet-coderende RNA's: RNA dat geen instructies bevat om een eiwit te maken. Dit type RNA speelt ook een belangrijke rol in de ontwikkeling van organismen, zegt Michael Schon. "Ze kunnen bijvoorbeeld genen activeren of juist uitzetten. Dit heeft invloed op hoe een plant eruitziet en over welke eigenschappen deze beschikt. Sommige belangrijke niet-coderende RNA’s zijn bepalend voor of een plant überhaupt tot wasdom komt."

Verwanten binnen dezelfde familie

Niet-coderend RNA kan mogelijk ook onthullen waarom een plantensoort tot eenzelfde familie behoort, maar toch andere kenmerken heeft. In eerder onderzoek legde Schon al het niet-coderende RNA bloot van de Arabidopsis thaliana (zandraket). Deze plant wordt binnen de plantenwetenschap gebruikt als modelorganisme. Schon: “De Arabidopsis behoort, net als broccoli, bloemkool en koolrabi, tot de familie Brassicaceae. Deze wordt ook wel de mosterdfamilie of kruisbloemenfamilie genoemd. Het is echter moeilijk om het niet-coderend RNA van Arabidopsis te vergelijken met dat van andere planten binnen de kruisbloemenfamilie, omdat bij eerdere analyses van genetisch materiaal (gen-annotaties) vooral is gekeken naar de coderende delen.”

Beperkte annotatie van niet-coderend RNA

Dat betekent dat voor een vergelijking tussen de planten van elk gewas een afzonderlijke gen-annotatie moet worden gedaan voor het niet-coderende RNA. Schon zoekt in zijn Veni-project naar manieren om dit op een relatief snelle en eenvoudige manier te kunnen doen. “Voor planten binnen de kruisbloemenfamilie zijn meer dan 200 genomen beschikbaar. Omdat de niet-coderende stukjes niet goed georganiseerd (geannoteerd) zijn in de genomen, krijg je een enorme hoeveelheid data, bestaande uit miljoenen letters die de basen voor een DNA-molecuul vertegenwoordigen (A,C,T en G). Het is onmogelijk uit deze enorme berg data de niet-coderende delen met elkaar te vergelijken. Daarvoor zijn nieuwe strategieën en tools nodig. Die probeer ik te ontwikkelen.”

Een klein deel van elk genoom

Een van tools die Schon wil ontwikkelen, noemt hij GeneSketch. Hiervoor maakt hij gebruik van een methode genaamd Minimizer Sketch. Schon: “Het idee van de Minimizer Sketch is dat je niet kijkt naar het complete genoom, maar naar een klein deel ervan, een sketch. Hierdoor hoef je geen miljoenen, maar slechts een paar duizend karakters per genoom te kennen om ze met elkaar te vergelijken. De Minimizer Sketch is eerder ook toegepast bij onderzoek naar primaten, waar de mens van afstamt. De stamboom van onze voorouders bleek met behulp van sketches heel nauwkeurig te reconstrueren. Een sketch lijkt dus voldoende representatief voor het hele genoom en zou dus ook bruikbaar moeten zijn voor het vergelijken van genomen binnen de kruisbloemenfamilie.

Dezelfde technologie als ChatGPT

De technologie die Schon wil gebruiken voor de GeneSketch is dezelfde als die momenteel al wordt toegepast in andere AI-tools, zoals ChatGPT. Schon: “Deze technologie heet Transformers. Je kunt een Transformer bijvoorbeeld vragen een ontbrekend woord in een zin in te vullen. In eerste instantie krijg je dan een willekeurig woord, omdat de Transformer nooit eerder woorden heeft gezien. Maar als je ‘m traint op miljoenen voorbeelden door op patronen in de tekst te letten, leert hij langzaam de juiste woorden te raden. In plaats van voor menselijke taal kun je een Transformer ook trainen de taal van DNA te leren. Deze taal bestaat uit een tekst met zijn eigen patronen.”

Model moet getraind worden

Schon gaat de Transformer voor de GeneSketch trainen aandacht te besteden aan de patronen in DNA voor het voorspellen van niet-coderende genen. Bij het ontwikkelen hiervan komen volgens hem nog wel wat uitdagingen kijken. “Een belangrijke is de betrouwbaarheid. De Transformer is een relatief nieuwe technologie en kan nog weleens foutjes bevatten. Bij ChatGPT kan het bijvoorbeeld voorkomen dat verschillende stukken informatie bij elkaar worden gehaald die afzonderlijk wel kloppen, maar als geheel niet. Zulke foutieve output wil je natuurlijk voorkomen. Dat kan door training, maar dat kost veel tijd en geld. Daarnaast wil ik nog verder uitzoeken of ik het model helemaal vanaf nul ga opbouwen of dat ik ga voortbouwen op bestaande modellen.”

Potentie van de GeneSketch

Schon hoopt na het eerste jaar van het project – dat in oktober 2023 is gestart – een prototype te hebben van de GeneSketch. Deze wil hij gebruiken voor het maken van gen-annotaties voor de hele kruisbloemenfamilie. Behalve voor de onderzoekswereld kan ook de agrarische industrie veel baat hebben bij de tool, zegt Schon. “Het kan bijvoorbeeld zaadveredelaars op een snelle manier inzichten bieden over verwantschappen en de oorsprong van zaden en hoe gewassen door de eeuwen heen unieke eigenschappen hebben kunnen ontwikkelen. Op basis hiervan kunnen ze relatief eenvoudig aanpassingen doen, zoals het weerbaarder maken van gewassen tegen klimaatverandering. De potentiële impact kan dus groot zijn.”

 



More news from: Wageningen University & Research


Website: http://www.wur.nl

Published: May 17, 2024

The news item on this page is copyright by the organization where it originated
Fair use notice

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  Archive of the news section

 


Copyright @ 1992-2024 SeedQuest - All rights reserved