import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Example {
public static void main(String[] args) {
final String regex = "\\b(MON|MA|MES|TON|TA|TES|SON|SA|SES|LE|LA|LES|UN|UNE|DES|CECI|CETTE|CES|CELA)\\b";
final String string = "Ceci est un fichier texte, qui permettra entre autre le test du Tokenizing en Java. Il aura pour but de différencier 3 types de tokens: \n"
+ "- Les mots,\n"
+ "- Les phrases,\n"
+ "- Les questions.\n\n"
+ "Chacun d'entre eux sont particuliers, entre autre, le mot est similaire à l'appélation classique. Les phrases sont, par définition, un ensemble de mots\n"
+ "délimités entre deux points. Quant aux questions, elles sont délimitées par un point d'intérrogation et par une expression définie selon la langue, un mot intérrogatif.\n\n"
+ "Comment procéder à tout ça?\n\n"
+ "Les étapes se divisent de plusieurs manières.\n\n"
+ "On va d'abord prendre en entrée un texte classique pour tester la tokenization en mots. Une fois validée, nous passeront au tests sur fichier txt,\n"
+ "puis enfin, nous tenterons de différencier les phrases.\n\n"
+ "Faut-il pour autant limiter les intérrogations aux simples mots classiques de la langue française?\n\n"
+ "Cette phrase juste avant est, en l'occurence, une intérrogation, ne commançant par aucun mot intérrogatif.\n\n"
+ "Enervant, n'est-ce-pas? Parce que je recommence, j'aime m'ajouter du challenge!\n\n"
+ "Oups, j'ai ajouté une phrase exclamative! Et encore une! Bon, ok, j'arrête... Et de la suspension maintenant.\n\n"
+ "Bon, je pense que je vais m'arrêter là pour le fichier, ça devient trop là.\n\n"
+ "Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam,\n"
+ "quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.\n"
+ "Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident,\n"
+ "sunt in culpa qui officia deserunt mollit anim id est laborum.\n";
final Pattern pattern = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
final Matcher matcher = pattern.matcher(string);
while (matcher.find()) {
System.out.println("Full match: " + matcher.group(0));
for (int i = 1; i <= matcher.groupCount(); i++) {
System.out.println("Group " + i + ": " + matcher.group(i));
}
}
}
}
Please keep in mind that these code samples are automatically generated and are not guaranteed to work. If you find any syntax errors, feel free to submit a bug report. For a full regex reference for Java, please visit: https://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html