$re = '/\b(MON|MA|MES|TON|TA|TES|SON|SA|SES|LE|LA|LES|UN|UNE|DES|CECI|CETTE|CES|CELA)\b/i';
$str = 'Ceci est un fichier texte, qui permettra entre autre le test du Tokenizing en Java. Il aura pour but de différencier 3 types de tokens:
- Les mots,
- Les phrases,
- Les questions.
Chacun d\'entre eux sont particuliers, entre autre, le mot est similaire à l\'appélation classique. Les phrases sont, par définition, un ensemble de mots
délimités entre deux points. Quant aux questions, elles sont délimitées par un point d\'intérrogation et par une expression définie selon la langue, un mot intérrogatif.
Comment procéder à tout ça?
Les étapes se divisent de plusieurs manières.
On va d\'abord prendre en entrée un texte classique pour tester la tokenization en mots. Une fois validée, nous passeront au tests sur fichier txt,
puis enfin, nous tenterons de différencier les phrases.
Faut-il pour autant limiter les intérrogations aux simples mots classiques de la langue française?
Cette phrase juste avant est, en l\'occurence, une intérrogation, ne commançant par aucun mot intérrogatif.
Enervant, n\'est-ce-pas? Parce que je recommence, j\'aime m\'ajouter du challenge!
Oups, j\'ai ajouté une phrase exclamative! Et encore une! Bon, ok, j\'arrête... Et de la suspension maintenant.
Bon, je pense que je vais m\'arrêter là pour le fichier, ça devient trop là.
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam,
quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident,
sunt in culpa qui officia deserunt mollit anim id est laborum.
';
preg_match_all($re, $str, $matches, PREG_SET_ORDER, 0);
// Print the entire match result
var_dump($matches);
Please keep in mind that these code samples are automatically generated and are not guaranteed to work. If you find any syntax errors, feel free to submit a bug report. For a full regex reference for PHP, please visit: http://php.net/manual/en/ref.pcre.php