Décrire des mots

décrire des mots

l’idée du moteur de description des mots est venue lorsque je construisais le moteur pour les mots connexes (c’est comme un thésaurus, mais vous donne un ensemble beaucoup plus large de mots connexes, plutôt que de simples synonymes). Tout en jouant avec les vecteurs de mots et L’API « HasProperty » de conceptnet, je me suis un peu amusé à essayer d’obtenir les adjectifs qui décrivent généralement un mot. Finalement, j’ai réalisé qu’il y avait une bien meilleure façon de le faire: analyser les livres!,

Project Gutenberg était le corpus initial, mais l’analyseur est devenu de plus en plus gourmand et j’ai fini par le nourrir quelque part autour de 100 gigaoctets de fichiers texte – principalement de la fiction, y compris de nombreuses œuvres contemporaines. L’analyseur examine simplement chaque livre et extrait les différentes descriptions des noms.,

espérons que c’est plus qu’une simple nouveauté et que certaines personnes le trouveront utile pour leur écriture et leur brainstorming, mais une petite chose intéressante à essayer est de comparer deux Noms qui sont similaires, mais différents d’une manière significative – par exemple, le genre est intéressant: « femme » contre « homme » et « garçon » contre « fille ». Sur une analyse rapide initiale, il semble que les auteurs de fiction sont au moins 4 fois plus susceptibles de décrire les femmes (par opposition aux hommes) avec des termes liés à la beauté (en ce qui concerne leur poids, leurs caractéristiques et leur attractivité générale)., En fait, « belle » est peut-être l’adjectif le plus utilisé pour les femmes dans toute la littérature mondiale, ce qui est tout à fait conforme à la représentation unidimensionnelle générale des femmes dans de nombreux autres médias. Si quelqu’un veut faire d’autres recherches à ce sujet, faites – le moi savoir et je peux vous donner beaucoup plus de données (par exemple, il y a environ 25000 entrées différentes pour « femme » – trop pour montrer ici).

Le bleu des résultats représente leur fréquence relative. Vous pouvez survoler un élément pendant une seconde et le score de fréquence devrait apparaître., Le tri » unicité  » est par défaut, et grâce à mon algorithme compliqué™, il les ordonne par l’unicité des adjectifs à ce nom particulier par rapport aux autres noms (c’est en fait assez simple). Comme vous vous en doutez, vous pouvez cliquer sur le bouton « Trier par fréquence d’utilisation » pour les adjectifs en fonction de leur fréquence d’utilisation pour ce nom.

Share

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *