En ce moment, c'est dur: on m'avait dit il y a très très longtemps que pour faire de l'informatique, il fallait être fort en mathématiques (je parle de la science, pas de «Je suis informaticien, je sais télécharger des DivX sur Emule et même qu'une fois, j'ai installé Linux»). J'ai toujours cru que c'est de la connerie et je me souviens même avoir ris au nez de la personne me disant ça… et en fait, c'est vrai ! Je n'ai pas encore décrit mon projet ici, mais je travaille avec des données représentées sous formes de vecteurs dans un espace vectoriel de dimension n, avec n typiquement supérieur à 10 000. Enfin bref, c'est plein d'algèbre linéaire et de matrices et en ce moment j'étudie ce point particulier, le SVD:





Pour ceux que ça intéresse, c'est une méthode de réducion dimensionelle, et l'article est là: http://fr.wikipedia.org/wiki/Analyse_s%C3%A9mantique_latente
Et je vous épargne la publication originale de fin de thèse des inventeurs de cette théorie, beaucoup plus poussé et en anglais…

Ah oui, parce que l'autre point est le suivant:

  • Lire un document scientifique, ça demande de la concentration
  • Lire un document qui présente des notions/théories mathématiques, ça demande de la concentration
  • Lire un document un anglais, ça demande de la concentration

Et quand les trois points sont réunis, ça devient d'une complexité quadratique (O(n2) en notation de Landrau). Bref, faut s'accrocher mais ça me plaît énormément !!
Exemple:

Explicit representation of both terms and documents. The desire to represent both terms and documents simultaneously is more than esthetic. In our proximity-based latent structure paradigm, retrieval proceeds by appropriately placing a new object corresponding to the query in the semantic structure and finding those documents that are close by. One simple way to achieve appropriate placement is if terms, as well as documents, have positions in the structure. Then a query can be placed at the centroid of its term points. Thus for both elegance and retrieval mechanisms, we needed what are called two-mode proximity methods (Carroll and Arabie [10] ), that start with a rectangular matrix and construct explicit representations of both row and column objects. One such method is multidimensional unfolding [22] [23] [24] , in which both terms and documents would appear as points in a single space with similarity related monotonically to Euclidean distance. Another is two-mode factor analysis [25] [26] [27] [28] , in which terms and documents would again be represented as points in a space, but similarity is given by the inner product between points. A final candidate is unfolding in trees [29] , in which both terms and documents would appear as leaves on a tree, and path length distance through the tree would give the similarity (one version of this is equivalent to simultaneous hierarchical clustering of both terms and objects). The explicit representation of both terms and documents also leads to a straightforward way in which to add or "fold-in" new terms or documents that were not in the original matrix. New terms can be placed at the centroid of the documents in which they appear; similarly, new documents can be placed at the centroid of their constituent terms.3

En attendant, même si je ne pense pas être particulièrement représentatif, j'espère que ça fera un petit peu réfléchir certaines personne sur le débat récurrent: «A l'ISEN, on ne fait pas assez de pratique. On n'apprend des trucs qui nous servirons jamais en entreprise». Oui, à l'ISEN, on fait beaucoup de théories; oui, cela ne servira pas en entreprise; Mais oui, l'ISEN forme des ingénieurs, pas des techniciens…

Adaptabilité mes amis, adaptabilité…