Deteccción de Lenguaje
En esta página, se puede probar un Klasificador Texe
K trebajando como detector de lenguaje.
El Klasificador ha sido construido declarando cuatro
clases, una para cada lenguaje que se desea detectar:
- 'ang' para el inglés
- 'frn' para el francés
- 'cas' para el castellano
- 'cat' para el catalán
usando como ejemplos de cada una de las lenguas 3 textos
procedentes del catálogo del
Project Gutemberg ,
específicamente:
- class 'ang' refs: 11297,
11298, 11303
- class 'frn' refs: 10061,
10346, 11300
- class 'cas' refs: 10293,
11070, 11302
- class 'cat' refs: 11306,
14768, 14816
El procés de creación del Klasificador no tomó
más de 5 minutos. No se ha usado ningún criterio en
especial al
seleccionar estos textes com ejemplos de los lenguajes a detectar,
excepto el hecho de vigilar que no contuvieran
mezcla de distintas lenguas.
Para probar este Klasificador Texe
K,
basta con entrar una frase en cualquiera de los cuatro idiomas y
pulsar el botón 'submit'. El Klasificador intentará
detectar el lenguaje emplado en su frase.
Detección de Notícias en
inglés
En esta sección se dispone de un Klasificador Texe
K diseñado para trabajar como detector de tipo de noticias en lenguaje inglés.
Estet Klasificador ha sido construido declarando cinco tipos de
notícias.
- 'bussines' para
notícias de negocios
- 'entertainment' para notícias de
sociedad
- 'health' para notícias de salud
- 'scitech' para
notícias de ciencia
- 'sports' pera
notícias de deportes
Para cada una de las clases se han usado unos 100 ejemplos de
notícias sacadas de Google News entre los dias 6 y
15 de Junio del 2005.
La única consideración que se ha tenido en cuenta al
elegir estos ejemplo ha sido el evitar páginas web basadas
en subscripciones o que redirigieran a otras páginas.
Para probar el Klasificador Texe
K,
basta con entrar la url entera de la página con la noticia en inglés que se desee clasificar y
pulsar el botó n'submit'. El Klasificador se
bajará la página, e intentará
detectar de que tipo de notícias sa trata.