Ver más

BeInCrypto, entre los sitios web que ayudaron a entrenar la IA de ChatGPT

2 mins
Por Josh Adams
Traducido por Eduardo Venegas
Únete a Nuestra Comunidad de Trading en Telegram

EN RESUMEN

  • BeInCrypto está incluido en el conjunto de datos C4 para entrenar IA.
  • Los grandes modelos de lenguaje como C4 y los que usa ChatGPT "raspan" Internet en busca de contenido para imitar la sintaxis humana.
  • El CommonCrawl sin fines de lucro incluye sitios web confiables, pero también materiales sin licencia y con derechos de autor.
  • promo

Nuestro sitio, BeInCrypto, se incluyó en un conjunto de datos para entrenar y mejorar la IA, como ChatGPT, según un análisis reciente.

BeInCrypto se ha incluido en un gran conjunto de datos para entrenar IA llamado C4.

Recientemente, el Washington Post y el Instituto Allen para la IA estudiaron el conjunto de datos C4 de Google para determinar qué sitios estaban alimentando las herramientas de IA.

Muchos modelos de lenguaje grandes han utilizado C4 (que significa Colossal Clean Crawled Corpus) como herramienta de instrucción.

BeInCrypto IA Washington Post
El Washington Post y el Allen Institute for AI clasificaron los sitios web en el conjunto de datos y reconocieron a BeInCrypto. Fuente: The Washington Post.

Sin embargo, ChatGPT de Open AI no utiliza este conjunto de datos.

Los modelos de lenguaje grande como C4, y el empleado por ChatGPT, “raspan” Internet en busca de contenido para incluir en su modelo.

La inmensidad del conjunto de datos permite que la IA imite el habla humana.

El periódico clasificó los sitios web de C4 utilizando datos de la empresa de análisis web Similarweb.

Luego, clasificaron los 10 millones de sitios web principales por la cantidad de “tokens” que contribuyeron.

Los tokens se refieren a fragmentos cortos de texto utilizados para dar sentido a datos no estructurados, que generalmente consisten en una palabra o una frase.

Los tres mayores contribuyentes al conjunto de datos fueron patents.google.com, wikipedia.org y scribd.com, una biblioteca digital basada en suscripción.

Y las organizaciones de noticias dominaron los primeros puestos, con The Guardian, New York Times, Forbes, LA Times y Huffington Post entre los 10 primeros.

Datos para C4 First Scraped en 2019

Otros sitios web que se destacan en gran medida incluyen Instructables, una plataforma en línea para compartir instrucciones y procedimientos de bricolaje.

Y los investigadores también encontraron al menos otros 27 sitios identificados por el gobierno de Estados Unidos como mercados para la piratería y las falsificaciones.

C4 comenzó como un raspado único de la organización sin fines de lucro CommonCrawl  en 2019.

Le dijeron al Washington Post que no intenta evitar el material con licencia o con derechos de autor.

Aunque sí trata de priorizar sitios web de alta calidad y confianza. Además, sus datos son de uso y análisis gratuitos.

A medida que la tecnología de IA continúa amenazando a varias industrias, el raspado de contenido para modelos de lenguajes grandes se ha vuelto cada vez más controvertido, particularmente en los sectores con mayor riesgo de IA.

Las empresas de formación en IA no compensan a los creadores de contenido por el uso de su trabajo.

Además, los artistas han atacado recientemente las herramientas de imagen de IA Midjourney y Stable Diffusion con una demanda por derechos de autor.

Y la demanda afirma que las herramientas de arte generativo de IA violan la ley de derechos de autor al copiar el trabajo de los artistas sin su consentimiento.

Los expertos esperan que se tomen más medidas contra el raspado de Internet.

Trusted

Descargo de responsabilidad

Descargo de responsabilidad: en cumplimiento de las pautas de Trust Project, BeInCrypto se compromete a brindar informes imparciales y transparentes. Este artículo de noticias tiene como objetivo proporcionar información precisa y oportuna. Sin embargo, se recomienda a los lectores que verifiquen los hechos de forma independiente y consulten con un profesional antes de tomar cualquier decisión basada en este contenido.

eduardo-venegas-scaled-e1626236160666.jpg
Eduardo Venegas
Soy un periodista con 14 años de experiencia en medios impresos y digitales, especializado en el periodismo de negocios. Estudié en la UNAM. Fui becario, redactor, reportero y editor en medios de negocios en México por 12 años, hasta que en el segundo semestre de 2021 me uní a las filas de BeInCrypto en Español como editor. En mi paso por los medios de negocio, pude conocer sobre el ecosistema de las criptomonedas de forma esporádica durante la gestación de le Ley FinTech en México en...
READ FULL BIO
Patrocinado
Patrocinado