Lenguaje y género en Reddit: Contrastes entre r/AskMen y r/AskWomen

Métodos Computacionales para las Ciencias Sociales

Cristóbal Mejías G. & Felipe Vega G.

3 de octubre de 2025

Introducción

Hoy en día, la mayoría de las interacciones sociales se dan de forma digital a través de diversas plataformas, lo que provoca que, tanto el género y el lenguaje se construyan de manera digital y globalizada.

Relevancia

  1. Redes sociales son un espacio principal de socialización y construcción de género hoy en día.

  2. Permite identificar discursos que producen y reproducen estereotipos o roles de género.

  3. Posibilita distinguir los diferente perfiles de usuarios en las discusiones ligadas al género.

Pregunta de investigación

¿Qué diferencias discursivas existen en torno al género en los comentarios de los usuarios de los subreddit r/AskMen y r/AskWomen en Reddit?

¿Qué se puede hacer con los datos?

  1. Comparación y análisis de contenido a partir del género.
  2. Análisis cruzado, es decir, de qué se habla con respecto al género opuesto en cada subreddit
  3. Análisis de los diferentes perfiles de usuarios que interactúan en estos foros con respecto a su género e identidad.

r/AskMen

r/AskMen: creado el 30 de agosto de 2010, con ~2 millones de miembros y ~41 mil contribuciones semanales. Su lema principal es un lugar para discutir sobre la experiencia masculina.

r/AskWomen

r/AskWomen: creado el 17 de julio de 2010, cuenta con ~946 mil suscriptores y ~14 mil usuarios activos. Su propósito es ofrecer un espacio donde las mujeres puedan hablar sobre sus pensamientos, vidas y experiencias.

PRAW

Se utilizó la API de Reddit, mediante la librería PRAW. Esta herramienta permite automatizar la recolección de publicaciones y comentarios, asegurando un volumen considerable de datos y facilitando su análisis.

Tutorial: inscripción de la aplicación

Se inscribió una aplicación para poder hacer uso de la API de Reddit. En el siguiente enlace podrán encontrar un tutorial de cómo crear una app.

Tutorial: autenticación con PRAW

Para utilizar la API se trabajará en Python y se usará Positron como entorno de trabajo. Como primer paso, dentro del entorno de trabajo, se requieren las siguientes librerías.

import praw
from datetime import datetime
import pandas as pd # para manipulación de dataframes
from dotenv import load_dotenv # cargar variables de ambiente
import os # cargar variables de ambiente

Tutorial: autenticación con PRAW

Se requiere crear un text file .env para escribir las credenciales y guardarlas en el ambiente. Si las variables dentro de este archivo están funcionando correctamente, load_dotenv() debería responder True.

load_dotenv()

Tutorial: autenticación con PRAW

Se crean variables que contengan los tokens del archivo .env.

client_id = os.getenv('CLIENT_ID')
client_secret = os.getenv('CLIENT_SECRET')
username = os.getenv('USERNAME')
password = os.getenv('PASSWORD')
user_agent = os.getenv('USER_AGENT')
auth_url = "https://www.reddit.com/api/v1/access_token"

Mediante la función reddit de PRAW, se hará la siguiente autenticación:

reddit = praw.Reddit(
    client_id=client_id,
    client_secret=client_secret,
    user_agent=user_agent
)

Tutorial: proceso de extracción de datos

La extracción de datos se hizo a partir de los subreddits de r/AskMen y r/AskWomen. Para asegurar una cantidad de datos robusta, la extracción se hizo un día por medio a partir del 25/09/2025.

Tutorial: proceso de extracción de datos de r/AskMen

Se creó una variable que contenga el subreddit de donde se quiere extraer la información y una lista para contener los comentarios de cada publicación.

subreddit_askmen = reddit.subreddit("AskMen")
comentarios_askmen = []

Tutorial: proceso de extracción de datos de r/AskMen

Se creó un for anidado para las publicaciones y los comentarios. De esta forma, se fueron recolectando cada comentario de cada publicación del día en el subreddit.

for submission in subreddit_askmen.top(time_filter="day", limit=1000):
    submission.comments.replace_more(limit=None)

    for comment in submission.comments:
        askmen = [
            subreddit_askmen,
            submission.author,
            submission.id,
            submission.title,
            submission.num_comments,
            submission.over_18,                
            submission.score,              
            comment.author,
            comment.id,
            comment.body,
            comment.score,
            datetime.fromtimestamp(comment.created_utc)                    
        ]
        comentarios_askmen.append(askmen)

Tutorial: proceso de extracción de datos de r/AskMen

Se creó un dataframe que contiene las variables extraídas y se les asignó nombres. A la base de dato se le colocó “nombresubreddit_fecha” para poder organizarlas por día. Para efectos de este tutorial, los nombres de las BBDD serán fecha xxxx.

askmen_xxxx = pd.DataFrame(
    comentarios_askmen,
    columns=["subreddit_nombre", "submission_autor", "submission_id", "submission_titulo",
     "submission_numcom", "submission_NSFW", "submission_puntaje",
     "comentario_autor", "comentario_id", "comentario_body", "comentario_puntaje", "comentario_fecha"]
)

askmen_xxxx.to_csv("askmen_xxxx.csv", index=False)

Tutorial: proceso de extracción de datos de r/AskWomen

A continuación, se repite el mismo procedimiento, pero cambiando al subreddit a r/AskWomen.

subreddit_askwomen = reddit.subreddit("AskWomen")
comentarios_askwomen = []

for submission in subreddit_askwomen.top(time_filter="day", limit=1000):
    submission.comments.replace_more(limit=None)

    for comment in submission.comments:
        askwomen = [
            subreddit_askwomen,
            submission.author,
            submission.id,
            submission.title,
            submission.num_comments,
            submission.over_18,                
            submission.score,              
            comment.author,
            comment.id,
            comment.body,
            comment.score,
            datetime.fromtimestamp(comment.created_utc)                    
        ]
        comentarios_askwomen.append(askwomen)

askwomen_xxxx = pd.DataFrame(
    comentarios_askwomen,
    columns=["subreddit_nombre", "submission_autor", "submission_id", "submission_titulo",
     "submission_numcom", "submission_NSFW", "submission_puntaje",
     "comentario_autor", "comentario_id", "comentario_body", "comentario_puntaje", "comentario_fecha"]
)

askwomen_xxxx.to_csv("askwomen_xxxx.csv", index=False)

Tutorial: unión de BBDD para procesamiento

Desde este paso, se comienza a trabajar con R. Para esto, se requiere instalar las siguientes liberías, más la opción de eliminar notifiación científica y limpiar el entorno de trabajo.

library(dplyr)     # Manipular datos 
library(readr)     # Leer datos 
library(tidyr)     # Tratamiento datos
library(ggplot2)   # Gráficos
library(stringr)   # Trabajar con texto
library(gt)        # Tablas
options(scipen = 999)
rm(list = ls())

Tutorial: unión de BBDD para procesamiento

Se cargan las BBDD guardadas con formato .csv y se unen todas en una base de datos llamada “datos_ask”. En el caso de tener más extracciones, se deben ir agregando siguiendo el mismo procedimiento.

askmen_xxxx <- read_csv("askmen_xxxx.csv")
askwomen_xxxx <- read_csv("askwomen_xxxx.csv")

datos_ask <- bind_rows(askmen_xxxx, askwomen_xxxx)

write_csv(datos_ask, "datos_ask.csv")

Tutorial: procesamiento de BBDD

Se creó una nueva base de datos procesada (datos_ask_proc) a la cual se le realizaron recodificaciones y filtros.

datos_ask_proc <- datos_ask %>%
  mutate(submission_NSFW = case_when(
    submission_NSFW == "FALSE" ~ 0,
    submission_NSFW == "TRUE" ~ 1)) %>%
  separate(comentario_fecha, into = c("comentario_fecha", "comentario_hora"), sep = " ") %>%
group_by(comentario_fecha)%>%
  filter(n() > 100) %>%
  ungroup()%>%
group_by(submission_id) %>%
  filter(n() > 1)

as.Date(datos_ask_proc$comentario_fecha)

write_csv(datos_ask_proc, "datos_ask_proc.csv")

Variables

Variables incluidas en el análisis
Definición de cada variable del dataset procesado
Variable Definición
subreddit_nombre Nombre del subreddit de donde proviene la publicación (AskMen o AskWomen).
submission_autor Usuario que creó la publicación original.
submission_id Identificador único de la publicación en Reddit.
submission_titulo Título de la publicación realizada en el subreddit.
submission_numcom Número total de comentarios que recibió la publicación.
submission_NSFW Indica si la publicación fue marcada como NSFW (Not Safe For Work) (0=no, 1=sí).
submission_puntaje Puntaje total de la publicación (upvotes – downvotes).
comentario_autor Usuario que escribió el comentario.
comentario_id Identificador único de cada comentario en Reddit.
comentario_body Texto completo del comentario.
comentario_puntaje Puntaje del comentario (upvotes – downvotes).
comentario_fecha Fecha en que se realizó el comentario (formato día-mes-año).
comentario_hora Hora en que se realizó el comentario.

Análisis descriptivo: actividad por día

Tabla 1: Comentarios por día
Cantidad de comentarios únicos en r/AskMen y r/AskWomen
Fecha Subreddit Comentarios
2025-09-25 AskMen 1,984
2025-09-25 AskWomen 691
2025-09-27 AskMen 1,937
2025-09-27 AskWomen 214
2025-09-29 AskMen 2,023
2025-09-29 AskWomen 254
2025-10-01 AskMen 1,387
2025-10-01 AskWomen 595
NA Total 9,085

Análisis descriptivo: actividad por día

Análisis descriptivo: comentarios por subreddit

Tabla 2: Estadísticos descriptivos
Descriptivos de comentarios diarios por subreddit
Subreddit Media Mínimo Máximo
AskMen 1,833 1,387 2,023
AskWomen 438 214 691

Análisis descriptivo: puntajes en publicaciones por subreddits

Análisis descriptivo: contenido NSFW

Directrices de investigación

Para la investigación a futuro, se busca realizar un análisis específico de contenido con respecto al género. Por ejemplo, de insultos, contenido sexual, emociones, entre otros.

Gracias por su atención !

Referencias bibliográficas

Criado, N., Ferrer, X., Such, J. & Van Nuenen, T. (2021). Discovering and Categorising Language Biases in Reddit. Proceedings of the International AAAI Conference on Web and Social Media, 15(1), 140-151. https://doi.org/10.1609/icwsm.v15i1.18048 

Sawicki, J. & Solska, D. (2024). Decoding gender bias through a textual exploration of Reddit /r/MensRights community. Beyond Philology, 1(21), 167-202. https://doi.org/10.26881/bp.2024.1.06

Scholz, S., Stang, P., Weiss, M. & Winkler, C. (2025). Changing Conversations: The Rise of Gender and Sexuality Discourse on Reddit. Arch Sex Behav, 54, 1–5. https://doi.org/10.1007/s10508-024-03051-9