Crea un profilo in modo da poter essere trovato dalle aziende, ottenere offerte di lavoro più adatte alle tue esigenze e candidarti più velocemente.
  • Cerca lavoro
  • Preferiti
  • Crea CV
    Novità
  • Stipendi
  • Iscrizioni

Evaluation Scenario Writer - AI Agent Testing Specialist

32 $/ora

Mindrift

3 days ago Be among the first 25 applicants This opportunity is only for candidates currently residing in the specified country. Your location may affect eligibility and rates. Please submit your resume in English and indicate your level of English.

At Mindrift, innovation meets opportunity. We believe in using the power of collective human intelligence to ethically shape the future of AI.

What We Do

The Mindrift platform, launched and powered by Toloka, connects domain experts with cutting-edge AI projects from innovative tech clients. Our mission is to unlock the potential of GenAI by tapping into real-world expertise from across the globe.

About The Role

We're looking for someone who can design realistic and structured evaluation scenarios for LLM-based agents. You'll create test cases that simulate human-performed tasks and define gold‑standard behavior to compare agent actions against. You'll work to ensure each scenario is clearly defined, well‑scored, and easy to execute and reuse. You'll need a sharp analytical mindset, attention to detail, and an interest in how AI agents make decisions.

Responsibilities
  • Design structured test scenarios based on real‑world tasks
  • Define the golden path and acceptable agent behavior
  • Annotate task steps, expected outputs, and edge cases
  • Work with devs to test your scenarios and improve clarity
  • Review agent outputs and adapt tests accordingly
How To Get Started

Simply apply to this post, qualify, and get the chance to contribute to projects aligned with your skills, on your own schedule. From creating training prompts to refining model responses, you'll help shape the future of AI while ensuring technology benefits everyone.

Requirements
  • Bachelor's and/or Master's Degree in Computer Science, Software Engineering, Data Science / Data Analytics, Artificial Intelligence / Machine Learning, Computational Linguistics / Natural Language Processing (NLP), Information Systems or other related fields.
  • Background in QA, software testing, data analysis, or NLP annotation
  • Good understanding of test design principles (e.g., reproducibility, coverage, edge cases)
  • Strong written communication skills in English
  • Comfortable with structured formats like JSON/YAML for scenario description
  • Can define expected agent behaviors (gold paths) and scoring logic
  • Basic experience with Python and JS
  • Curious and open to working with AI‑generated content, agent logs, and prompt‑based behavior
  • Ready to learn new methods, able to switch between tasks and topics quickly and sometimes work with challenging, complex guidelines
  • Freelance role is fully remote; you just need a laptop, internet connection, time available, and enthusiasm to take on a challenge
Nice to Have
  • Experience in writing manual or automated test cases
  • Familiarity with LLM capabilities and typical failure modes
  • Understanding of scoring metrics (precision, recall, coverage, reward functions)
Benefits
  • Get paid for your expertise, with rates that can go up to $32/hour depending on your skills, experience, and project needs
  • Take part in a flexible, remote, freelance project that fits around your primary professional or academic commitments
  • Participate in an advanced AI project and gain valuable experience to enhance your portfolio
  • Influence how future AI models understand and communicate in your field of expertise
Seniority level

Entry level

Employment type

Part‑time

Job function

Other

Industries

IT Services and IT Consulting

#J-18808-Ljbffr
Offerta di lavoro pubblicata 11 giorni fa
Offerte di lavoro simili
  • 30 $/ora

     ...English proficiency. Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems....  ...sources. Write comprehensive functional tests that validate actual end-to-end behavior... 
    Consigliato
    Temporaneo
    Impiego permanente

    Mindrift

    Torino
    11 giorni fa
  •  ...Within the team of hardware in the loop and testing you will directly work on the software...  ...networked and Agile team. Together with specialists about hardware in the loop, modeling and...  ...and/or on the vehicle (lab/road); Test Cases implementation based on system requirements... 
    Consigliato
    Smart working
    Auto aziendale
    Orario flessibile

    Italdesign Giugiaro

    Moncalieri (TO)
    2 giorni fa
  •  ...In questa posizione, sarai responsabile di sviluppare e mantenere test automatizzati su una piattaforma crypto-commerce attiva in oltre...  ...possibilità di collaborare con team internazionali e di utilizzare strumenti AI per migliorare il lavoro quotidiano. #J-18808-Ljbffr... 
    Consigliato
    Lavoro ibrido

    Blox Space

    Torino
    1 giorno fa
  •  ...team è distribuito e conta circa 90 persone. Il team QA è piccolo, hands-on e nel mezzo di una transizione verso workflow di test automation e AI-augmented QA: l’infrastruttura è già in piedi, quello che manca è una persona dedicata a costruire, mantenere e scalare le... 
    Consigliato
    Smart working
    Lavoro ibrido
    Remoto

    Blox Space

    Torino
    1 giorno fa
  • Framework Ventures is seeking an AI Filmmaker to create and edit short films using AI tools, collaborating closely with the marketing department. The ideal candidate will have proven video production experience and proficiency in various AI video generation tools, such... 
    Consigliato
    Remoto

    Framework Ventures

    Torino
    9 giorni fa
  • 35.000 €

     ...Itconsulting srl, società di consulenza IT, cerca un Automation Tester con almeno 4 anni di esperienza. La posizione è full remote e richiede padronanza di tecnologie di automazione mobile e web, oltre a conoscenze di Python, JavaScript e TypeScript. Offriamo un pacchetto... 
    Remoto

    Itconsulting srl

    Torino
    11 giorni fa
  • 32.731,92 € - 43.000 €

    ## VEL - Test Systems DesignerApplylocations: IT - Torino - C.so Franciatime type: Full timeposted on: Posted Todaytime left to apply: End Date: December 1, 2026 (30+ days left to apply)job requisition id: R0026641**Job Description:****Leonardo** è uno dei partner industriali... 
    Part-time
    Impiego permanente
    Lavoro ibrido

    Leonardo Worldwide Corporation

    Torino
    1 giorno fa
  • 32.731,92 € - 43.000 €

     ...Leonardo Worldwide Corporation a Torino ricerca un Test Systems Designer per il programma GCAP, con focus su integrazione e verifica di sistemi di prova avionici. Il candidato ideale ha una laurea in ingegneria aerospaziale e almeno 2 anni di esperienza nel settore.... 
    Impiego permanente
    Lavoro ibrido

    Leonardo Worldwide Corporation

    Torino
    1 giorno fa
  • 32.731,92 € - 43.000 €

     ...Leonardo SpA, situata a Torino, cerca un Test Systems Designer per il programma Gcap. La figura sarà responsabile dell'analisi e dell'elicitazione dei requisiti, nonché dello sviluppo di sistemi di test per sistemi avionici. Si richiede laurea in Ingegneria Aerospaziale... 
    Impiego permanente
    Lavoro ibrido

    Leonardo SpA

    Pianezza (TO)
    22 ore fa
  •  ...Hire Feed is looking for fluent language professionals to assist in training and evaluating AI language models. This flexible, part-time role allows you to work from home on your own schedule, ideal for professionals in writing, teaching, or translation fields. As a language... 
    Part-time
    Remoto
    Lavoro da casa
    Orario flessibile

    Hire Feed

    Torino
    8 ore fa
  •  ...stabilimenti in 6 paesi. In Italia la presenza sul territorio è assicurata da una rete di filiali a gestione diretta.Posizione Technical Writer - Redattore Tecnico Stiamo ricercando un Redattore Tecnico altamente qualificato e motivato per unirsi al nostro team. Il... 

    Jobtome

    Torino
    6 giorni fa
  • SNIPER SRL cerca un Business Developer Commerciale in Piemonte. Il candidato avrà il compito di sviluppare nuove opportunità commerciali e gestire il rapporto con i clienti. Trasformerà idee in progetti reali, valorizzando i servizi offerti dall'agenzia.Il profilo ideale...

    SNIPER SRL

    Torino
    2 giorni fa
  • 28.000 € - 32.000 €

     ...sempre al primo posto. Posizione: Tester AI Seniority: Middle (almeno 3 anni di esperienza...  ...di Progettare, sviluppare ed eseguire test automatizzati per applicazioni web e...  ...evoluzione dei test. Definire e strutturare Agent Skills e playbook di test riutilizzabili... 
    Impiego permanente
    Remoto

    agap2 Italia

    Torino
    6 giorni fa
  •  ...primo posto. Posizione: Senior Functional Tester Seniority: Esperto (almeno 4 anni di...  ...Functional Tester con consolidata esperienza in testing funzionale, backend testing e API testing...  ...e tecnici, definizione scenari di test e test case Esecuzione di test funzionali... 
    Impiego permanente

    Agap2 Italia

    Torino
    9 giorni fa
  •  ...Business Developer Commerciale — Agente, Consulente o Procacciatore Figura dedicata allo sviluppo di nuove opportunità e alla gestione...  ...media management, content marketing Progetti di trasformazione AI per PMI: automazioni, integrazione strumenti, formazione interna... 
    Contratto con partita IVA

    SNIPER SRL

    Torino
    3 giorni fa
  •  ...Communication , capace di gestire progetti iper-creativi dalla strategia al copywriting: naming, comunicazione prodotto sul punto vendita, testi per cataloghi, activation concept e molto altro. Cerchiamo una persona curiosa, brillante e versatile, in grado di trasformare... 

    Arc's s.r.l.

    Torino
    26 giorni fa
  •  ...per il Nord Ovest (Piemonte, Liguria e Valle d'Aosta). Il candidato ideale ha almeno 3 anni di esperienza, padronanza nell'uso dell'AI per massimizzare la produttività e buona conoscenza del prodotto Motor. Il ruolo prevede responsabilità nella gestione degli intermediari... 

    Michael Page International Italia S.r.l.

    Torino
    2 giorni fa
  • Are you passionate about language and healthcare? Do you thrive on solving linguistic puzzles, like deciphering challenging handwritten medical notes? If so, we’d love to hear from you! The Language Doctors, Inc. is looking for skilled Italian-to-English medical translators...
    Libero professionista
    Lungo termine
    Remoto
    Orario flessibile

    The Language Doctors, Inc.

    Torino
    11 giorni fa
  • A medical translation company is looking for skilled Italian-to-English medical translators and editors in Milan. This remote role allows flexibility while engaging in long-term projects that contribute to healthcare clarity. Candidates should have over five years of experience...
    Lungo termine
    Remoto
    Orario flessibile

    The Language Doctors, Inc.

    Torino
    11 giorni fa
  •  ...dignitosamente almeno Canva e sappia cosa sia un brand kit No AI slop: siamo assolutamente pro l’utilizzo di tool AI e hai la piena...  ...: ti verranno forniti già pronti e scritti Caption, copy e testi: tutta la parte testuale e di scrittura dei post è a carico nostro... 
    Libero professionista
    Contratto con partita IVA
    Lavoro ibrido

    Jobtome

    Torino
    6 giorni fa
  • 27.000 € - 32.000 €

     ...posizionamento. Attualmente siamo alla ricerca di un/una Junior AI Agent Developer / Cloud DevOps che affiancato da figure senior e...  ...agli ambienti. Supportarterà quindi il team nello sviluppo, test e rilascio di componenti per agenti AI in ambiente Azure, crescendo... 
    Orario flessibile

    Digital360 GOV

    Torino
    5 giorni fa
  • 30 $/ora

     ...the future of AI. What We...  ...systems are tested and evaluated? This is a...  ...autonomous AI agents for a new...  ...logic, and agent evaluation frameworks...  ...through scenarios,...  ...closely with QA, writers, or developers...  ...structured scenario design Background...  ...with QA or test-case... 
    Part-time
    Impiego permanente
    Libero professionista
    Remoto
    Orario flessibile

    Mindrift

    Torino
    11 giorni fa
  • 30 $/ora

    An innovative AI project firm in Milan seeks QAs for autonomous AI agents. This flexible, project-based role requires strong analytical thinking, attention to detail...  ...role involves reviewing logic and completeness of scenarios and helping refine AI behaviors. Compensation can... 
    Remoto
    Orario flessibile

    Mindrift

    Torino
    11 giorni fa
  • 30.000 € - 35.000 €

    CGM Consulting S.r.l. cerca un/una Backend Developer AI Agent Platform con esperienza in Node.js e TypeScript. Il candidato ideale lavora su sistemi assicurando servizi backend scalabili e affidabili in un contesto Full Remote.Richieste buone competenze in JavaScript,... 
    Impiego permanente
    Remoto

    CGM Consulting S.r.l.

    Torino
    3 giorni fa
  • AeroFrohne LLC is seeking an independent contractor Matterport Pro3 Technician in Torino, Piemonte. This role involves coordinating with stakeholders, capturing detailed spatial data with the Matterport Pro3, and managing project files. The ideal contractor will need...
    Paga oraria
    Libero professionista

    AeroFrohne LLC

    Torino
    22 ore fa
  • Project Objective This project aims to test and evaluate one AI agent in the development stage. By asking questions and requests, based on various categories (the training is provided), you will try to force the AI agent to say something harmful, offensive, dangerous... 
    Tempo pieno
    Stage/Tirocinio
    Remoto

    TSMG Holding

    Torino
    11 giorni fa
  • A technology consulting firm is seeking a fully remote Project Evaluator for AI development. Responsibilities include generating requests and evaluating an AI agent's responses. The ideal candidate must be fluent in French and have intermediate English skills for training... 
    Tempo pieno
    Remoto

    TSMG Holding

    Torino
    11 giorni fa
  • Koinè snc, un’azienda in crescita nel settore della formazione, cerca un/una Copywriter Freelance creativo/a per scrivere contenuti per corsi online sul settore automotive. Il candidato ideale ha esperienza nel copywriting, ottime capacità di scrittura, e conoscenza dell...
    Libero professionista

    Jobtome

    Torino
    1 giorno fa
  •  ...evoluzione, dove competenze diverse si fondono per creare valore attorno al prodotto. Stiamo cercando un/a: Posizione Technical Writer Junior Lavorerai a Torino e sarai inserito nel team di documentazione tecnica DTC (Diagnostic Trouble Codes), con interesse... 
    Stage/Tirocinio
    Orario flessibile

    Jobtome

    Torino
    6 giorni fa
  •  ...trasformando la conoscenza di prodotto in soluzioni concrete, accessibili e utili per ogni fase del business. Junior DTC Technical Writer Lavorerai a Torino e sarai inserito nel team di documentazione tecnica DTC (Diagnostic Trouble Codes), con interesse per il mondo AG... 
    Stage/Tirocinio
    Lavoro da casa
    Orario flessibile

    Jobtome

    Torino
    4 giorni fa